爬虫网页框架代码和媒体对象
这节课我们学习了爬虫网页框架代码和媒体对象
我们在这节课运用到的第三方库有以下三个
(1)jieba库:
jieba.luct(s):分割中文词语
(2)beautifulsoup4库:
安装:pip install bs4/beautifulsoup4
常用导入方法:
导入库: from bs4 import BeautifulSoup
创建对象: soup=BeautifulSoup(文本/网页内容,'html.parser)
输出网页代码:print(soup.prettify())
(3)requests库:
方法:
r=requests.get('url'):发送请求获取资源对象,并且返回资源对象
requests.request(代码标签):构造请求
requests.head():获取网页头信息
而我这节课通过爬虫爬了以下几个网站
爬虫的代码如下
import requests
r=requests.get('网站')
r.status_code
print(r.status_code)
r.encoding
r.text
r.apparent_encoding
r.encoding=r.apparent_encoding
r.text[-500:] #从底部往上
r.text[:1000] #从开头开始
from bs4 import BeautifulSoup
demo=r.text
soup =BeautifulSoup(demo,'html.parser')
print(soup.prettify())
这算是通用模板,爬虫各种网站都是以这个为模板来的
而我则爬了以下几个网站
我爬的网站比较广
涉及现在人们所用到的各种类型网站
1.搜索引擎百度
2.游戏网站这个是我小时侯打游戏用的叫4399小游戏
3.视频网站优酷,人们可以通过优酷腾讯等等网站观看自己喜欢的剧或电影
4.淘宝网,现在人们离不开网购,而网购有许多的平台网站,我选择爬了比较广泛的一个淘宝网
5.CSDN博客
现在很多人们有记录的习惯通过博客来写自己的一些记录
而我把我写博客的网站通过爬虫爬了下来
以上就是我关于爬虫的了解
爬虫网页框架代码和媒体对象相关推荐
- python爬虫基本框架代码(入门)
首先下载并导入基本的库函数 import re import time import os.path import requests import urllib3 获取请求头(模拟浏览器访问网页) 获 ...
- HTML框架代码全集
网页框架代码<iframe border=0 name=lantk src="要嵌入的网页地址" width=400 height=400 allowTransparency ...
- get 到的html代码如何转码,爬虫网页转码逻辑
爬虫网页转码逻辑 最先出现的编码格式是ASCII码,这种编码规则是美国人制定的,大致的规则是用一个字节(8个bit)去表示出现的字符,其实由于在老美的世界里中总共出现的字符也不超过128个,而一个字节 ...
- dataObject可以去重吗java_python爬虫scrapy框架之增量式爬虫的示例代码
scrapy框架之增量式爬虫 一 .增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的 ...
- html网页div框架代码,div层仿网页框架布局特效代码
脚本代码(For Alixixi.com)如下: div层仿网页框架布局特效代码 - by 阿里西西 js.alixixi.com * { margin:0; padding:0; list-styl ...
- Bootstrap学习笔记——缩略图、警示框、进度条、媒体对象、列表组、画板
1 缩略图 缩略图(一) 缩略图在网站中最常用的地方就是产品列表页面,一行显示几张图片,有的在图片底下(左侧或右侧)带有标题.描述等信息. Bootstrap框架将这一部独立成一个模块组件.并通过&q ...
- python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
- MOOC《Python网络爬虫和信息提取》(第11次)网络爬虫之框架(第4周)
MOOC<Python网络爬虫和信息提取>(第11次)网络爬虫之框架(第4周) MOOC–Python网络爬虫和信息提取(第11次开课) 网络爬虫之框架 21.08.10 目录 文章目录 ...
- 爬虫 - Scrapy框架超详解(一)
文章目录 一.Scrapy框架原理 1.Scrapy特点 2.Scrapy安装 3.Scrapy架构图 4.Scrapy五大组件 5.Scrapy工作流程 二.Scrapy创建项目 三.Scrapy配 ...
- 【Web漏洞扫描这件事】爬虫2-scrapy框架
文章目录 <Python 网络爬虫 Scrapy框架> 第一章 解析HTML的库 解析XML/HTML的语法 多层级网页爬取逻辑 保存数据和展示数据 第二章 垂直搜索爬虫 安装Scrapy ...
最新文章
- DCN-2655 gre隧道 vpn 嵌入IPSec配置:
- Handler 实现的一个循环操作
- VirtualBox快照(Snapshot)功能使用及注意事项
- elasticsearch使用jetty进行简单的权限控制
- 岗位内推 | 深睿医疗实验室招聘机器学习实习生
- 2014末,Surface Pro 3叫好不叫座只是价格问题?
- 实时计算pv/uv Demo演示
- springmvc与struts2的区别
- 种草!这些好像用处不大但是很可爱的Mac软件
- java design pattern
- Java屏蔽输入法_技巧:如何禁止输入法切换到全角状态
- 以太坊2.0存款合约地址余额28.87万ETH,进度达55%
- CIO考虑采用超整合基础设施降低硬件成本
- 小程序的学习资料收集
- Android入门之本地音乐播放器
- 中国有多少个省市,分别是什么?
- 谷歌google浏览器升级后发生个人资料错误 发送反馈解决方法
- 身为码农,为12306说两句公道话:
- 100+份项目管理模板和工具免费下载,包含项目管理各个流程都该用到哪些工具和方法!
- 趣商宝微信招生方案 ,线上招生难,十大绝招帮您搞定微信吸粉!
热门文章
- 【Uly】微软产品开发中的“战争与和平”
- 常见python基础面试题_常:汉字常的意思/解释/字义/来源 - 新华字典
- python适合多大小孩学好拼音打字_都已经十七八岁的年龄了,突然发现自己居然不会拼音打字,现在想好好学,但是感觉无从下手。有什么方法么?...
- python柱状图加百分比_python matplotlib 为柱状图添加百分比
- html网页简单实现图片轮播效果,CSS3简单实现图片切换轮播
- 小封装、高通流 TVS 管 UN1K/2K/3K Series
- network secruity studay day2
- 修改微信聊天记录保存位置
- 水晶报表的宽度调整方法(设计器、代码调整、rpt文件属性)
- 服务器被入侵怎么办,如何预防