python~爬虫~1
爬虫基本流程:
1、通过HTTP向目标发送请求,即发送request,请求可以包含header等信息,等待服务器相应
2、如果服务器相应,会返回一个response,response的内容便是要获取的内容
3、对得到的内容进行解析
如:内容为html格式,则用正则表达式、网页解析库解析。若json格式,则直接转为json对象解析
4、结构化保存数据
Request主要包含下面几个部分:
1、请求方式:主要有get,post两种类型
2、请求URL(统一资源定位符)
3、请求头:包含请求时的头部信息,如:User-Agent、Host、Cookies等信息
4、请求体:请求时另外需要的数据(post请求有)
Response主要包含下面几个方面:
1、响应状态:如:not found 404
2、响应头:服务器信息等内容
3、响应体:包含请求资源的内容,如网页HTML,图片,二进制数据等
抓取数据类型:
1、网页文本:HTML文档,json格式文本
2、图片:获取到的是图片的二进制文件,保存为图片格式
3、视频:也是二进制文件,保存为视频格式
4、其它
解析方式:
1、直接处理:网页构造比较简单
2、json解析:字符串转化json对象
3、正则表达式
4、BeautifulSoup
5、PyQuery
6、XPath
Urllib库(Python内置http请求库)
1、urllib.request 请求模块
2、urllib.parse url解析模块
3、urllib.error 异常处理模块
4、urllib.robotparser ronots.txt解析模块
用法:
1、urllib.request请求模块
Request替换urlopen
2、urllib.parse url解析模块
urllib.parse.urlpaese(urlstring,scheme='',allow_fragments=True)
3、urilib.error异常处理模块:
1、urlerror
2、httperror
4、urllib.robotparser
python~爬虫~1相关推荐
- 关于Python爬虫原理和数据抓取1.1
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...
- python爬虫之Scrapy框架的post请求和核心组件的工作 流程
python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...
- python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库
我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...
- python爬虫案例_推荐上百个github上Python爬虫案例
现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...
- Python培训分享:python爬虫可以用来做什么?
爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...
- 玩转 Python 爬虫,需要先知道这些
作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...
- 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划
作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...
- 一个月入门Python爬虫,轻松爬取大规模数据
如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...
- Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!
Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...
- Python爬虫破解有道翻译
有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...
最新文章
- Git 中常用的 4 个命令
- Swift3.0语言教程使用Unicode范式标准化获取字符串
- 第四章:4.2MySQL 权限系统介绍
- 图片自适应css代码(转)
- linux部署jenkins,tomcat9
- 【转】AndroidStudio升到最新版本(3.1.2)之后
- 10g gtx 光纤通信测试_光纤通信optisystem实验
- 电工模拟接线软件 app_电气工程师手机必备APP
- 她每天吃一个煮熟的苹果,从此打开了通往新世界的大门~
- 纠正英语语法错误---Grammarly安装
- 谢耳朵用的MIT人工智能情绪探测器,你也可以拥有
- 目前最新android处理器排行榜,2017年最新安卓处理器排行榜 骁龙竟然输给了他
- 如何查找你的IP地址?通过IP地址能直接定位到你家!
- 理解机器学习中的偏差与方差
- 枯燥的寒假生活(一) python爬虫模拟登录whu老教务系统获取期末考试成绩(已失效 , 老教务系统增加了新的反爬, 老教务系统已停用)
- Java基础语法(三)——运算符
- arnold如何设置鱼眼相机_Arnold(C4DToA)阿诺德渲染教程(51) – 常规摄像机 persp_camera 官方文档...
- 普乐蛙5d飞行影院5d动感影院体验馆设备7d多人互动影院
- pta然后是几点c语言
- MySQL升级之路(5.6-8.0)
热门文章
- Fedora 13 Alpha测试手记横空出世
- HBase 6、用Phoenix Java api操作HBase
- 智能机器人服务广州春运
- IPv4的核心管理功能/proc/sys/net/ipv4/*
- 好用的侧边栏菜单/面板jQuery插件
- 位操作:BitVector32结构 z
- syslog记录history历史记录
- 交换机VLAN划分详细手册
- python_wifi
- PAT甲级1045 Favorite Color Stripe (30 分):[C++题解]最佳彩色带、DP、公共子序列变形