爬虫基本流程:

1、通过HTTP向目标发送请求,即发送request,请求可以包含header等信息,等待服务器相应

2、如果服务器相应,会返回一个response,response的内容便是要获取的内容

3、对得到的内容进行解析

如:内容为html格式,则用正则表达式、网页解析库解析。若json格式,则直接转为json对象解析

4、结构化保存数据

Request主要包含下面几个部分:

1、请求方式:主要有get,post两种类型

2、请求URL(统一资源定位符)

3、请求头:包含请求时的头部信息,如:User-Agent、Host、Cookies等信息

4、请求体:请求时另外需要的数据(post请求有)

Response主要包含下面几个方面:

1、响应状态:如:not found 404

2、响应头:服务器信息等内容

3、响应体:包含请求资源的内容,如网页HTML,图片,二进制数据等

抓取数据类型:

1、网页文本:HTML文档,json格式文本

2、图片:获取到的是图片的二进制文件,保存为图片格式

3、视频:也是二进制文件,保存为视频格式

4、其它

解析方式:

1、直接处理:网页构造比较简单

2、json解析:字符串转化json对象

3、正则表达式

4、BeautifulSoup

5、PyQuery

6、XPath

Urllib库(Python内置http请求库)

1、urllib.request 请求模块

2、urllib.parse   url解析模块

3、urllib.error   异常处理模块

4、urllib.robotparser  ronots.txt解析模块

用法:

1、urllib.request请求模块

Request替换urlopen

2、urllib.parse url解析模块

urllib.parse.urlpaese(urlstring,scheme='',allow_fragments=True)

3、urilib.error异常处理模块:

1、urlerror

2、httperror

4、urllib.robotparser

python~爬虫~1相关推荐

  1. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  2. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  3. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  4. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  5. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  6. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  7. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  8. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  9. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  10. Python爬虫破解有道翻译

    有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...

最新文章

  1. Git 中常用的 4 个命令
  2. Swift3.0语言教程使用Unicode范式标准化获取字符串
  3. 第四章:4.2MySQL 权限系统介绍
  4. 图片自适应css代码(转)
  5. linux部署jenkins,tomcat9
  6. 【转】AndroidStudio升到最新版本(3.1.2)之后
  7. 10g gtx 光纤通信测试_光纤通信optisystem实验
  8. 电工模拟接线软件 app_电气工程师手机必备APP
  9. 她每天吃一个煮熟的苹果,从此打开了通往新世界的大门~
  10. 纠正英语语法错误---Grammarly安装
  11. 谢耳朵用的MIT人工智能情绪探测器,你也可以拥有
  12. 目前最新android处理器排行榜,2017年最新安卓处理器排行榜 骁龙竟然输给了他
  13. 如何查找你的IP地址?通过IP地址能直接定位到你家!
  14. 理解机器学习中的偏差与方差
  15. 枯燥的寒假生活(一) python爬虫模拟登录whu老教务系统获取期末考试成绩(已失效 , 老教务系统增加了新的反爬, 老教务系统已停用)
  16. Java基础语法(三)——运算符
  17. arnold如何设置鱼眼相机_Arnold(C4DToA)阿诺德渲染教程(51) – 常规摄像机 persp_camera 官方文档...
  18. 普乐蛙5d飞行影院5d动感影院体验馆设备7d多人互动影院
  19. pta然后是几点c语言
  20. MySQL升级之路(5.6-8.0)

热门文章

  1. Fedora 13 Alpha测试手记横空出世
  2. HBase 6、用Phoenix Java api操作HBase
  3. 智能机器人服务广州春运
  4. IPv4的核心管理功能/proc/sys/net/ipv4/*
  5. 好用的侧边栏菜单/面板jQuery插件
  6. 位操作:BitVector32结构 z
  7. syslog记录history历史记录
  8. 交换机VLAN划分详细手册
  9. python_wifi
  10. PAT甲级1045 Favorite Color Stripe (30 分):[C++题解]最佳彩色带、DP、公共子序列变形