19.爬虫

爬虫,又叫做网络爬虫,按照一定的规律,去抓取万维网上的信息的一个程序
爬虫的目的:采集数据
爬虫的分类:
通用的网络爬虫(检索引擎(百度))遵循robots协议
聚焦网络爬虫
增量式网络爬虫
累计式爬虫
深层网络爬虫(暗网)

19.1爬虫的第一个程序

#导包 网络库import urllib.request url = "http://www.sina.com.cn" #响应头 response = urllib.request.urlopen(url) #获取数据 data = response.read() print(data)
#导包 网络库
import urllib.request
url = "http://www.sina.com.cn"#响应头 response = urllib.request.urlopen(url) #获取数据 data = response.read()
# print(data)with open("sina.html","wb") as f: f.write(data) print("新浪信息采集完毕")
#导包 网络库
import urllib.request
url = "http://www.sina.com.cn"
#响应头
response = urllib.request.urlopen(url)#获取数据 data = response.read()# print(data)html = data.decode("utf-8") with open("sina1.html","w",encoding="utf-8") as f: f.write(html) print("新浪信息采集完毕")

19.2 fidder的使用

抓包工具
fidder

选择:I Agree

选择安装的路径

选择install 进行安装

点击close,安装完后
打开软件,打开浏览器,百度页面,会出现很多请求

remove all 清除

打开pycharm运行代码
然后到fiddler中看到如下:

Accept-Encoding: identity 期望编码
User-Agent: Python-urllib/3.9 用户代理对象
Connection: close
Host: www.sina.com.cn
网页百度页面:查看源代码



这是goolge提供的抓包工具,只能抓网页,不能抓pycharm,所以用fiddler
百度就是通过User-Agent来判断是客户端还是PC端

python 爬虫软件第一个程序相关推荐

  1. python爬虫软件安装不了_为编写网络爬虫程序安装Pytho

    一. 下载Python3.5.1安装包 1.进入python官网,点击menu->downloads,网址:Download Python 2. 根据系统选择32位还是64位,这里下载的可执行e ...

  2. python安装与程序_二、Python安装和第一个程序

    <1.Python语言介绍 1.官方介绍:Python 是一款易于学习且功能强大的编程语言. 它具有高效率的数据结构,能够简单又有效地实现面向对象编程.Python 简洁的语法与动态输入之特性, ...

  3. 开源python爬虫软件下载_83款 网络爬虫开源软件

    Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目 ...

  4. 路飞学城-Python爬虫集训-第一章

    自学Python的时候看了不少老男孩的视频,一直欠老男孩一个会员,现在99元爬虫集训果断参与. 非常喜欢Alex和武Sir的课,技术能力超强,当然讲着讲着就开起车来也说明他俩开车的技术也超级强! 以上 ...

  5. 跟着川川学习python爬虫的第一天

    第一天,当然是从最基础的安装软件开始,学python会用到常用的两个编程软件:一个是pycharm,而另一个就是jupyter notebook,而jupyter notebook就会涉及到anaco ...

  6. python爬虫软件-8个最高效的Python爬虫框架,你用过几个?

    小编收集了一些较为高效的Python爬虫框架.分享给大家. 1.Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系 ...

  7. python爬虫学习第一章

    <!DOCTYPE html> python爬虫第一章 python网络爬虫的学习 什么是网络爬虫 按照特定需求,从互联网中搜索有用信息网页进行过滤,就叫网络爬虫. 网络爬虫算法 当浏览信 ...

  8. python爬虫、第一个爬虫(基本知识,requests库,BeautifulSoup库,正则表达式re库)

    python爬虫学习开始 1.这是我第一次写博客,表示不太会用csdn的这个编辑器,排版神马的就别说了,有什么值得改进的或者不对的地方,欢迎留言,谢谢. 2.作为学生党,正在自学python爬虫,基于 ...

  9. 【Books】推荐书单(算法、JavaWeb、Python爬虫、机器学习、程序人生、人文社科)

    回想我的大学四年,看了很多有价值的书(总计300多本),很感谢这些书及其作者,所以我写了这样一个书籍推荐列表-这些书籍都是我都认真看过并觉得值得推荐的-希望能对你们有一些帮助- PS:有些书可能出了最 ...

最新文章

  1. 区块链将重新定义世界
  2. 数据结构——折半查找
  3. 蓝桥杯 试题 基础练习 芯片测试——12行代码AC
  4. (22)Verilog HDL结构:function语句
  5. andriod socket开发问题小结
  6. MFC中 使用Tab Control 控件在对话框中添加属性页
  7. 内部排序的方法实验报告_十大经典排序算法Python版实现(附动图演示)
  8. 存用部首查字典如何查_存的部首,存的偏旁部首,存的拼音,存的笔画数,存的组词,存的意思...
  9. 深入学习ElasticSearch(四)——mapping的详细讲解
  10. yy号,你以为你是QQ号么?
  11. Matplotlib保存图片到文件
  12. 数据结构课程设计(部分选题)
  13. 简单方法解决火狐浏览器主页被篡改/挟持,主页变成垃圾网站的问题
  14. 联通系统升级服务器地址,联通iptv升级服务器地址
  15. 用计算机弹奏的菊次郎的夏天,“你是钢琴家”“菊次郎的夏天”
  16. 考研逻辑-逻辑1主讲人:王超-2020-07-25
  17. 深度学习Pytorch/Caffe-GPU环境配置
  18. Tmux 学习摘要3--使用脚本定制 tmux 环境
  19. SIP协议简介(二)之会话建立的详细过程(INVITE)
  20. sqlite如何与mysql连接数据库连接_sqlite 数据库连接问题以及解决方法

热门文章

  1. python类和封装之面向对象反恐精英实战
  2. fik在计算机领域英语缩写,计算机常用英语词汇表
  3. mysql 按时间累计计算_mysql查询——计算占比与累计占比
  4. 双非计算机专业考研失败总结
  5. 如何调出手机信任计算机的指令,如何取消信任iPhone或iPad上的计算机 | MOS86
  6. ​为什么冠状病毒的死亡率具有误导性?
  7. 解决bug-python中关于Process finished with exit code -1073740791
  8. 服务器gosht引导盘,带RAID服务器能GHOST备份吗?
  9. 数据结构 单词查找 二分法-索引表-Hash表
  10. Java 排序 - 冒泡排序