抓取策略

确定目标:确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。

分析目标:分析要抓取的url的格式,限定抓取范围。分析要抓取的数据的格式,本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式,在网页解析器部分,要指定网页编码,然后才能进行正确的解析。

编写代码:在网页解析器部分,要使用到分析目标得到的结果。

执行爬虫:进行数据抓取。

分析目标

1、url格式

进入百度百科python词条页面,页面中相关词条的链接比较统一,大都是/view/xxx.htm。

2、数据格式

标题位于类lemmaWgt-lemmaTitle-title下的h1子标签,简介位于类lemma-summary下。

3、编码格式

查看页面编码格式,为utf-8。

经过以上分析,得到结果如下:

代码编写

项目结构

在sublime下,新建文件夹baike-spider,作为项目根目录。

新建spider_main.py,作为爬虫总调度程序。

新建url_manger.py,作为url管理器。

新建html_downloader.py,作为html下载器。

新建html_parser.py,作为html解析器。

新建html_outputer.py,作为写出数据的工具。

最终项目结构如下图:

spider_main.py

url_manger.py

html_downloader.py

html_parser.py

html_outputer.py

运行

在命令行下,执行python spider_main.py。

运行结果

python类百度百科_Python抓取百度百科数据相关推荐

  1. python360百科_python抓取360百科踩过的坑!

    学习python一周,学着写了一个爬虫,用来抓取360百科的词条,在这个过程中.因为一个小小的修改,程序出现一些问题,又花了几天时间研究,问了各路高手,都没解决,终于还是自己攻克了,事实上就是对lis ...

  2. python爬去百度音乐_Python抓取百度音乐。

    今天挑战下百度音乐抓取,先用Chrome分析下请求的链接. 最关键的就是这个链接 http://play.baidu.com/data/music/songlink 请求这个带上songid就能返回给 ...

  3. python爬取百度域名注册_python爬取百度域名_python爬取百度搜索結果url匯總

    寫了兩篇之后,我覺得關於爬蟲,重點還是分析過程 分析些什么呢: 1)首先明確自己要爬取的目標 比如這次我們需要爬取的是使用百度搜索之后所有出來的url結果 2)分析手動進行的獲取目標的過程,以便以程序 ...

  4. php抓取百度搜索百度快照,php抓取百度快照、百度收录、百度热词程序代码,抓取百度快照_PHP教程...

    php抓取百度快照.百度收录.百度热词程序代码,抓取百度快照 /* 抓取百度收录代码 */ function baidu($s){ $baidu="http://www.baidu.com/ ...

  5. Python爬虫+夜神模拟器+Fiddler抓取手机APP数据接口 -- 图文教程(霸霸看了都说好)

    Fiddler的抓包原理 Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888,我们也可以通过设置进行修改. 代理就是 ...

  6. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  7. python爬取百度标题_Python爬取百度热搜和数据处理

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取百度热搜 2.主题式网络爬虫爬取的内容与数据特征分析:百度热搜排行,标题,热度 3.主题式网络爬虫设计方案概述:先搜索网站,查找数据并比对然后再 ...

  8. python爬取百度搜索_Python-Scrapy抓取百度数据并分析

    抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和SQLServer存储数据.使用scrapy框架结合 selenium爬取百度搜索数据,并进行简要的数据的 ...

  9. python公众号文章_Python 抓取微信公众号文章

    起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...

最新文章

  1. 【组队学习】【25期】Datawhale组队学习内容介绍
  2. 极客新闻——10、Java工程师应该如何成长?
  3. Tableau十三种图表应用场景及其组合图拓展
  4. AT1219-歴史の研究(历史研究)【回滚莫队】
  5. Node.js Stream - 实战篇
  6. docker Redis集群
  7. Springboot响应处理
  8. Python 练习: 简单角色游戏程序
  9. 设置Android AI开发环境
  10. php -q poller.php --force,php – 为什么Cacti一直在等待死的轮询进程?
  11. 图像数据增强扩充数据库_分析数据扩充以进行图像分类
  12. linux 安装多版本jdk
  13. Python PyQt5在Windows平台安装
  14. HTTP 长连接原理
  15. 搭建以太坊私有链多节点环境
  16. MFC 绘制 PNG 格式图片
  17. java CGLIB动态代理
  18. 2分钟实战QQ机器人教程(保姆级)手把手教你极速开发
  19. 啊哈添柴挑战Java1828. 逆序输出(简单)
  20. 串口、COM口、UART口, TTL、RS-232、RS-485的区别

热门文章

  1. 机器学习 导论_机器学习导论
  2. 计算机网络怎么寻址_计算机网络中的无类寻址
  3. 清空文件下的SVN控制文件
  4. 关于C#监视剪贴板信息
  5. oracle chr()和字符连接
  6. ubuntu20.10创建QT应用程序快捷方式 Terminal中输入命令直接打开QtCreator
  7. ImportError: No module named ‘sklearn.qda‘  ImportError: No module named ‘sklearn.lda‘
  8. EntityFramework进阶——Entity Splitting和Table Splitting
  9. 计算机二级java试题_计算机二级考试《Java》试题及答案
  10. 计算机图形学基础教程论文,计算机图形学小论文