前言

学习python3已经有一段时间了,本着趁自己还记得学过什么的原则,特意把这段时间所学所悟记录下来。就从利用python3编写糗事百科爬虫开始写起,在此感谢静觅博主的python爬虫学习系列教程,指引我学习编写。本文也是根据其python2.x的教程再加上个人对python3学习的理解也写。


一、

就本人目前学习进度而言,编写爬虫代码需要import三个模块。值得一提的是python3与python2有比较大的区别,一部分体现在模块上(这个我以后也会另开一贴作为学习记录,比较两个版本之间出现变化的地方)。现在先就要用到的模块或者方法出现的变化作比较

python3 python2
urllib.request urllib2
   
   


二、

    直接贴上关键代码

#抓取嗅事百科(一页内容)
import urllib
import urllib.request
import re
page = 1
url = r'https://www.qiushibaike.com/hot/page'+str(page)
user_agent = 'Mozilla/4.0(compatible;MSIE 5.5; Windows NT)'
headers = {'User-Agent':user_agent}
try:request = urllib.request.Request(url,headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')pattern = re.compile(r'h2>(.*?)</h.*?<div.*?<span>(.*?)</.*?>',re.S|re.M)items = re.findall(pattern,content)pageLibrary=[]for item in items:pageLibrary.append([item[0].strip(),item[1].strip()])print(item[0].strip(),item[1].strip())#print(pageLibrary)
except urllib.request.URLError as e:if hasattr(e,'code'):print(e.code)if hasattr(e,'reason'):print(e.reason)

大体思路:

1.分析目标网页url需要的元素

2.确定是否需要编写headers骗取服务器

3.爬取一整页内容(使用request,response)

4.编写正则表达式(关键)

在此推荐大家两个网站deerchao的正则表达式30分钟入门教程和正则表达式在线测试工具-站长工具, 一个用于学习,一个用于对自己编写的正则进行测试


三、

第一次认真写博客,其实也不知道自己写什么好,就先写到这么多吧,以后想到什么再更新,keep coding !

完整代码上传到了github:https://github.com/callMeBin2217/python3_Spider ,有兴趣的可以下载来看看,或者和我交流也可以。小小小小小小白求轻喷...

编写爬取糗事百科信息爬虫代码学习笔记相关推荐

  1. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  2. Python爬虫实战一之爬取糗事百科段子

    点我进入原文 另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...

  3. Python爬虫实战(1):爬取糗事百科段子

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  4. 利用Python爬取糗事百科段子信息

    文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...

  5. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  6. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  7. 爬虫实战1:爬取糗事百科段子

    本文主要展示利用python3.7+urllib实现一个简单无需登录爬取糗事百科段子实例. 如何获取网页源代码 对网页源码进行正则分析,爬取段子 对爬取数据进行再次替换&删除处理易于阅读 0. ...

  8. 网络爬虫---爬取糗事百科段子实战

    Python网络爬虫 1.知识要求 掌握python基础语法 熟悉urllib模块知识 熟悉get方法 会使用浏览器伪装技术 如果您对相关知识遗忘了,可以点上面的相关知识链接,熟悉一下. 2.爬取糗事 ...

  9. python爬虫经典段子_Python爬虫实战(1):爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

最新文章

  1. LaTeX如何让两张图并排显示
  2. HALCON学习之旅(二)
  3. 浏览器截图插件什么的弱爆了
  4. ~~Bellman-Ford算法
  5. New Relic性能监控(三)浏览器端监控
  6. 留言板php数据库_PHP 留言板教程数据库表设计
  7. 一直弹出adb已停止工作(远程主机强迫关闭现有的连接)的最简单完美解决法
  8. 基于sinc的音频重采样(二):实现
  9. 干货|一文看懂什么是“非标资产”
  10. Linux环境使用授权码实现软件授权
  11. English trip EM2-PE 3B Teacher:Olivia
  12. 如何发表一篇核心期刊论文
  13. java学习(多线程)
  14. “GANs”与“ODEs”:数学建模的终结?
  15. verdaccio每次下载有时候不会加载taz压缩包原因解决
  16. 网上书城原型界面样式编写(1)
  17. 钉钉——阿里“打入”产业互联网的尖兵连
  18. 图片标注工具 LabelImg 使用教程
  19. 北风网web前端开发培训课程 web前端开发实例视频教程下载
  20. 【从零开始学Skynet】基础篇(四):网络模块常用API

热门文章

  1. 参考文献名称怎么复制_游戏名称符号,非常漂亮稀有的
  2. Python自动发短信给自己手机
  3. 海贼王经典语录(转)
  4. 程序员久坐伤身,站起来,走出去,别回来
  5. asp_net2_0学习指导 菜鸟到中级程序员的飞跃
  6. 中文大写数字转换为阿拉伯数字(java)
  7. BZOJ 2140: 稳定婚姻 tarjan
  8. 人工智能两大技术驱动力
  9. Vue引入CreateJS
  10. 廖雪峰的官方网站Python教程练习题