最近开始学习爬虫和机器学习,网上好多资料都是python2的,学习爬虫可见汪海大哥的专题【python爬虫入门教程】

这里将第八讲【糗事百科的网络爬虫(v0.3)源码及解析(简化更新) 】中的源码修正一下,主要改动点有以下几个:

1.将python2转为python3

2.将糗事百科的页面url做了更新

3.将糗事百科页面标签解析的正则表达式做了更新以适应改版后的页面

源码如下:

# -*- coding: utf-8 -*-  import urllib.request
import re
import _thread
import time  #----------- 加载处理糗事百科 -----------
class Spider_Model:  def __init__(self):  self.page = 1  self.pages = []  self.enable = False  # 将所有的段子都扣出来,添加到列表中并且返回列表  def GetPage(self,page):  myUrl = " http://www.qiushibaike.com/8hr/page/" + page#      myUrl =" http://www.qiushibaike.com/8hr/page/2"user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent } req = urllib.request.Request(myUrl, headers = headers) myResponse = urllib.request.urlopen(req)myPage = myResponse.read()  #encode的作用是将unicode编码转换成其他编码的字符串  #decode的作用是将其他编码的字符串转换成unicode编码  unicodePage = myPage.decode("utf-8")#    print(unicodePage)# 找出所有class="content"的div标记  #re.S是任意匹配模式,也就是.可以匹配换行符  myItems = re.findall('<div.*?class="content".*?>\n*<span>(.*?)</span>\n*</div>',unicodePage,re.S)  items = []  for item in myItems:  # item 中第一个是div的标题,也就是时间  # item 中第二个是div的内容,也就是内容  items.append(item.replace("\n",""))  return items  # 用于加载新的段子  def LoadPage(self):  # 如果用户未输入quit则一直运行  while self.enable:  # 如果pages数组中的内容小于2个  if len(self.pages) < 2:  try:  # 获取新的页面中的段子们  myPage = self.GetPage(str(self.page))  self.page += 1  self.pages.append(myPage)  except:  print ('无法链接糗事百科!' ) else:  time.sleep(1)  def ShowPage(self,nowPage,page):  for items in nowPage:  print (u'第%d页' % page , items)myInput = input()  if myInput == "quit":  self.enable = False  break  def Start(self):  self.enable = True  page = self.page  print(page)print (u'正在加载中请稍候......')  # 新建一个线程在后台加载段子并存储  _thread.start_new_thread(self.LoadPage,())  #----------- 加载处理糗事百科 -----------  while self.enable:  # 如果self的page数组中存有元素  if self.pages:  nowPage = self.pages[0]  del self.pages[0]  self.ShowPage(nowPage,page)  page += 1  #----------- 程序的入口处 -----------
print (u"""
--------------------------------------- 程序:糗百爬虫 版本:0.4作者:why 修正:cferz日期:2016-09-13 语言:Python 3.5.2 操作:输入quit退出阅读糗事百科 功能:按下回车依次浏览今日的糗百热点
---------------------------------------
""")print( u'请按下回车浏览今日的糗百内容:'  )
input(' ')
myModel = Spider_Model()
myModel.Start()
效果如下:
--------------------------------------- 程序:糗百爬虫 版本:0.4作者:why 修正:cferz日期:2016-09-13 语言:Python 3.5.2操作:输入quit退出阅读糗事百科 功能:按下回车依次浏览今日的糗百热点
--------------------------------------- 请按下回车浏览今日的糗百内容:1
正在加载中请稍候......
第1页 小时候我弟弟刚出生那会特不能接受(一直想要妹妹来的),刚好同房间的那位生了个女孩。我能说我几个晚上不睡觉都要起来就为了把两个宝宝换换吗,我想要不是我爹下手重我也许就成功了。第1页 和基友去澡堂,我们俩的柜子挨着,发现忘记带香皂,一瞅看见他的柜子没锁,袋子里露出半块白色香皂,心想肯定是他忘带进去了,顺手拿了进去,走到他旁边开了喷头就是一阵狂搓,搓着搓着发现这香皂怎么一点味没有呢,诶,还一点沫没有,正想问他,谁知基友大喊:“卧槽你拿我移动电源搓你马勒戈壁啊!”
第1页 上学上久了都有后遗症了。本人现在工作狗一枚 有次逛超市 迎面碰到了高中的教导主任 可把我吓坏了 一阵躲呀 后来才后知后觉到我已经毕业好几年了。。。。。第1页 上中学的时候打雪仗,我班男生特别坏,总是抓着女生的衣服领子,把雪团扔进去。<br/>长大后,每次同学聚会,这帮男生都会提及此事,而每次说起都非常后悔懊恼,总是说:“都怪当年太年轻不懂事,光顾着扔雪,却不知道伸爪。”第1页 出门在外总会遇到不懂的事!有一次,出差住宿酒店,我对服务员说:“晚餐时请送一只鸭子到我房间里来”她说:“没问题,我们这的鸭子味道是一流的!”于是,我就在房间里垂涎三尺的静候那只鸭子。结果她竟然给我送来了一个帅哥!……第1页 老公同事老婆都过三十了,教师一枚,两人成亲九年之久,一直分居两地,木有小孩,结果她领导看不下去了,说你去你老公那儿怀孕去,没怀上不要回来,好有爱的领导啊,,,,,

[python3]糗事百科爬虫相关推荐

  1. python实现数据爬取——糗事百科爬虫项目

    python实现数据爬取--糗事百科爬虫项目 # urllib.request 请求模块 import urllib.request # re 模块使 Python 语言拥有全部的正则表达式功能. i ...

  2. Scrapy糗事百科爬虫实战代码分析

    Scrapy糗事百科爬虫实战代码分析 视频教学网址:[python爬虫_从入门到精通(高级篇)]scrapy框架.反爬.分布式爬虫 一.Scrapy糗事百科之爬取单页数据并保存 具体的创建方法可以参照 ...

  3. 糗事百科爬虫用户统计

    糗事百科爬虫用户统计 以前爬了糗事百科,一些数据还是挺有意思的: 工作 搬砖汉应该是调侃自己的,不过人数比较多的手艺汪,学生汪,家里蹲应该有一些共同点,那就是时间比较自由 故乡 基本上人口基数大的地方 ...

  4. Python爬虫 基于Beautiful Soup的糗事百科爬虫

    python爬虫 ---- 糗事百科爬虫 首先进入糗事百科官网首页 -> 糗事百科 本次爬虫的目标是翻页爬取糗事百科的信息,包括 标题, 链接, 作者名, 好笑数&评论数 之后右键检查, ...

  5. Python3写爬虫(五)爬取糗事百科段子

    2019独角兽企业重金招聘Python工程师标准>>> 最近几天开始用Python3改写网上用Python2写的案例,发现完全可以用Python3来重构Python2的源码.本篇文章 ...

  6. 编写爬取糗事百科信息爬虫代码学习笔记

    前言 学习python3已经有一段时间了,本着趁自己还记得学过什么的原则,特意把这段时间所学所悟记录下来.就从利用python3编写糗事百科爬虫开始写起,在此感谢静觅博主的python爬虫学习系列教程 ...

  7. Python爬虫--抓取糗事百科段子

    今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...

  8. Python爬虫实战(1):爬取糗事百科段子

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  9. python爬虫之糗事百科

    历经1个星期的实践,终于把python爬虫的第一个实践项目完成了,此时此刻,心里有的只能用兴奋来形容,后续将继续加工,把这个做成一个小文件,发给同学,能够在cmd中运行的文件.简化版程序,即单单爬取页 ...

最新文章

  1. Business Contact Mnanager for Outlook2010之二:常用基本功能
  2. GET和POST两种基本请求方法的区别
  3. 温故一下Linux CentOS的VI/VIM命令
  4. javascript 值传递与作用域
  5. PhotoGun中文版
  6. Oracle 自己主动内存管理 SGA、PGA 具体解释
  7. python语句块标记_Python简单语句
  8. Mozilla宣布关闭 Persona
  9. 算法竞赛入门经典(第二版) | 程序3-6 WERTYU (UVa 10082)(常量数组)
  10. 在centOS7中装mysql_在 CentOS7 上安装 MySQL5.7
  11. goland 方法注释_goland 设置注释模板的过程图文详解
  12. 最近的日子,很惬意!
  13. 使用Docker快速部署禅道V11.6版本
  14. APPCAN学习笔记003---原生开发与HTML5技术
  15. 机器学习模型实战!如何从 900 万张图片中对 600 类照片进行分类? | 技术头条...
  16. 饿了么异地多活技术实现
  17. 通达信公式系统 入门 LTS
  18. 趣谈网络协议(一):综述及二层到三层
  19. 黑马程序员_常见的几个运行时异常
  20. 超详细的Latex快速基础入门 (第二节)【关于latex命令的一些知识】

热门文章

  1. javascript定时器,取消定时器,及js定时器优化方法
  2. 分布式环境下的莎士比亚数据集处理
  3. 【防火墙-第二集】防火墙后面的端口都是什么意思
  4. Matlab--------股票接口,获取股票数据
  5. ASP.NET中 RangeValidator(范围验证)的使用
  6. JAVA 1052:计算邮资
  7. java 查看dump文件_[JAVA]JAVA章3 如何获取及查看DUMP文件
  8. office2007要更改序列号
  9. 叙述无保密机制的rsa签名过程_电科18年12月考试《信息安全概论》期末大作业【标准答案】...
  10. SOLIDWORKS自动参数化设计案例分享