又开始了新的篇章,本熊继续一个Python小白的修行之路,这次要爬取糗事百科主页的段子,恩 。。看起来不错的样子,只是段子不能吃 ,不然,啧啧。。。

相信很多人有去糗百看段子减压的习惯,如果能把这些段子爬下来,以后即便到了一个没网的地方  ,只要文本在手就不会冷场,还是好处多多的。3.2..1...开始爬虫之旅(今天说了两段废话,这习惯得改)

今天的爬虫主要是为了复习下正则,所以相对还是可以的,那么先来看一下网页源代码吧

需要爬的就是被圈起来的作者名、好笑数(大概类似于点赞量)和正文内容,看起来不是很难的样子,那么,上代码

import re
import bs4
import urllib
import urllib2
import time
f = open('QB.text','a+')
def  gethtml():for i in range(1,4):url = 'http://www.qiushibaike.com/8hr/page/%d/'%iuser_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0'  headers = { 'User-Agent' : user_agent }response = urllib2.Request(url, headers=headers)html = urllib2.urlopen(response).read()pattern = re.compile(r'<div class="author clearfix">.*?href.*?<img src.*?title=.*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i>',re.S)  #在正则中S可用于大小写匹配reg = re.finditer(pattern,html)for item in reg:i = re.sub(r'<span>', '', item.group(2))     # 由于按照上面的正则会使结果中出现我们不需要的标签,使用sub函数进行替换i = re.sub(r'<br/>', '', i)i = re.sub(r'</span>','',i)f.write(item.group(1)+item.group(3)+'\n'+i)f.close()gethtml()

有关代码部分的问题请见注释。

欢迎大神批评指教,THANKS

爬虫第四战爬取糗事百科搞笑段子相关推荐

  1. python爬虫——利用BeautifulSoup4爬取糗事百科的段子

    1 import requests 2 from bs4 import BeautifulSoup as bs 3 4 #获取单个页面的源代码网页 5 def gethtml(pagenum): 6 ...

  2. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  3. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  4. python 爬虫实战1 爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标 抓取糗事百科热门段子 过滤带有图片的段子 实现每按一次回车显示一个段子的发布时间,发布人 ...

  5. python爬虫经典段子_Python爬虫实战之爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

  6. python 爬取糗事百科的段子

    本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数. 糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有 ...

  7. Python爬虫练习:爬取糗事百科

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于CSDN,作者不温卜火 爬取前的准备 糗事百科官网:https:// ...

  8. python笔记之利用BeautifulSoup爬取糗事百科首页段子

    1.到糗事百科查看网页源代码找到规律,发现内容都在class_="content"的div标签内 2.直接上代码: from bs4 import BeautifulSoup #调 ...

  9. python笔记之利用scrapy框架爬取糗事百科首页段子

    环境准备: scrapy框架(可以安装anaconda一个python的发行版本,有很多库) cmd命令窗口 教程: 创建爬虫项目 scrapy startproject qq #创建了一个爬虫项目q ...

最新文章

  1. windows下安装whl文件
  2. Middleware(中间件)
  3. 【一张图系列】理解安全上下文
  4. Scikit-learn 数据预处理之鲁棒缩放RobustScaler
  5. 神器在手,代码命名从此高大上!
  6. junit4和junit5_JUnit5 TestSuite替代
  7. java scanner_Java Scanner radix()方法与示例
  8. 作者:李涛(1975-),男,博士,南京邮电大学计算机学院院长,南京邮电大学大数据研究院院长,美国佛罗里达国际大学正教授。...
  9. 读取HTTP请求消息头字段案例代码
  10. react build后直接从浏览器打开
  11. 传统数据库在分布式领域的探索
  12. uefi能重置系统吗_无惧UEFI, Win10也能玩转一键自动还原
  13. 公司年会不知道送什么?2021平价高颜值蓝牙耳机推荐
  14. 《上海悠悠接口自动化平台》-3.流程性用例,有关联的接口如何写?
  15. ue4蓝图运行顺序_UE4蓝图流程控制
  16. 最全的搜索引擎入口和分类目录入口
  17. UOS/deepin上安装坚果云
  18. 配置Jinjia2模板引擎
  19. java之Mybatis(实训笔记)
  20. 整理GitHub近期热门开源后台管理系统

热门文章

  1. 【Django入门】——模型管理器对象、模型管理器类和模型类
  2. 基于mini2440嵌入式linux上整合一套Domoticz智能家居系统(九)使用domoticz+mosquitto+Android客户端实现控制mini2440上的LED(二)
  3. win10设置任务栏图标长短
  4. GCN笔记:Graph Convolution Neural Network,ChebNet
  5. RabbitMQ学习笔记
  6. cesium CLAMP_TO_GROUND 报错 Cannot read property ‘globe‘ of undefined
  7. 图表——SM2密钥协商与ECMQV对比
  8. 展现AI与自动化测试技术之间的神奇化学反应
  9. 360n4s普通版Android7,360手机N4S有几个版本 360 N4S手机标准版和高配版区别对比详细评测...
  10. 笨方法学Python笔记(6)