爬虫第四战爬取糗事百科搞笑段子

又开始了新的篇章，本熊继续一个Python小白的修行之路，这次要爬取糗事百科主页的段子，恩。。看起来不错的样子，只是段子不能吃，不然，啧啧。。。

相信很多人有去糗百看段子减压的习惯，如果能把这些段子爬下来，以后即便到了一个没网的地方，只要文本在手就不会冷场，还是好处多多的。3.2..1...开始爬虫之旅（今天说了两段废话，这习惯得改）

今天的爬虫主要是为了复习下正则，所以相对还是可以的，那么先来看一下网页源代码吧

需要爬的就是被圈起来的作者名、好笑数（大概类似于点赞量）和正文内容，看起来不是很难的样子，那么，上代码

import re
import bs4
import urllib
import urllib2
import time
f = open('QB.text','a+')
def  gethtml():for i in range(1,4):url = 'http://www.qiushibaike.com/8hr/page/%d/'%iuser_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0'  headers = { 'User-Agent' : user_agent }response = urllib2.Request(url, headers=headers)html = urllib2.urlopen(response).read()pattern = re.compile(r'<div class="author clearfix">.*?href.*?<img src.*?title=.*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i>',re.S)  #在正则中S可用于大小写匹配reg = re.finditer(pattern,html)for item in reg:i = re.sub(r'<span>', '', item.group(2))     # 由于按照上面的正则会使结果中出现我们不需要的标签，使用sub函数进行替换i = re.sub(r'<br/>', '', i)i = re.sub(r'</span>','',i)f.write(item.group(1)+item.group(3)+'\n'+i)f.close()gethtml()

有关代码部分的问题请见注释。

欢迎大神批评指教，THANKS

爬虫第四战爬取糗事百科搞笑段子相关推荐

python爬虫——利用BeautifulSoup4爬取糗事百科的段子
1 import requests 2 from bs4 import BeautifulSoup as bs 3 4 #获取单个页面的源代码网页 5 def gethtml(pagenum): 6 ...
Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子完整代码地址:Python爬虫实战之爬取糗事百科段子程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
python爬虫经典段子_Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬取糗事百科的段子
本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数. 糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有 ...
Python爬虫练习：爬取糗事百科
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于CSDN,作者不温卜火爬取前的准备糗事百科官网:https:// ...
python笔记之利用BeautifulSoup爬取糗事百科首页段子
1.到糗事百科查看网页源代码找到规律,发现内容都在class_="content"的div标签内 2.直接上代码: from bs4 import BeautifulSoup #调 ...
python笔记之利用scrapy框架爬取糗事百科首页段子
环境准备: scrapy框架(可以安装anaconda一个python的发行版本,有很多库) cmd命令窗口教程: 创建爬虫项目 scrapy startproject qq #创建了一个爬虫项目q ...

爬虫第四战爬取糗事百科搞笑段子

又开始了新的篇章，本熊继续一个Python小白的修行之路，这次要爬取糗事百科主页的段子，恩。。看起来不错的样子，只是段子不能吃，不然，啧啧。。。

爬虫第四战爬取糗事百科搞笑段子相关推荐

最新文章

热门文章

爬虫第四战爬取糗事百科搞笑段子

又开始了新的篇章，本熊继续一个Python小白的修行之路，这次要爬取糗事百科主页的段子，恩 。。看起来不错的样子，只是段子不能吃 ，不然，啧啧。。。

爬虫第四战爬取糗事百科搞笑段子相关推荐

最新文章

热门文章

又开始了新的篇章，本熊继续一个Python小白的修行之路，这次要爬取糗事百科主页的段子，恩。。看起来不错的样子，只是段子不能吃，不然，啧啧。。。