教程https://edu.aliyun.com/course/1994?spm=5176.13944111.1409070.5.416828fchtN5cX

1. 准备

浏览器访问嗅事百科,确认地址和段子的 html 内容

# 地址:翻页i
# https://www.qiushibaike.com/text/page/1/

确定提取正则表达式:

pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'

# 段子内容 --> 确定正则表达式:pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'<div class="content"><span>参加哥们老娘八十岁生日寿宴。<br>去的有点早，乡村酒席要等客齐了，才开始，就跟哥们一边看电视边闲聊。<br>我没话找话问哥们：你小时候，你老娘跟你说最多的是啥话？<br>他：当然是∽外面跪着去，晚上不许吃饭。<br>听他这样说，我笑笑道：小时候老娘也是经常这样对我说的。<br>我们正聊着，就听到老太太在房里大声说：狗剩外面跪着去，晚上不准吃饭。<br>哥们从沙发上直溜溜滑地板上跪着了。<br>这不是重点，重点是边上一起看电视的他家八十二岁的老爷子也笔直跪下了。。</span></div>

2. 模拟浏览器代理

模拟 User-Agent 否则网站反爬无法无法respose

uapools = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:74.0) Gecko/20100101 Firefox/74.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1 Safari/605.1.15"
]def UA():opener = urllib.request.build_opener()thissua = random.choice(uapools)ua = ("User-Agent", thissua)opener.addheaders = [ua]urllib.request.install_opener(opener)print("当前UA:" + str(thissua))

3. 代码


# 翻页
# https://www.qiushibaike.com/text/page/1/# 段子内容# <div class="content">
# <span>
#
#
# 参加哥们老娘八十岁生日寿宴。<br>去的有点早，乡村酒席要等客齐了，才开始，就跟哥们一边看电视边闲聊。<br>我没话找话问哥们：你小时候，你老娘跟你说最多的是啥话？<br>他：当然是∽外面跪着去，晚上不许吃饭。<br>听他这样说，我笑笑道：小时候老娘也是经常这样对我说的。<br>我们正聊着，就听到老太太在房里大声说：狗剩外面跪着去，晚上不准吃饭。<br>哥们从沙发上直溜溜滑地板上跪着了。<br>这不是重点，重点是边上一起看电视的他家八十二岁的老爷子也笔直跪下了。。
#
# </span>
#
# </div>import random
import re
import urllib
import urllib.request# 爬取地址
url_base= "https://www.qiushibaike.com/text/page/"
# url_qiushi = "https://www.qiushibaike.com/"# 正则匹配表达式
pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'# 保存文件路径
filename = "content.txt"
# 爬取页数
pageCount = 20# 模拟chrome /firefox/ sarfari 浏览器UA
uapools = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:74.0) Gecko/20100101 Firefox/74.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1 Safari/605.1.15"
]# 模拟浏览器代理
def UA():opener = urllib.request.build_opener()thissua = random.choice(uapools)ua = ("User-Agent", thissua)opener.addheaders = [ua]urllib.request.install_opener(opener)print("当前UA:" + str(thissua))# 内容追加到文件
def writeToFile(fileName,str,index):with open(fileName, 'a') as file_object:file_object.write("\n--------------["+index+"]-----------------------\n")file_object.write(str)count = 1;
UA()
for i in range(1, pageCount):if i % 5 == 0:# 没翻页5次,换取一个UAUA()url_qiushi = url_base+str(i)print("url:"+url_qiushi)dataua = urllib.request.urlopen(url_qiushi).read().decode("utf-8", "ignore")result = re.compile(pat,re.S).findall(dataua)for j in range(0,len(result)):temp = str(result[j]).replace("\n","").replace('<br/>','\n')writeToFile(filename,temp,str(count))count = count +1

4. 效果


--------------[1]-----------------------
快要过生日了，老公早早就开始准备礼物，问我想要啥，我想着每年都是鲜花巧克力，费钱还不实用，我们已经过了浪漫的年纪了！挑礼物应该挑能保值的或者实用的！跟老公说了，老公表示明白，今天上午接到老公电话，让我在家别出门，有神秘礼物，还一个劲地说根据我要求买的，保证我喜欢！
我美呆了，一直在猜测是啥，黄金还是钻石？不管了，反正都喜欢！正想着，老公带着物流师傅来了，师傅背上还背了个大箱子，我有点懵，老公指挥师傅把箱子放下，边拆箱子边开心地说：媳妇你看，你的生日礼物！一台大冰箱！实用吧，可以放好多啤酒呢！以后…
--------------[2]-----------------------
自从上次最后一盆仙人掌，被我用开水误浇熟后，上司觉得很衰，再也不敢养花养草了，今年改养金蟾，每天泡茶用茶水浇，养的乌漆溜黑的，浑身流光，上司心情可好了。。。
今年去他办公室，烧水泡香飘飘奶茶，很好奇她的金蝉，觉得老喝茶对胃不好，好心的用泡好的奶茶喂了它一下。。。
就在刚才，领导问我他的金蟾是不是病了，浑身发白，怎么用茶水养，都是泛白。。。

Python 爬取嗅事百科段子相关推荐

Python爬取糗事百科段子+定时发送QQ邮箱
文章目录前言 1. 库导入及介绍 2. 获取网页源码 3. 提取需要的信息 4. 优化输出数据 5. 发送邮件 6. 实现定时发送 7. 源码前言学习Python爬虫也有段时间了,总想着搞点事做 ...
Python爬取糗事百科段子
Python爬取糗事百科段子 Python2.7.15 今天我们来爬取糗事百科的段子一.获取糗事百科的网页源码首先,打开浏览器,进入糗事百科,复制它的网址. 然后我们翻个页,可以看到,网址变成了这 ...
利用Python爬取糗事百科段子信息
文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...
用Python爬取糗事百科段子，可视化后结果发现
大家好,我是小五???? 生活真是太苦了,需要找点快乐的精神食粮支撑社畜生活,听说糗事百科段子挺多,今天就来看一看! 糗事百科的段子栏目声称:幽默笑话大全__爆笑笑话__笑破你的肚子的搞笑段子,我们用 ...
Python爬虫实战（1）：爬取糗事百科段子
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
python爬虫经典段子_Python爬虫实战（1）：爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
python网络爬虫——爬取嗅事百科
网络爬虫 - 爬取嗅事百科爬取过程分三大步: 一,请求,获取网页源码 url为:url =' https : //www.qiushibaike.com/8hr/page/'+ str(page)先 ...
Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子完整代码地址:Python爬虫实战之爬取糗事百科段子程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

Python 爬取嗅事百科段子

1. 准备

2. 模拟浏览器代理

3. 代码

4. 效果

Python 爬取嗅事百科段子相关推荐

最新文章

热门文章