Python 爬取嗅事百科段子
教程https://edu.aliyun.com/course/1994?spm=5176.13944111.1409070.5.416828fchtN5cX
1. 准备
浏览器访问嗅事百科,确认地址和段子的 html 内容
# 地址:翻页i
# https://www.qiushibaike.com/text/page/1/
确定提取 正则表达式:
pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'
# 段子内容 --> 确定正则表达式:pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'<div class="content"><span>参加哥们老娘八十岁生日寿宴。<br>去的有点早,乡村酒席要等客齐了,才开始,就跟哥们一边看电视边闲聊。<br>我没话找话问哥们:你小时候,你老娘跟你说最多的是啥话?<br>他:当然是∽外面跪着去,晚上不许吃饭。<br>听他这样说,我笑笑道:小时候老娘也是经常这样对我说的。<br>我们正聊着,就听到老太太在房里大声说:狗剩外面跪着去,晚上不准吃饭。<br>哥们从沙发上直溜溜滑地板上跪着了。<br>这不是重点,重点是边上一起看电视的他家八十二岁的老爷子也笔直跪下了。。</span></div>
2. 模拟浏览器代理
模拟 User-Agent 否则网站反爬 无法无法respose
uapools = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:74.0) Gecko/20100101 Firefox/74.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1 Safari/605.1.15"
]def UA():opener = urllib.request.build_opener()thissua = random.choice(uapools)ua = ("User-Agent", thissua)opener.addheaders = [ua]urllib.request.install_opener(opener)print("当前UA:" + str(thissua))
3. 代码
# 翻页
# https://www.qiushibaike.com/text/page/1/# 段子内容# <div class="content">
# <span>
#
#
# 参加哥们老娘八十岁生日寿宴。<br>去的有点早,乡村酒席要等客齐了,才开始,就跟哥们一边看电视边闲聊。<br>我没话找话问哥们:你小时候,你老娘跟你说最多的是啥话?<br>他:当然是∽外面跪着去,晚上不许吃饭。<br>听他这样说,我笑笑道:小时候老娘也是经常这样对我说的。<br>我们正聊着,就听到老太太在房里大声说:狗剩外面跪着去,晚上不准吃饭。<br>哥们从沙发上直溜溜滑地板上跪着了。<br>这不是重点,重点是边上一起看电视的他家八十二岁的老爷子也笔直跪下了。。
#
# </span>
#
# </div>import random
import re
import urllib
import urllib.request# 爬取地址
url_base= "https://www.qiushibaike.com/text/page/"
# url_qiushi = "https://www.qiushibaike.com/"# 正则匹配表达式
pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'# 保存文件路径
filename = "content.txt"
# 爬取页数
pageCount = 20# 模拟chrome /firefox/ sarfari 浏览器UA
uapools = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:74.0) Gecko/20100101 Firefox/74.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1 Safari/605.1.15"
]# 模拟浏览器代理
def UA():opener = urllib.request.build_opener()thissua = random.choice(uapools)ua = ("User-Agent", thissua)opener.addheaders = [ua]urllib.request.install_opener(opener)print("当前UA:" + str(thissua))# 内容追加到文件
def writeToFile(fileName,str,index):with open(fileName, 'a') as file_object:file_object.write("\n--------------["+index+"]-----------------------\n")file_object.write(str)count = 1;
UA()
for i in range(1, pageCount):if i % 5 == 0:# 没翻页5次,换取一个UAUA()url_qiushi = url_base+str(i)print("url:"+url_qiushi)dataua = urllib.request.urlopen(url_qiushi).read().decode("utf-8", "ignore")result = re.compile(pat,re.S).findall(dataua)for j in range(0,len(result)):temp = str(result[j]).replace("\n","").replace('<br/>','\n')writeToFile(filename,temp,str(count))count = count +1
4. 效果
--------------[1]-----------------------
快要过生日了,老公早早就开始准备礼物,问我想要啥,我想着每年都是鲜花巧克力,费钱还不实用,我们已经过了浪漫的年纪了!挑礼物应该挑能保值的或者实用的!跟老公说了,老公表示明白,今天上午接到老公电话,让我在家别出门,有神秘礼物,还一个劲地说根据我要求买的,保证我喜欢!
我美呆了,一直在猜测是啥,黄金还是钻石?不管了,反正都喜欢!正想着,老公带着物流师傅来了,师傅背上还背了个大箱子,我有点懵,老公指挥师傅把箱子放下,边拆箱子边开心地说:媳妇你看,你的生日礼物!一台大冰箱!实用吧,可以放好多啤酒呢!以后…
--------------[2]-----------------------
自从上次最后一盆仙人掌,被我用开水误浇熟后,上司觉得很衰,再也不敢养花养草了,今年改养金蟾,每天泡茶用茶水浇,养的乌漆溜黑的,浑身流光,上司心情可好了。。。
今年去他办公室,烧水泡香飘飘奶茶,很好奇她的金蝉,觉得老喝茶对胃不好,好心的用泡好的奶茶喂了它一下。。。
就在刚才,领导问我他的金蟾是不是病了,浑身发白,怎么用茶水养,都是泛白。。。
Python 爬取嗅事百科段子相关推荐
- Python爬取糗事百科段子+定时发送QQ邮箱
文章目录 前言 1. 库导入及介绍 2. 获取网页源码 3. 提取需要的信息 4. 优化输出数据 5. 发送邮件 6. 实现定时发送 7. 源码 前言 学习Python爬虫也有段时间了,总想着搞点事做 ...
- Python爬取糗事百科段子
Python爬取糗事百科段子 Python2.7.15 今天我们来爬取糗事百科的段子 一.获取糗事百科的网页源码 首先,打开浏览器,进入糗事百科,复制它的网址. 然后我们翻个页,可以看到,网址变成了这 ...
- 利用Python爬取糗事百科段子信息
文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...
- 用Python爬取糗事百科段子,可视化后结果发现
大家好,我是小五???? 生活真是太苦了,需要找点快乐的精神食粮支撑社畜生活,听说糗事百科段子挺多,今天就来看一看! 糗事百科的段子栏目声称:幽默笑话大全__爆笑笑话__笑破你的肚子的搞笑段子,我们用 ...
- Python爬虫实战(1):爬取糗事百科段子
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
- python爬虫经典段子_Python爬虫实战(1):爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
- 转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...
- python网络爬虫——爬取嗅事百科
网络爬虫 - 爬取嗅事百科 爬取过程分三大步: 一,请求,获取网页源码 url为:url =' https : //www.qiushibaike.com/8hr/page/'+ str(page)先 ...
- Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...
最新文章
- LINUX相关的镜像源网站大全,个人收集完整版!
- JFreeChart使用说明一--api介绍
- APP元素获取信息操作API
- 小肚皮最新版本_小肚皮旧版本
- 计算机网络基础专业找工作,2021计算机网络技术前景怎么样? 好找工作吗
- java pair class,在Java Pair Class Tuple中获取值
- android radiogroup 获取点击位置_屏幕连点器,解放双手[Android]
- Illustrator 上色
- vue 字符存在_vue中如何渲染字符串,字符串是组件类型的
- 卖家如何做亚马逊、Lazada、Shopee、速卖通、wish、eBay、沃尔玛、mercari、Newegg自养号测评?技术分享,带你开启掘金之路。
- 二级c语言考试怎么调试程序,计算机二级C语言考试具体内容及分值
- 低版本向日葵本机识别码和验证码提取
- 盘点那些年,被Oracle收购的公司
- 使去中心化媒体网络相关联的NFT元数据标准
- 2018年海峡两岸光电展将在台北举办
- Chrome浏览器网页保存成图片
- 一体化伺服电机一圈多少脉冲
- 2022年,我加入了微软MVP大家庭
- 最全面的Python重点知识汇总,建议码住
- 如何让你的网站排名靠前