教程https://edu.aliyun.com/course/1994?spm=5176.13944111.1409070.5.416828fchtN5cX

1. 准备

浏览器访问嗅事百科,确认地址和段子的 html 内容

# 地址:翻页i
# https://www.qiushibaike.com/text/page/1/

确定提取 正则表达式:

pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'
# 段子内容 --> 确定正则表达式:pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'<div class="content"><span>参加哥们老娘八十岁生日寿宴。<br>去的有点早,乡村酒席要等客齐了,才开始,就跟哥们一边看电视边闲聊。<br>我没话找话问哥们:你小时候,你老娘跟你说最多的是啥话?<br>他:当然是∽外面跪着去,晚上不许吃饭。<br>听他这样说,我笑笑道:小时候老娘也是经常这样对我说的。<br>我们正聊着,就听到老太太在房里大声说:狗剩外面跪着去,晚上不准吃饭。<br>哥们从沙发上直溜溜滑地板上跪着了。<br>这不是重点,重点是边上一起看电视的他家八十二岁的老爷子也笔直跪下了。。</span></div>

2. 模拟浏览器代理

模拟 User-Agent 否则网站反爬 无法无法respose

uapools = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:74.0) Gecko/20100101 Firefox/74.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1 Safari/605.1.15"
]def UA():opener = urllib.request.build_opener()thissua = random.choice(uapools)ua = ("User-Agent", thissua)opener.addheaders = [ua]urllib.request.install_opener(opener)print("当前UA:" + str(thissua))

3. 代码


# 翻页
# https://www.qiushibaike.com/text/page/1/# 段子内容# <div class="content">
# <span>
#
#
# 参加哥们老娘八十岁生日寿宴。<br>去的有点早,乡村酒席要等客齐了,才开始,就跟哥们一边看电视边闲聊。<br>我没话找话问哥们:你小时候,你老娘跟你说最多的是啥话?<br>他:当然是∽外面跪着去,晚上不许吃饭。<br>听他这样说,我笑笑道:小时候老娘也是经常这样对我说的。<br>我们正聊着,就听到老太太在房里大声说:狗剩外面跪着去,晚上不准吃饭。<br>哥们从沙发上直溜溜滑地板上跪着了。<br>这不是重点,重点是边上一起看电视的他家八十二岁的老爷子也笔直跪下了。。
#
# </span>
#
# </div>import random
import re
import urllib
import urllib.request# 爬取地址
url_base= "https://www.qiushibaike.com/text/page/"
# url_qiushi = "https://www.qiushibaike.com/"# 正则匹配表达式
pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'# 保存文件路径
filename = "content.txt"
# 爬取页数
pageCount = 20# 模拟chrome /firefox/ sarfari 浏览器UA
uapools = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:74.0) Gecko/20100101 Firefox/74.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1 Safari/605.1.15"
]# 模拟浏览器代理
def UA():opener = urllib.request.build_opener()thissua = random.choice(uapools)ua = ("User-Agent", thissua)opener.addheaders = [ua]urllib.request.install_opener(opener)print("当前UA:" + str(thissua))# 内容追加到文件
def writeToFile(fileName,str,index):with open(fileName, 'a') as file_object:file_object.write("\n--------------["+index+"]-----------------------\n")file_object.write(str)count = 1;
UA()
for i in range(1, pageCount):if i % 5 == 0:# 没翻页5次,换取一个UAUA()url_qiushi = url_base+str(i)print("url:"+url_qiushi)dataua = urllib.request.urlopen(url_qiushi).read().decode("utf-8", "ignore")result = re.compile(pat,re.S).findall(dataua)for j in range(0,len(result)):temp = str(result[j]).replace("\n","").replace('<br/>','\n')writeToFile(filename,temp,str(count))count = count +1

4. 效果


--------------[1]-----------------------
快要过生日了,老公早早就开始准备礼物,问我想要啥,我想着每年都是鲜花巧克力,费钱还不实用,我们已经过了浪漫的年纪了!挑礼物应该挑能保值的或者实用的!跟老公说了,老公表示明白,今天上午接到老公电话,让我在家别出门,有神秘礼物,还一个劲地说根据我要求买的,保证我喜欢!
我美呆了,一直在猜测是啥,黄金还是钻石?不管了,反正都喜欢!正想着,老公带着物流师傅来了,师傅背上还背了个大箱子,我有点懵,老公指挥师傅把箱子放下,边拆箱子边开心地说:媳妇你看,你的生日礼物!一台大冰箱!实用吧,可以放好多啤酒呢!以后…
--------------[2]-----------------------
自从上次最后一盆仙人掌,被我用开水误浇熟后,上司觉得很衰,再也不敢养花养草了,今年改养金蟾,每天泡茶用茶水浇,养的乌漆溜黑的,浑身流光,上司心情可好了。。。
今年去他办公室,烧水泡香飘飘奶茶,很好奇她的金蝉,觉得老喝茶对胃不好,好心的用泡好的奶茶喂了它一下。。。
就在刚才,领导问我他的金蟾是不是病了,浑身发白,怎么用茶水养,都是泛白。。。

Python 爬取嗅事百科段子相关推荐

  1. Python爬取糗事百科段子+定时发送QQ邮箱

    文章目录 前言 1. 库导入及介绍 2. 获取网页源码 3. 提取需要的信息 4. 优化输出数据 5. 发送邮件 6. 实现定时发送 7. 源码 前言 学习Python爬虫也有段时间了,总想着搞点事做 ...

  2. Python爬取糗事百科段子

    Python爬取糗事百科段子 Python2.7.15 今天我们来爬取糗事百科的段子 一.获取糗事百科的网页源码 首先,打开浏览器,进入糗事百科,复制它的网址. 然后我们翻个页,可以看到,网址变成了这 ...

  3. 利用Python爬取糗事百科段子信息

    文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...

  4. 用Python爬取糗事百科段子,可视化后结果发现

    大家好,我是小五???? 生活真是太苦了,需要找点快乐的精神食粮支撑社畜生活,听说糗事百科段子挺多,今天就来看一看! 糗事百科的段子栏目声称:幽默笑话大全__爆笑笑话__笑破你的肚子的搞笑段子,我们用 ...

  5. Python爬虫实战(1):爬取糗事百科段子

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  6. python爬虫经典段子_Python爬虫实战(1):爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  7. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  8. python网络爬虫——爬取嗅事百科

    网络爬虫 - 爬取嗅事百科 爬取过程分三大步: 一,请求,获取网页源码 url为:url =' https : //www.qiushibaike.com/8hr/page/'+ str(page)先 ...

  9. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

最新文章

  1. LINUX相关的镜像源网站大全,个人收集完整版!
  2. JFreeChart使用说明一--api介绍
  3. APP元素获取信息操作API
  4. 小肚皮最新版本_小肚皮旧版本
  5. 计算机网络基础专业找工作,2021计算机网络技术前景怎么样? 好找工作吗
  6. java pair class,在Java Pair Class Tuple中获取值
  7. android radiogroup 获取点击位置_屏幕连点器,解放双手[Android]
  8. Illustrator 上色
  9. vue 字符存在_vue中如何渲染字符串,字符串是组件类型的
  10. 卖家如何做亚马逊、Lazada、Shopee、速卖通、wish、eBay、沃尔玛、mercari、Newegg自养号测评?技术分享,带你开启掘金之路。
  11. 二级c语言考试怎么调试程序,计算机二级C语言考试具体内容及分值
  12. 低版本向日葵本机识别码和验证码提取
  13. 盘点那些年,被Oracle收购的公司
  14. 使去中心化媒体网络相关联的NFT元数据标准
  15. 2018年海峡两岸光电展将在台北举办
  16. Chrome浏览器网页保存成图片
  17. 一体化伺服电机一圈多少脉冲
  18. 2022年,我加入了微软MVP大家庭
  19. 最全面的Python重点知识汇总,建议码住
  20. 如何让你的网站排名靠前

热门文章

  1. 进入中国内地第31年的麦当劳 ,为什么还能不断吸引新消费人群?
  2. 无人值守u盘安装linux,U盘无人值守安装Linux操作系统
  3. JAVA:(游戏:四子连)
  4. [总结]视音频编解码技术零基础学习方法
  5. DHT应用于区块链概要
  6. Pta——敲笨钟,制定位置输出字符串
  7. C++ 很难找工作了???
  8. Java高级篇-----jdk1.8新特性
  9. MIUI10自助更换主题和字体
  10. mac php7 mysql.so_[安装] mac安装PHP7经历