每日爬虫练习：爬取最新搞笑段子

2020-03-22日爬虫练习

爬取网站：别逗了

需求：

爬取分页段子，并将段子标题和正文以字典的形式通过json序列化后存储到本地

技术路线：

1.requests
BeautifulSoup
Json
通过zip函数将列表中奇数位置设为字典的key，偶数位置为相应的value

'''爬虫实战爬取笑话网
version：01
author：金鞍少年
date:2020-03-22'''from bs4 import BeautifulSoup
import requests
import jsonclass biedoul:def __init__(self, url,count):self.url = urlself.count = int(count)self.path = r'./别逗了笑话网/index'self.headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36","referer": "https://www.biedoul.com/"}# 获取Htmldef getHtml(self,url):res = requests.get(url, headers=self.headers)if res.status_code == 200:html = BeautifulSoup(res.text, 'html.parser')return html# 获取段子def getcontent(self, html):p = html.select("dd")content = [i.get_text() for i in p]  # 列表中奇数位是标题，偶数位是段子return dict(zip(content[::2], content[1::2]))  # 将列表中奇数位置对应字典的key，偶数位置为相应的value，生成字典# 将笑话字典通过json 存储到本地def saveJoke(self, Joke, i):path_flie = self.path + str(i)  # 每一页段子存储一个json文件json.dump(Joke, open(path_flie +'.json', 'w', encoding='utf-8'))# 逻辑def func(self):for i in range(self.count):url = self.url + str(i) + '/'  # 拼接分页urlself.saveJoke(self.getcontent(self.getHtml(url)), i)if __name__ == '__main__':b = biedoul('https://www.biedoul.com/wenzi/', 3)  # 获取前三页的段子b.func()print('笑话段子保存成功！')

每日爬虫练习：爬取最新搞笑段子相关推荐

python爬电影_零基础Python爬虫实现(爬取最新电影排行)
原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构要爬的部分,在 ...
java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
为什么80%的码农都做不了架构师?>>> 1. 目标使用webmagic爬取动作电影列表信息爬取电影**<海王>**详细信息[电影名称.电影迅雷下载地址列表] ...
python爬虫scrapy框架爬取糗妹妹段子首页
声明:本文仅为学习爬虫,请勿商业和恶意攻击网站,本文所有解释权归作者. 本文分别用两种方法把获取的段子信息存储到了本地,分别是txt文件和json文件, txt文件比较简单,生成字典后用命令直接执行即 ...
Python使用多进程提高网络爬虫的爬取速度
多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量,类似需求应使用多进程编程技术满足. 以爬取中国工程院院士简介和照片为例,参考代码如下,请自行分析目标网页结构并与参考代码进行比对.另外需要注意, ...
python听歌识曲爬虫_Python爬取网易云音乐热门评论的搜索结果-阿里云开发者社区...
网易云音乐评论爬虫(三):爬取歌曲的全部评论用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条．现在我就来分享一下如何爬取网易云音乐歌曲的 ...
python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
克服反爬虫机制爬取智联招聘网站
一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...
python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
pyhton爬虫实战-爬取新浪国内新闻
第一次实战爬虫,爬取了新浪国内的最新的首页新闻,附效果截图: 附代码: import requests from bs4 import BeautifulSoup import json import ...

每日爬虫练习：爬取最新搞笑段子

爬取网站：别逗了

需求：

技术路线：

每日爬虫练习：爬取最新搞笑段子相关推荐

最新文章

热门文章