每日爬虫练习:爬取最新搞笑段子
2020-03-22日爬虫练习
爬取网站:别逗了
需求:
爬取分页段子,并将段子标题和正文以字典的形式通过json序列化后存储到本地
技术路线:
- 1.requests
- BeautifulSoup
- Json
- 通过zip函数将列表中奇数位置设为字典的key,偶数位置为相应的value
'''爬虫实战爬取笑话网
version:01
author:金鞍少年
date:2020-03-22'''from bs4 import BeautifulSoup
import requests
import jsonclass biedoul:def __init__(self, url,count):self.url = urlself.count = int(count)self.path = r'./别逗了笑话网/index'self.headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36","referer": "https://www.biedoul.com/"}# 获取Htmldef getHtml(self,url):res = requests.get(url, headers=self.headers)if res.status_code == 200:html = BeautifulSoup(res.text, 'html.parser')return html# 获取段子def getcontent(self, html):p = html.select("dd")content = [i.get_text() for i in p] # 列表中奇数位是标题,偶数位是段子return dict(zip(content[::2], content[1::2])) # 将列表中奇数位置对应字典的key,偶数位置为相应的value,生成字典# 将笑话字典通过json 存储到本地def saveJoke(self, Joke, i):path_flie = self.path + str(i) # 每一页段子存储一个json文件json.dump(Joke, open(path_flie +'.json', 'w', encoding='utf-8'))# 逻辑def func(self):for i in range(self.count):url = self.url + str(i) + '/' # 拼接分页urlself.saveJoke(self.getcontent(self.getHtml(url)), i)if __name__ == '__main__':b = biedoul('https://www.biedoul.com/wenzi/', 3) # 获取前三页的段子b.func()print('笑话段子保存成功!')
每日爬虫练习:爬取最新搞笑段子相关推荐
- python爬电影_零基础Python爬虫实现(爬取最新电影排行)
原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构 要爬的部分,在 ...
- java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
为什么80%的码农都做不了架构师?>>> 1. 目标 使用webmagic爬取动作电影列表信息 爬取电影**<海王>**详细信息[电影名称.电影迅雷下载地址列表] ...
- python爬虫scrapy框架爬取糗妹妹段子首页
声明:本文仅为学习爬虫,请勿商业和恶意攻击网站,本文所有解释权归作者. 本文分别用两种方法把获取的段子信息存储到了本地,分别是txt文件和json文件, txt文件比较简单,生成字典后用命令直接执行即 ...
- Python使用多进程提高网络爬虫的爬取速度
多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量,类似需求应使用多进程编程技术满足. 以爬取中国工程院院士简介和照片为例,参考代码如下,请自行分析目标网页结构并与参考代码进行比对.另外需要注意, ...
- python听歌识曲爬虫_Python爬取网易云音乐热门评论的搜索结果-阿里云开发者社区...
网易云音乐评论爬虫(三):爬取歌曲的全部评论 用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条.现在我就来分享一下如何爬取网易云音乐歌曲的 ...
- python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
- 克服反爬虫机制爬取智联招聘网站
一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...
- python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
- pyhton爬虫实战-爬取新浪国内新闻
第一次实战爬虫,爬取了新浪国内的最新的首页新闻,附效果截图: 附代码: import requests from bs4 import BeautifulSoup import json import ...
最新文章
- 王贻芳院士:我们的科技管理过度强调竞争,缺乏稳定支持
- 央企名录、央企排名——国务院国有资产监督管理委员会央企名录
- 今天的离离原上草的飞鸽传书
- 一步步实现SDDC-Edge与动态路由实现
- base | 文本处理方法(Ⅰ-2):正则表达式
- JavaScript、Ajax、jQuery全部知识点,5分钟速懂!
- 文件校验和(checksum或Hash)计算工具
- Qt: 非阻塞时间延迟;
- rx560d linux 图形设计,RX 560D对比RX 560哪个好?RX560D与560的区别对比详细评测
- vue-socket.io 对IE浏览器(IE10+)的兼容性修复
- jQuery暴打灰太狼小游戏
- 缓存算法篇其一-----FIFO(先入先出)
- 行政组织理论-阶段测评4
- python绘制随机网络图形
- P2P之UDP穿透NAT的原理与实现 - 增强篇(附修改过的源代码)
- 程序员最重要的核心竞争力是什么?
- 8本书助你了解人民日报“创作大脑”
- 【可信计算】TPM核心功能
- 经纬度(wgs)并且根据经纬度获取城市
- layui table 动态设置 elem(绑定table)和 where 条件参数