2020-03-22日爬虫练习

爬取网站:别逗了

需求:

爬取分页段子,并将段子标题和正文以字典的形式通过json序列化后存储到本地

技术路线:

  1. 1.requests
  2. BeautifulSoup
  3. Json
  4. 通过zip函数将列表中奇数位置设为字典的key,偶数位置为相应的value
'''爬虫实战爬取笑话网
version:01
author:金鞍少年
date:2020-03-22'''from bs4 import BeautifulSoup
import requests
import jsonclass biedoul:def __init__(self, url,count):self.url = urlself.count = int(count)self.path = r'./别逗了笑话网/index'self.headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36","referer": "https://www.biedoul.com/"}# 获取Htmldef getHtml(self,url):res = requests.get(url, headers=self.headers)if res.status_code == 200:html = BeautifulSoup(res.text, 'html.parser')return html# 获取段子def getcontent(self, html):p = html.select("dd")content = [i.get_text() for i in p]  # 列表中奇数位是标题,偶数位是段子return dict(zip(content[::2], content[1::2]))  # 将列表中奇数位置对应字典的key,偶数位置为相应的value,生成字典# 将笑话字典通过json 存储到本地def saveJoke(self, Joke, i):path_flie = self.path + str(i)  # 每一页段子存储一个json文件json.dump(Joke, open(path_flie +'.json', 'w', encoding='utf-8'))# 逻辑def func(self):for i in range(self.count):url = self.url + str(i) + '/'  # 拼接分页urlself.saveJoke(self.getcontent(self.getHtml(url)), i)if __name__ == '__main__':b = biedoul('https://www.biedoul.com/wenzi/', 3)  # 获取前三页的段子b.func()print('笑话段子保存成功!')

每日爬虫练习:爬取最新搞笑段子相关推荐

  1. python爬电影_零基础Python爬虫实现(爬取最新电影排行)

    原博文 2018-02-26 15:29 − 提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构 要爬的部分,在 ...

  2. java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址

    为什么80%的码农都做不了架构师?>>>    1. 目标 使用webmagic爬取动作电影列表信息 爬取电影**<海王>**详细信息[电影名称.电影迅雷下载地址列表] ...

  3. python爬虫scrapy框架爬取糗妹妹段子首页

    声明:本文仅为学习爬虫,请勿商业和恶意攻击网站,本文所有解释权归作者. 本文分别用两种方法把获取的段子信息存储到了本地,分别是txt文件和json文件, txt文件比较简单,生成字典后用命令直接执行即 ...

  4. Python使用多进程提高网络爬虫的爬取速度

    多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量,类似需求应使用多进程编程技术满足. 以爬取中国工程院院士简介和照片为例,参考代码如下,请自行分析目标网页结构并与参考代码进行比对.另外需要注意, ...

  5. python听歌识曲爬虫_Python爬取网易云音乐热门评论的搜索结果-阿里云开发者社区...

    网易云音乐评论爬虫(三):爬取歌曲的全部评论 用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条.现在我就来分享一下如何爬取网易云音乐歌曲的 ...

  6. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  7. 克服反爬虫机制爬取智联招聘网站

    一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制:     在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...

  8. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  9. pyhton爬虫实战-爬取新浪国内新闻

    第一次实战爬虫,爬取了新浪国内的最新的首页新闻,附效果截图: 附代码: import requests from bs4 import BeautifulSoup import json import ...

最新文章

  1. 王贻芳院士:我们的科技管理过度强调竞争,缺乏稳定支持
  2. 央企名录、央企排名——国务院国有资产监督管理委员会央企名录
  3. 今天的离离原上草的飞鸽传书
  4. 一步步实现SDDC-Edge与动态路由实现
  5. base | 文本处理方法(Ⅰ-2):正则表达式
  6. JavaScript、Ajax、jQuery全部知识点,5分钟速懂!
  7. 文件校验和(checksum或Hash)计算工具
  8. Qt: 非阻塞时间延迟;
  9. rx560d linux 图形设计,RX 560D对比RX 560哪个好?RX560D与560的区别对比详细评测
  10. vue-socket.io 对IE浏览器(IE10+)的兼容性修复
  11. jQuery暴打灰太狼小游戏
  12. 缓存算法篇其一-----FIFO(先入先出)
  13. 行政组织理论-阶段测评4
  14. python绘制随机网络图形
  15. P2P之UDP穿透NAT的原理与实现 - 增强篇(附修改过的源代码)
  16. 程序员最重要的核心竞争力是什么?
  17. 8本书助你了解人民日报“创作大脑”
  18. 【可信计算】TPM核心功能
  19. 经纬度(wgs)并且根据经纬度获取城市
  20. layui table 动态设置 elem(绑定table)和 where 条件参数

热门文章

  1. js将秒转换为时分秒
  2. Web开发和设计精华文章推荐【系列三】
  3. Java处理Excel:从POI到SPL
  4. Selenium隐藏浏览器和元素截屏实践
  5. API网关在微服务中的应用(1),膜拜大佬
  6. 彩电业群龙失首 拿什么来拯救你我的电视产业?
  7. ANSYS Workbench打开字体太小解决方案
  8. matlab copula工具箱,matlabcopula案例
  9. 量化交易 聚宽 双均线策略
  10. Web Wiz Forums 12.03 ASP论坛程序源码