爬虫糗事百科案例

提示:爬取笑话讲给女朋友,这是属于我们爬虫爱好者的浪漫


文章目录

  • 爬虫糗事百科案例
  • 前言
  • 一、为什么学爬虫
  • 二、爬虫开始
    • 1.引入库
    • 2.获取网页
    • 3.获取网页
    • 4.调用函数
    • 5.爬取的内容展示
  • 总结

前言

随着python语言的不断发展,爬虫这门技术也越来越重要,很多人都开启了自己的爬虫之路,本文就介绍了爬虫的功能。跟着我带你走进爬虫的大门


提示:以下是本篇文章正文内容,下面案例可供参考

一、为什么学爬虫

爬虫是可以有规则的提取html的内容,获取到我们需要的对象,爬虫的高效和简单让我们爬虫爱好者更加喜欢它

二、爬虫开始

1.引入库

代码如下(示例):

import requests
import re
from lxml import etree
import json

2.获取网页

代码如下(示例):

def get_html(url):#进行头部伪装,让浏览器认为是浏览器访问headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"}res = requests.get(url, headers=headers)res.encoding = "utf-8"if res.status_code == 200:return res.textelse:return None

该处使用的url网络请求的数据。


3.获取网页

由于本次代码简单我们把解析和保存放到一起
代码如下(示例):

def parse_html(html):e = etree.HTML(html)urls = e.xpath("//div[@class='col1 old-style-col1']/div/a[1]/@href")url = ["https://www.qiushibaike.com{}".format(url) for url in urls]for i in url:print(i)data = get_html(i)title=re.findall(r"<h1>(.*?)</h1>",data,re.S)[0]title=title.strip()tata = re.findall(r'<div class="content">(.*?)</div>', data, re.M)[0]tata=tata.replace("<br/>","").strip()with open("json.json",'a+',encoding="utf-8") as f:dict={"标题":title,"笑话":tata}f.write(json.dumps(dict,ensure_ascii=False))f.write("\n")

4.调用函数

if __name__ == '__main__':#翻页获取for i in range(13):url = "https://www.qiushibaike.com/text/page/{}".format(i)html = get_html(url)parse_html(html)

5.爬取的内容展示

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文介绍了requests,re,json,xpath的使用,可以对于小白理解起来不是那么容易,一个正在爬虫的路上前进的陈同学,爬虫爱好者可以关注我们一起学习,一起进阶高级爬虫工程师。

Python爬虫抓取笑话相关推荐

  1. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  2. python爬虫招聘-Python爬虫抓取智联招聘(基础版)

    原标题:Python爬虫抓取智联招聘(基础版) 作者:C与Python实战 「若你有原创文章想与大家分享,欢迎投稿.」 对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪 ...

  3. Python学习教程:Python爬虫抓取技术的门道

    Python学习教程:Python爬虫抓取技术的门道 web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展.然而,正所谓成也萧何败也萧何,开放的特性.搜索引擎以及简单 ...

  4. 编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

    这篇文章主要介绍了编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法,用到了Python的urllib和urllib2模块,需要的朋友可以参考下 抓取豆瓣电影TOP100 一.分析豆瓣top ...

  5. 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据

    Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...

  6. Python爬虫抓取某音乐网站MP3(下载歌曲、存入Sqlite)

    Python爬虫抓取某音乐网站MP3(下载歌曲.存入Sqlite) 最近右胳膊受伤,打了石膏在家休息.为了实现之前的想法,就用左手打字.写代码,查资料完成了这个资源小爬虫.网页爬虫, 最主要的是协议分 ...

  7. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

  8. Python爬虫抓取考试试题

    Python爬虫抓取考试试题 今天做了个小玩意,但觉得挺有意思的,分享给大家.主要是这样的,因为帮妹子寻找考试资料,发现同一本书不同的章节分别在不同的链接中,复制起来实在要命,所以就在想能不能用爬虫实 ...

  9. Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储(转)

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

最新文章

  1. 单片机声光电子琴程序流程图_基于单片机的智能家居控制系统毕业设计
  2. 3. Port scanners (端口扫描器 4个)
  3. java string
  4. 华为mate50麒麟处理器鸿蒙系统,华为Mate50Pro:有鸿蒙OS,处理器你选择麒麟还是高通...
  5. Jira更换mysql数据库_JIRA6.0更换数据库到MYSQL
  6. 11门满分、10门99分、47门超95分……他却说自己是“学zha”
  7. windows与linux多线程对比
  8. 移动磁盘修复、格式化【微PE】
  9. Unix基本操作..Hash-网络攻防大赛笔记(2)
  10. 吉他php怎么弹,吉他弹奏技巧(一看就会)
  11. codeigniter.php,CodeIgniter.php在做什么
  12. android 画布画笔,安卓画笔笔锋的实现探索(一)
  13. 计算机函数求最大值怎么设置,高中数学函数的最大值和最小值怎么求
  14. 24小时 java_Java获取24小时制的时间方法
  15. AI周报丨标清变4k?B站超分辨率算法开源;强化学习算法控制核聚变登上《nature》
  16. PCB检查-allegro PDN进行简单电源直流压降分析
  17. 蓝桥杯按键处理解决办法
  18. 一种有效管控APP隐私权限的解决方案
  19. win7 磁盘碎片整理
  20. office365 Proplus 部署安装(office deployment tool)

热门文章

  1. 投影仪参数哪些最重要?什么品牌投影仪好
  2. 《变4》巨幕热播 拉动客厅影院级电视需求
  3. c语言统计学生成绩pta,(PTA)统计学生成绩
  4. excel批量删除空白行(excel下面无限多的空行如何删除)
  5. redis集群中slot迁移的BUG:clusterManagerMoveSlot failed: ERR I don‘t know about node xx,解决办法如下文
  6. 【翻译】和麻美学姐一起的世界树(マミさんと世界樹スレ)第五话
  7. 机器人出魔切还是三相_LOL11月17日更新内容汇总 国服5.22版S6季前赛上线
  8. win10安装破解软件提示病毒并且删除安装软件,暂时关闭安全检查
  9. 安卓开发艺术探索总结
  10. JavaSE——基础知识回顾13之集合(上半部分Collection部分)