Python番外篇:网络爬虫组词程序
今天,双是番外篇,这次番外篇主要教大家如何用网络爬虫查询词语。
1.确定数据源
首先,我们得找一个查询的数据源,我找到了360国学网站,选择“词语大全”,它的查询词语网址为:
https://guoxue.baike.so.com/query/index/
这后面得加上亿些参数:
- type = phrase
- text = 圆组词
- word_inc = 圆
2. 给请求添加数据源网址参数
用word来代替“圆”,写成Python字典:
word = input("请输入你想组词的字:")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}
发出请求:
import requestsword = input("请输入你想组词的字:")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}url = 'https://guoxue.baike.so.com/query/index/'
r = requests.get(url, params=key_dict)
print(r.status_code)
输出:
200
说明请求正常。
3.解析词语页面
经过分析,我们发现,所有的词语都在一个div标签中(绿色标注处),在里面,每个单独的div标签又嵌套了3个div标签,其中的一个(橙色标注处)的内容是我们需要的词语。
from bs4 import BeautifulSoup as bs
import requestsword = input("请输入你想组词的字:")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}url = 'https://guoxue.baike.so.com/query/index/'
r = requests.get(url, params=key_dict)soup = bs(r.text, 'html.parser')
# 查找上图绿色标注标签
div_content = soup.find("div", {'class': 'content'})
# 查找上图橙色标注标签中的a标签
all_title = div_content.find_all('a', {'data-logid': "ordinal_incgroup_phrases"})
# 加入判断 判断all_title是否为空
if all_title:# 如果all_title不为空print('\n'+word+"组词有:\n")for t in all_title:# 遍历所有a标签内容print(t.string)print("\n查看更多信息可前往:\n"+r.url)
else:print("\n组词内容无法查询到!")
4.测试代码
以上就是我们今天全部的代码,我们来试着运行亿下:
请输入你要查询的字:圆
圆组词有:
圆滑
方圆
圆通
团圆
珠圆玉润
方枘圆凿
破镜重圆
事宽即圆
圆润
自圆其说
查看更多信息可前往:
https://guoxue.baike.so.com/query/index/?type=phrase&text=%E5%9C%86%E7%BB%84%E8%AF%8D&word_inc=%E5%9C%86
针不戳,那今天的课程就到这儿了,感兴趣的可以爬取词语拼音或解释,有什么问题请在评论区讨论,喜欢的话可以收藏一下,再见!
另外,不了解requests模块和BeautifulSoup4模块的可以前往笔者的Python:第三方库requests 和 Python:第三方库BeautifulSoup4去看看。
Python番外篇:网络爬虫组词程序相关推荐
- Python番外篇:爬取CSDN作者排行榜数据
今天,又双叒叕是番外篇,我们来爬取CSDN作者排行榜上的数据. 1. 确定数据源 首先,排行榜的网页链接是https://blog.csdn.net/rank/list/total: 打开" ...
- 落枕学python—番外篇(1)
前言 上次写过了两篇啊,那么这次我先缓一缓,先写一个番外,但这不等于些废话,我还是要说一点实质性内容的,废话不多说,咱们先开始哈. 一.Python有什么好? 咱们既然学,就要知道我们为什么要学. 第 ...
- Python番外篇:Python代码生成春联 三种版本
Hello,大家好,我是wangzirui32,今天就是虎年春节了,先祝大家虎虎生威,虎年大吉!愿大家在新的一年里万事如意,心想事成! 文章目录 1. 普通版本 1.1 引入所需模块 1.2 生成春联 ...
- Python番外篇:Flask+segno 实现个人名片二维码在线生成器
hello,我是wangzirui32,今天来教大家如何Flask框架和segno模块实现个人名片二维码在线生成器. 开始学习吧! 1. 项目架构 image文件夹为空,templates下存储了2个 ...
- Python番外篇:电脑读心术程序 快给你的同事朋友玩一玩
hello,大家好,我是wangzirui32,今天我们来学习如何写一个电脑读心术程序,开始学习吧! 1. 原理介绍 本程序使用的读心术原理为吉普赛读心术,流程如下: 10~99之间任意挑选一个数 用 ...
- Python番外篇:教你如何编写一个GIF录屏工具
hello,大家好,我是wangzirui32,今天我们来学习如何编写一个GIF录屏工具,开始学习吧! 1. 项目准备 我们需要PIL库对屏幕进行截取,使用imageio对截取的图像进行拼接,合成为G ...
- 【大数据学习番外篇之爬虫3】爬美女照片
为什么猪会说谎?因为它们不想被揭穿是猪! 1. 为什么小鸟总是歌唱?因为它们不会说话! 2. 为什么光头强不喜欢去博物馆?因为里面都是古人的头发! 3. 为什么鱼不喜欢唱歌?因为它们会唱跳不动! 4. ...
- Python番外篇:爬取腾讯新闻热点内容 并发送新闻提示电子邮件
hello,大家好,我是wangzirui32,今天来教大家如何爬取爬取腾讯新闻热点内容,并发送新闻提示电子邮件,开始学习吧! 1. HTML解析 腾讯网的首页为https://www.qq.com, ...
- #1024#番外篇科普为什么1024是程序员日?2020年10月24日,程序员为啥都不放假?
1.1024为啥是程序员日? 因为1GB=1024MB,1MB=1024KB 2.2020年10月24日,程序员为啥都不放假? 因为2020-1024=996 ("996"指的是早 ...
最新文章
- TensorFlow中的ResNet残差网络实战(2)
- 红帽Redhat6.4 iso下载地址
- 赠书:深入理解MySQL主从原理
- 从零开始成为一名开源程序员,其实只需要九步!
- 熊猫烧香源代码(转载)
- 鸟哥的Linux私房菜(基础篇)-第一章、Linux是什么(一.4. 重点回顾)
- Ubuntu安装搜狗输入法Linux版
- P1351 联合权值
- 前端学习(1975)vue之电商管理系统电商系统之渲染参数下的可选项
- leetcode题库1314-- 矩阵区域和
- Windows平台安装dlib方法汇总
- iphone 3G 刷机错误解决集锦
- linux 节点互信,Linux 集群节点互信ssh配置
- Codeforeces #710 div3题解报告
- 最坏的不是面试被拒,而是没面试机会,以面试官视角分析哪些简历至少能有面试机会
- e-cology房地产行业解决方案
- vue-----vue-18n多语言处理,实现国际化
- (ros/move_base)move介绍
- 科技公司怎么选择安全高效的企业邮箱
- 教你使用Python下载b站等各大主流网站音视频
热门文章
- linux设置无线网络
- c语言程序设计中 编写韩束,详解C语言函数
- html的cookie查看器,谷歌Cookies查看工具
- 基于FPGA的卷积神经网络加速器研究
- 最强元宇宙项目MetaMobile即将在OpenSea推出纪念版NFT
- 魔兽世界怀旧服十月最新服务器,魔兽世界10月24日怀旧服内容一览 WOW怀旧服最新消息...
- 硬件知识——主板插槽
- soap soapenv区别_soap学习笔记(二)-----soap入门篇
- windows seven小技巧
- 计算机应用基础网络题的视频,计算机应用基础统考题库 2016年4月网络统考演示文稿...