今天，双是番外篇，这次番外篇主要教大家如何用网络爬虫查询词语。

1.确定数据源

首先，我们得找一个查询的数据源，我找到了360国学网站，选择“词语大全”，它的查询词语网址为：

https://guoxue.baike.so.com/query/index/

这后面得加上亿些参数：

type = phrase
text = 圆组词
word_inc = 圆

2. 给请求添加数据源网址参数

用word来代替“圆”，写成Python字典：

word = input("请输入你想组词的字：")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}

发出请求：

import requestsword = input("请输入你想组词的字：")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}url = 'https://guoxue.baike.so.com/query/index/'
r = requests.get(url, params=key_dict)
print(r.status_code)

输出：

200

说明请求正常。

3.解析词语页面

经过分析，我们发现，所有的词语都在一个div标签中（绿色标注处），在里面，每个单独的div标签又嵌套了3个div标签，其中的一个（橙色标注处）的内容是我们需要的词语。

from bs4 import BeautifulSoup as bs
import requestsword = input("请输入你想组词的字：")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}url = 'https://guoxue.baike.so.com/query/index/'
r = requests.get(url, params=key_dict)soup = bs(r.text, 'html.parser')
# 查找上图绿色标注标签
div_content = soup.find("div", {'class': 'content'})
# 查找上图橙色标注标签中的a标签
all_title = div_content.find_all('a', {'data-logid': "ordinal_incgroup_phrases"})
# 加入判断 判断all_title是否为空
if all_title:# 如果all_title不为空print('\n'+word+"组词有：\n")for t in all_title:# 遍历所有a标签内容print(t.string)print("\n查看更多信息可前往：\n"+r.url)
else:print("\n组词内容无法查询到!")

4.测试代码

以上就是我们今天全部的代码，我们来试着运行亿下：

请输入你要查询的字：圆

圆组词有：

圆滑
方圆
圆通
团圆
珠圆玉润
方枘圆凿
破镜重圆
事宽即圆
圆润
自圆其说

查看更多信息可前往：
https://guoxue.baike.so.com/query/index/?type=phrase&text=%E5%9C%86%E7%BB%84%E8%AF%8D&word_inc=%E5%9C%86

针不戳，那今天的课程就到这儿了，感兴趣的可以爬取词语拼音或解释，有什么问题请在评论区讨论，喜欢的话可以收藏一下，再见！
另外，不了解requests模块和BeautifulSoup4模块的可以前往笔者的Python：第三方库requests 和 Python：第三方库BeautifulSoup4去看看。

Python番外篇：网络爬虫组词程序相关推荐

Python番外篇：爬取CSDN作者排行榜数据
今天,又双叒叕是番外篇,我们来爬取CSDN作者排行榜上的数据. 1. 确定数据源首先,排行榜的网页链接是https://blog.csdn.net/rank/list/total: 打开" ...
落枕学python—番外篇(1)
前言上次写过了两篇啊,那么这次我先缓一缓,先写一个番外,但这不等于些废话,我还是要说一点实质性内容的,废话不多说,咱们先开始哈. 一.Python有什么好? 咱们既然学,就要知道我们为什么要学. 第 ...
Python番外篇：Python代码生成春联三种版本
Hello,大家好,我是wangzirui32,今天就是虎年春节了,先祝大家虎虎生威,虎年大吉!愿大家在新的一年里万事如意,心想事成! 文章目录 1. 普通版本 1.1 引入所需模块 1.2 生成春联 ...
Python番外篇：Flask+segno 实现个人名片二维码在线生成器
hello,我是wangzirui32,今天来教大家如何Flask框架和segno模块实现个人名片二维码在线生成器. 开始学习吧! 1. 项目架构 image文件夹为空,templates下存储了2个 ...
Python番外篇：电脑读心术程序快给你的同事朋友玩一玩
hello,大家好,我是wangzirui32,今天我们来学习如何写一个电脑读心术程序,开始学习吧! 1. 原理介绍本程序使用的读心术原理为吉普赛读心术,流程如下: 10~99之间任意挑选一个数用 ...
Python番外篇：教你如何编写一个GIF录屏工具
hello,大家好,我是wangzirui32,今天我们来学习如何编写一个GIF录屏工具,开始学习吧! 1. 项目准备我们需要PIL库对屏幕进行截取,使用imageio对截取的图像进行拼接,合成为G ...
【大数据学习番外篇之爬虫3】爬美女照片
为什么猪会说谎?因为它们不想被揭穿是猪! 1. 为什么小鸟总是歌唱?因为它们不会说话! 2. 为什么光头强不喜欢去博物馆?因为里面都是古人的头发! 3. 为什么鱼不喜欢唱歌?因为它们会唱跳不动! 4. ...
Python番外篇：爬取腾讯新闻热点内容并发送新闻提示电子邮件
hello,大家好,我是wangzirui32,今天来教大家如何爬取爬取腾讯新闻热点内容,并发送新闻提示电子邮件,开始学习吧! 1. HTML解析腾讯网的首页为https://www.qq.com, ...
#1024#番外篇科普为什么1024是程序员日？2020年10月24日，程序员为啥都不放假？
1.1024为啥是程序员日? 因为1GB=1024MB,1MB=1024KB 2.2020年10月24日,程序员为啥都不放假? 因为2020-1024=996 ("996"指的是早 ...

Python番外篇：网络爬虫组词程序

1.确定数据源

2. 给请求添加数据源网址参数

3.解析词语页面

4.测试代码

Python番外篇：网络爬虫组词程序相关推荐

最新文章

热门文章