今天,双是番外篇,这次番外篇主要教大家如何用网络爬虫查询词语。

1.确定数据源

首先,我们得找一个查询的数据源,我找到了360国学网站,选择“词语大全”,它的查询词语网址为:

https://guoxue.baike.so.com/query/index/

这后面得加上亿些参数:

  1. type = phrase
  2. text = 圆组词
  3. word_inc = 圆

2. 给请求添加数据源网址参数

用word来代替“圆”,写成Python字典:

word = input("请输入你想组词的字:")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}

发出请求:

import requestsword = input("请输入你想组词的字:")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}url = 'https://guoxue.baike.so.com/query/index/'
r = requests.get(url, params=key_dict)
print(r.status_code)

输出:

200

说明请求正常。

3.解析词语页面


经过分析,我们发现,所有的词语都在一个div标签中(绿色标注处),在里面,每个单独的div标签又嵌套了3个div标签,其中的一个(橙色标注处)的内容是我们需要的词语。

from bs4 import BeautifulSoup as bs
import requestsword = input("请输入你想组词的字:")
key_dict = {'type': 'phrase','text': word+'组词','word_inc': word}url = 'https://guoxue.baike.so.com/query/index/'
r = requests.get(url, params=key_dict)soup = bs(r.text, 'html.parser')
# 查找上图绿色标注标签
div_content = soup.find("div", {'class': 'content'})
# 查找上图橙色标注标签中的a标签
all_title = div_content.find_all('a', {'data-logid': "ordinal_incgroup_phrases"})
# 加入判断 判断all_title是否为空
if all_title:# 如果all_title不为空print('\n'+word+"组词有:\n")for t in all_title:# 遍历所有a标签内容print(t.string)print("\n查看更多信息可前往:\n"+r.url)
else:print("\n组词内容无法查询到!")

4.测试代码

以上就是我们今天全部的代码,我们来试着运行亿下:


请输入你要查询的字:圆

圆组词有:

圆滑
方圆
圆通
团圆
珠圆玉润
方枘圆凿
破镜重圆
事宽即圆
圆润
自圆其说

查看更多信息可前往:
https://guoxue.baike.so.com/query/index/?type=phrase&text=%E5%9C%86%E7%BB%84%E8%AF%8D&word_inc=%E5%9C%86


针不戳,那今天的课程就到这儿了,感兴趣的可以爬取词语拼音或解释,有什么问题请在评论区讨论,喜欢的话可以收藏一下,再见!
另外,不了解requests模块和BeautifulSoup4模块的可以前往笔者的Python:第三方库requests 和 Python:第三方库BeautifulSoup4去看看。

Python番外篇:网络爬虫组词程序相关推荐

  1. Python番外篇:爬取CSDN作者排行榜数据

    今天,又双叒叕是番外篇,我们来爬取CSDN作者排行榜上的数据. 1. 确定数据源 首先,排行榜的网页链接是https://blog.csdn.net/rank/list/total: 打开" ...

  2. 落枕学python—番外篇(1)

    前言 上次写过了两篇啊,那么这次我先缓一缓,先写一个番外,但这不等于些废话,我还是要说一点实质性内容的,废话不多说,咱们先开始哈. 一.Python有什么好? 咱们既然学,就要知道我们为什么要学. 第 ...

  3. Python番外篇:Python代码生成春联 三种版本

    Hello,大家好,我是wangzirui32,今天就是虎年春节了,先祝大家虎虎生威,虎年大吉!愿大家在新的一年里万事如意,心想事成! 文章目录 1. 普通版本 1.1 引入所需模块 1.2 生成春联 ...

  4. Python番外篇:Flask+segno 实现个人名片二维码在线生成器

    hello,我是wangzirui32,今天来教大家如何Flask框架和segno模块实现个人名片二维码在线生成器. 开始学习吧! 1. 项目架构 image文件夹为空,templates下存储了2个 ...

  5. Python番外篇:电脑读心术程序 快给你的同事朋友玩一玩

    hello,大家好,我是wangzirui32,今天我们来学习如何写一个电脑读心术程序,开始学习吧! 1. 原理介绍 本程序使用的读心术原理为吉普赛读心术,流程如下: 10~99之间任意挑选一个数 用 ...

  6. Python番外篇:教你如何编写一个GIF录屏工具

    hello,大家好,我是wangzirui32,今天我们来学习如何编写一个GIF录屏工具,开始学习吧! 1. 项目准备 我们需要PIL库对屏幕进行截取,使用imageio对截取的图像进行拼接,合成为G ...

  7. 【大数据学习番外篇之爬虫3】爬美女照片

    为什么猪会说谎?因为它们不想被揭穿是猪! 1. 为什么小鸟总是歌唱?因为它们不会说话! 2. 为什么光头强不喜欢去博物馆?因为里面都是古人的头发! 3. 为什么鱼不喜欢唱歌?因为它们会唱跳不动! 4. ...

  8. Python番外篇:爬取腾讯新闻热点内容 并发送新闻提示电子邮件

    hello,大家好,我是wangzirui32,今天来教大家如何爬取爬取腾讯新闻热点内容,并发送新闻提示电子邮件,开始学习吧! 1. HTML解析 腾讯网的首页为https://www.qq.com, ...

  9. #1024#番外篇科普为什么1024是程序员日?2020年10月24日,程序员为啥都不放假?

    1.1024为啥是程序员日? 因为1GB=1024MB,1MB=1024KB 2.2020年10月24日,程序员为啥都不放假? 因为2020-1024=996 ("996"指的是早 ...

最新文章

  1. TensorFlow中的ResNet残差网络实战(2)
  2. 红帽Redhat6.4 iso下载地址
  3. 赠书:深入理解MySQL主从原理
  4. 从零开始成为一名开源程序员,其实只需要九步!
  5. 熊猫烧香源代码(转载)
  6. 鸟哥的Linux私房菜(基础篇)-第一章、Linux是什么(一.4. 重点回顾)
  7. Ubuntu安装搜狗输入法Linux版
  8. P1351 联合权值
  9. 前端学习(1975)vue之电商管理系统电商系统之渲染参数下的可选项
  10. leetcode题库1314-- 矩阵区域和
  11. Windows平台安装dlib方法汇总
  12. iphone 3G 刷机错误解决集锦
  13. linux 节点互信,Linux 集群节点互信ssh配置
  14. Codeforeces #710 div3题解报告
  15. 最坏的不是面试被拒,而是没面试机会,以面试官视角分析哪些简历至少能有面试机会
  16. e-cology房地产行业解决方案
  17. vue-----vue-18n多语言处理,实现国际化
  18. (ros/move_base)move介绍
  19. 科技公司怎么选择安全高效的企业邮箱
  20. 教你使用Python下载b站等各大主流网站音视频

热门文章

  1. linux设置无线网络
  2. c语言程序设计中 编写韩束,详解C语言函数
  3. html的cookie查看器,谷歌Cookies查看工具
  4. 基于FPGA的卷积神经网络加速器研究
  5. 最强元宇宙项目MetaMobile即将在OpenSea推出纪念版NFT
  6. 魔兽世界怀旧服十月最新服务器,魔兽世界10月24日怀旧服内容一览 WOW怀旧服最新消息...
  7. 硬件知识——主板插槽
  8. soap soapenv区别_soap学习笔记(二)-----soap入门篇
  9. windows seven小技巧
  10. 计算机应用基础网络题的视频,计算机应用基础统考题库 2016年4月网络统考演示文稿...