可以用来为制作成语游戏提供原始数据。

import requests

from bs4 import BeautifulSoup

import csv

# 获取成语表:成语-拼音-释义。

headers = {

'User-Agent':

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.2 Safari/605.1.15'

}

def getIntroduction(url):

res = requests.get(url, headers=headers, allow_redirects=False)

res.encoding = "utf-8"

soup = BeautifulSoup(res.text)

chengyu = soup.select('h1')

chengyu = str(chengyu[0]).replace("

", "")

chengyu = chengyu.replace("", "")

introText = soup.select('div[class="con"]')

introText = str(introText[0]).replace("

", "")

introText = introText.replace("

", "")

introText = introText.replace('

', "")

introText = introText.replace('

', "")

introText = introText.replace('', "")

introText = introText.replace('

', "")

introText = introText.replace('

', "")

introText = introText.replace('

', "")

introText = introText.replace('', "")

introText = introText.replace('', "")

introText = introText.replace('

', "")

introList = introText.split('\n')

pinyin = introList[1]

intro = introList[2]

print(chengyu, pinyin, intro)

return chengyu, pinyin, intro

def writeCsv(path, content):

'''写入csv'''

with open(path, 'w', encoding='utf-8', newline='') as f:

writer = csv.writer(f)

for r in content:

writer.writerow(r)

print("已写入 ", path)

if __name__ == "__main__":

maxIndex = 30898

idioms = []

targetNum = 10

curNum = 0

for index in range(1, maxIndex):

url = r'https://www.chengyucidian.net/cy/' + str(index) + '.html'

chengyu, pinyin, intro = getIntroduction(url)

if (len(chengyu) == 4):

curList = []

curList = [chengyu, pinyin, intro]

idioms.append(curList)

curNum += 1

if curNum >= targetNum:

break

writeCsv('成语.csv', idioms)

最终会生成一个表格:成语.csv

内容如下:

image.png

梦幻西游python验证成语,Python爬取成语信息相关推荐

  1. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  2. python爬虫实战之爬取成语大全

    业余时间,想学习中华文化之成语,身边没有成语词典,网上一个个翻网页又比较懒,花了半个小时搞定数字成语词典,你值得拥有! 爬取思路 找到首页网址:https://www.chengyucidian.ne ...

  3. 一个简单python爬虫的实现——爬取电影信息

    最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...

  4. Python爬虫教你爬取视频信息

    大家好,我是拉斯,今天分享一个爬取某音视频的一个小案例,大家一起学习 目录 前言 基本环境配置 爬取目标视频 获取视频链接 1.查看网页源代码 2.抓包工具捕捉 下载视频(以mp4格式进行保存) 获取 ...

  5. python爬虫实战笔记——爬取图书信息(利用selenium库+chromedriver.exe插件)

    准备: 1.插件chromedriver.exe 2.已经安装好谷歌浏览器Chrome 编写代码 from bs4 import BeautifulSoup from selenium import ...

  6. python平台 租用_Python爬取房屋租售信息

    缘起 第一次接触"租售比"这个概念是在知乎 团支书 对 如何通过房屋租售比来判断房产的价值或泡沫? 这个问题的回答上看到的,当时看到她搞出来的一些图和分析就感觉很有意思,寻思着自己 ...

  7. python爬取网页信息

    最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少.前几天看到了一 ...

  8. 利用python的scrapy框架爬取google搜索结果页面内容

    scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...

  9. 【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

    [Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志 项目简介 步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

  10. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

最新文章

  1. React 2019年路线图发布!Hooks明年一季度上线
  2. Ajax+Node.js前后端交互最佳入门实践(01)
  3. 十字链表计算矩阵乘积 c语言,求用十字链表实现矩阵相加算法(C语言)急!!!...
  4. iOS上文本处理之简史
  5. HTML修改价格文字,HTML打折计算价格实现原理与脚本代码
  6. Flash 杂志《summer tree》 第七期发布
  7. mysql left join 右表数据不唯一的情况解决方法
  8. 最全的spark基础知识解答
  9. MyEclipse项目里面出现红叉的解决方案?
  10. 水晶报表合并模块部署指南(.Net2.0,VS2005)
  11. 超详细的python语法要点思维导图,看了直呼相见恨晚,拿走不谢
  12. 使用路由器搭建局域网
  13. 计算机软件的英文简称,计算机常见英文缩写.docx
  14. 机器学习与数据挖掘之ROC与AUC
  15. Excel取消合并单元格后自动填写内容
  16. 11月28日服务器不稳定公告,《神之物语》手游11月28日服务器维护内容公告
  17. canvas画圆又毛边
  18. 酷开系统壁纸模式,百变画作颠覆想象
  19. 一个故事,一段代码告诉你如何使用不同语言(GolangC#)提供相同的能力基于Consul做服务注册与发现
  20. 卫星影像领域的深度学习数据和模型项目

热门文章

  1. 2022计算机考研统考的院校有哪些,2022考研初试科目有变化的部分院校整理,有需求的同学自取...
  2. STM32F103C8T6用ADS1115采集热敏电阻
  3. linux安装ntpd服务端,Linux升级NTPD服务器-编译安装ntp-4.2.8p9与配置NTPD服务器
  4. 1.5 Web前端:常用CSS样式2:其它样式
  5. 一文带你了解机器字长、指令字长、存储字长的区别与联系
  6. mysql mediumint是什么类型_MySQL中数值类型中smallint、mediumint等区别是什么 - 晓雨网...
  7. Linux网络相关知识(七)
  8. 笔记本本地连接图标不显示,只链接无线网
  9. java多线程--哲学家进餐问题(操作系统)(哲学家进餐问题:5个哲学家共用一张圆桌,分别坐在周围的5张椅子上,在圆桌上有5个碗和5只筷子(注意是5只筷子,不是5双),碗和筷子交替排列。)
  10. 【Vivado那些事】简谈FPGA比特流结构