搜狗词库的批量下载#Python
在制作电子病历全文索引时,需要建立索引,索引是根据索引词建立的,现有索引词匮乏,不能满足需求,搜寻之后,发现搜狗输入法的医学词库很庞大,所以,想着自学写一个Python脚本,完成词库的自动下载工作。
正文
分析参考资料代码
通过分析代码发现,思路是:
获取分类链接
获取该分类的分页链接
获取该页下载链接-->生成一个list
通过list下载内容
所需模块知识补充
1、requests和BeautifulSoup模块(分类、分页、下载链接都涉及)
爬取网页过程
获取网页数据-->requests模块,并转换成txt格式
解析数据-->BeautifulSoup模块,txt转换成bs对象
提取相关数据-->需要分析url找到想要的数据内容,确定对应的class_
举例,小分类的全部链接可以在cate_words_list的table下面全部找到,所以提取整体内容items = soup.find_all('table', class_='cate_words_list')
2、write模块
def download_dict(dl_url, path):# 下载res = requests.get(dl_url, timeout=5)# print(res)# print(res.content)with open(path, "wb") as fw:fw.write(res.content)
总结
解析网页和下载内容部分进行了详细解释,针对如何将scel文件转换成txt文件,这里先不做讲解了(我也没弄明白呢),下次有机会再给大家分析分析。
附赠代码下载链接
我用夸克网盘分享了「搜狗词库的批量下载#Python」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。
链接:https://pan.quark.cn/s/2d42c4b3ee60
提取码:dtp5
参考资料
Python 搜狗词库的批量下载
搜狗词库的批量下载#Python相关推荐
- python读取文本两个数字的成语_只要2步!将搜狗词库(scel)转为Python可读的文本...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...
- ibus添加搜狗词库
安装方法:http://forum.ubuntu.org.cn/viewtopic.php?f=8&t=252407 词库地址:http://code.google.com/p/hslinux ...
- Python:文本分析必备—搜狗词库
全文阅读:Python:文本分析必备-搜狗词库| 连享会主页 目录 1. 引言 2. 词典的妙用 3. 搜狗词库的下载 3.1 抓取12个页面链接 3.2 爬取所有词库名称和下载链接 3.3 下载细胞 ...
- R语言:如何批量导入搜狗词库
首先是建立相关目录 # 建立相关目录 # 建立数据目录,本项目所有数据都保存在这个文件夹下(包括搜狗词库文件).其中getwd()用来获取当前工作环境的目录 data.dir <- sprint ...
- 搜狗词库爬虫(2):基础爬虫框架的运行流程
系列目录: 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类 项目Github地址:github.com/padluo/sogo- 各模块对应的内容如下: getCategory.py,提取词库分类ID ...
- PHP高性能输出UNICODE正则汉字列表 汉字转拼音多音字解决方案 搜索引擎分词细胞词库更新 搜狗词库提取TXT...
为什么80%的码农都做不了架构师?>>> 目前现状 汉字转拼音 难度大就大在 多音字!行业上较准确的是基于词语.成语的识别.搜狗有1万多词库 每个词库又很大: 比如: 了 我们 ...
- 将搜狗词库.scel格式转化为.txt格式
[2020年5月28日更新:有一说一,这篇文章是我2017年底在新浪工作时处理家居.房产频道相关业务时的实践,代码是后来从自己代码库直接粘贴的,当然转码部分的代码是借鉴的,当时也是查阅了几种方法,一一 ...
- Scrapy 搜狗词库爬虫
引言 最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列 https://github.com/Ehco1996/Python-crawler 博主写的对新手很友好,很适合入门. 我写这篇文章 ...
- visual studio输入法打不了中文_目前比较满意的手机输入法方案:Gboard + 搜狗词库...
输入法是手机必备的APP了,选择一款好的输入法能提高你的文字输入体验,雷锋哥从最开始用的是「谷歌拼音」简洁 UI 界面,支持 "滑行输入" 方式,用手指滑动键盘打字,比一个一个点击 ...
最新文章
- java Web项目如何windows桌面运行?
- mysql generator 命令_MyBatis Generator速查手册
- [Kafka与Spark集成系列二] Spark的安装及简单应用
- java html api 百度云,Javase-6.0_中文API_HTML(最新更新)
- QT的常用对话框的应用
- teleport 组件的作用_人脸识别综述! 覆盖人脸检测,预处理和特征表示三大核心组件!...
- dnf台服升级mysql_MySQL Yum存储库 安装、升级、集群
- C#LeetCode刷题之#242-有效的字母异位词(Valid Anagram)
- Vmware Ubuntu 开机蓝屏
- 项目总结25:海康威视SDK-Java二次开发-客流量分析
- 洛达项目AB152xP资料SDK相关说明
- 区块链100问:区块链到底能不能篡改?
- 城八区和通州区限价房申请5月16日开始受理
- DMG计算机,dmg文件怎么打开?dmg是什么意思?
- Ds918 ds3615 ds3617区别_苹果678有什么区别
- 介绍中国传统节日的网页html,介绍中国传统节日的作文4篇
- BeyondCompare去掉时间戳的匹配
- Oracle 数据库
- 智慧步道解决方案 PPT
- unity .obj文件的导出