在制作电子病历全文索引时,需要建立索引,索引是根据索引词建立的,现有索引词匮乏,不能满足需求,搜寻之后,发现搜狗输入法的医学词库很庞大,所以,想着自学写一个Python脚本,完成词库的自动下载工作。

正文

分析参考资料代码

通过分析代码发现,思路是:

  1. 获取分类链接

  1. 获取该分类的分页链接

  1. 获取该页下载链接-->生成一个list

  1. 通过list下载内容

所需模块知识补充

1、requests和BeautifulSoup模块(分类、分页、下载链接都涉及)

  • 爬取网页过程

  • 获取网页数据-->requests模块,并转换成txt格式

  • 解析数据-->BeautifulSoup模块,txt转换成bs对象

  • 提取相关数据-->需要分析url找到想要的数据内容,确定对应的class_

  • 举例,小分类的全部链接可以在cate_words_list的table下面全部找到,所以提取整体内容items = soup.find_all('table', class_='cate_words_list')

2、write模块

def download_dict(dl_url, path):# 下载res = requests.get(dl_url, timeout=5)# print(res)# print(res.content)with open(path, "wb") as fw:fw.write(res.content)

总结

解析网页和下载内容部分进行了详细解释,针对如何将scel文件转换成txt文件,这里先不做讲解了(我也没弄明白呢),下次有机会再给大家分析分析。

附赠代码下载链接

我用夸克网盘分享了「搜狗词库的批量下载#Python」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。

链接:https://pan.quark.cn/s/2d42c4b3ee60

提取码:dtp5

参考资料

  1. Python 搜狗词库的批量下载

搜狗词库的批量下载#Python相关推荐

  1. python读取文本两个数字的成语_只要2步!将搜狗词库(scel)转为Python可读的文本...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...

  2. ibus添加搜狗词库

    安装方法:http://forum.ubuntu.org.cn/viewtopic.php?f=8&t=252407 词库地址:http://code.google.com/p/hslinux ...

  3. Python:文本分析必备—搜狗词库

    全文阅读:Python:文本分析必备-搜狗词库| 连享会主页 目录 1. 引言 2. 词典的妙用 3. 搜狗词库的下载 3.1 抓取12个页面链接 3.2 爬取所有词库名称和下载链接 3.3 下载细胞 ...

  4. R语言:如何批量导入搜狗词库

    首先是建立相关目录 # 建立相关目录 # 建立数据目录,本项目所有数据都保存在这个文件夹下(包括搜狗词库文件).其中getwd()用来获取当前工作环境的目录 data.dir <- sprint ...

  5. 搜狗词库爬虫(2):基础爬虫框架的运行流程

    系列目录: 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类 项目Github地址:github.com/padluo/sogo- 各模块对应的内容如下: getCategory.py,提取词库分类ID ...

  6. PHP高性能输出UNICODE正则汉字列表 汉字转拼音多音字解决方案 搜索引擎分词细胞词库更新 搜狗词库提取TXT...

    为什么80%的码农都做不了架构师?>>>    目前现状 汉字转拼音 难度大就大在 多音字!行业上较准确的是基于词语.成语的识别.搜狗有1万多词库 每个词库又很大: 比如: 了 我们 ...

  7. 将搜狗词库.scel格式转化为.txt格式

    [2020年5月28日更新:有一说一,这篇文章是我2017年底在新浪工作时处理家居.房产频道相关业务时的实践,代码是后来从自己代码库直接粘贴的,当然转码部分的代码是借鉴的,当时也是查阅了几种方法,一一 ...

  8. Scrapy 搜狗词库爬虫

    引言 最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列 https://github.com/Ehco1996/Python-crawler 博主写的对新手很友好,很适合入门. 我写这篇文章 ...

  9. visual studio输入法打不了中文_目前比较满意的手机输入法方案:Gboard + 搜狗词库...

    输入法是手机必备的APP了,选择一款好的输入法能提高你的文字输入体验,雷锋哥从最开始用的是「谷歌拼音」简洁 UI 界面,支持 "滑行输入" 方式,用手指滑动键盘打字,比一个一个点击 ...

最新文章

  1. java Web项目如何windows桌面运行?
  2. mysql generator 命令_MyBatis Generator速查手册
  3. [Kafka与Spark集成系列二] Spark的安装及简单应用
  4. java html api 百度云,Javase-6.0_中文API_HTML(最新更新)
  5. QT的常用对话框的应用
  6. teleport 组件的作用_人脸识别综述! 覆盖人脸检测,预处理和特征表示三大核心组件!...
  7. dnf台服升级mysql_MySQL Yum存储库 安装、升级、集群
  8. C#LeetCode刷题之#242-有效的字母异位词(Valid Anagram)
  9. Vmware Ubuntu 开机蓝屏
  10. 项目总结25:海康威视SDK-Java二次开发-客流量分析
  11. 洛达项目AB152xP资料SDK相关说明
  12. 区块链100问:区块链到底能不能篡改?
  13. 城八区和通州区限价房申请5月16日开始受理
  14. DMG计算机,dmg文件怎么打开?dmg是什么意思?
  15. Ds918 ds3615 ds3617区别_苹果678有什么区别
  16. 介绍中国传统节日的网页html,介绍中国传统节日的作文4篇
  17. BeyondCompare去掉时间戳的匹配
  18. Oracle 数据库
  19. 智慧步道解决方案 PPT
  20. unity .obj文件的导出

热门文章

  1. 计算机怎么设置本地硬盘启动不了,电脑硬盘启动不了怎么办
  2. 阿里腾讯“主战场”揭幕:马云33亿入股恒生电子
  3. qt creator提示no valid kits found
  4. IP 域名 DNS之间的区别
  5. PHPExcel设置默认列宽
  6. 数字孪生论文阅读笔记【1.1】
  7. 工作都很累吧,进来听一个感人的故事吧!
  8. 微信小程序开发入门与实战(组件的使用)
  9. 基于javaweb心理咨询与诊断平台系统设计
  10. 跟着未名学Office - 高效笔记OneNote