Python 解析百度,搜狗词库
最近在解析百度词库https://shurufa.baidu.com/dict。说一下解决思路吧。
把文件下载下来会发现是字节流。而计算机存储数据有两种方式,大端字节序,小端字节序。
计算机的内部处理都是小端字节序。人类还是习惯读写大端字节序。所以,除了计算机的内部处理,其他的场合几乎都是大端字节序,比如网络传输和文件储存。
计算机处理字节序的时候,不知道什么是高位字节,什么是低位字节。它只知道按顺序读取字节,先读第一个字节,再读第二个字节。
如果是大端字节序,先读到的就是高位字节,后读到的就是低位字节。小端字节序正好相反。
而百度词库在存储的时候使用了大端存储,但如果想要解析出汉字,需要先将大端存储转为小端存储
def be2le(self):of = open(self.originfile,'rb')lef = open(self.lefile, 'wb')contents = of.read()contents_size = contents.__len__()mo_size = (contents_size % 2)#保证是偶数if mo_size > 0:contents_size += (2-mo_size)contents += contents + b'0000'#大小端交换for i in range(0, contents_size, 2):self.buf[1] = contents[i]self.buf[0] = contents[i+1]le_bytes = struct.pack('2B', self.buf[0], self.buf[1])lef.write(le_bytes)print('写入成功转为小端的字节流')of.close()lef.close()
之后再读取字节流,每4位解析成一个汉字字母或者字符。注意百度词库解析是从0x350这个位置开始。再根据规律拼接。经实测搜狗词库的解析上面代码同样适用起始位置改为0x2628.
详情在我的git上https://github.com/zhao-dapeng/Lexicon-analysis/blob/master/baidudict.py好用的话记得点个start
个人搭建的肿瘤社区http://www.h2cancer.com/希望能为肿瘤患者提供一个交流互助的平台
Python 解析百度,搜狗词库相关推荐
- 将搜狗词库.scel格式转化为.txt格式
[2020年5月28日更新:有一说一,这篇文章是我2017年底在新浪工作时处理家居.房产频道相关业务时的实践,代码是后来从自己代码库直接粘贴的,当然转码部分的代码是借鉴的,当时也是查阅了几种方法,一一 ...
- python读取文本两个数字的成语_只要2步!将搜狗词库(scel)转为Python可读的文本...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...
- 搜狗词库的批量下载#Python
在制作电子病历全文索引时,需要建立索引,索引是根据索引词建立的,现有索引词匮乏,不能满足需求,搜寻之后,发现搜狗输入法的医学词库很庞大,所以,想着自学写一个Python脚本,完成词库的自动下载工作. ...
- Python:文本分析必备—搜狗词库
全文阅读:Python:文本分析必备-搜狗词库| 连享会主页 目录 1. 引言 2. 词典的妙用 3. 搜狗词库的下载 3.1 抓取12个页面链接 3.2 爬取所有词库名称和下载链接 3.3 下载细胞 ...
- 搜狗词库爬虫(2):基础爬虫框架的运行流程
系列目录: 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类 项目Github地址:github.com/padluo/sogo- 各模块对应的内容如下: getCategory.py,提取词库分类ID ...
- 搜狗词库scel格式转为txt格式(python3版本)
1.想用搜狗的词库来辅助jieba分词,需要把词库从scel转成txt格式. 在网上找到了大神的python2版本,https://blog.csdn.net/zhangzhenhu/article/ ...
- Scrapy 搜狗词库爬虫
引言 最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列 https://github.com/Ehco1996/Python-crawler 博主写的对新手很友好,很适合入门. 我写这篇文章 ...
- visual studio输入法打不了中文_目前比较满意的手机输入法方案:Gboard + 搜狗词库...
输入法是手机必备的APP了,选择一款好的输入法能提高你的文字输入体验,雷锋哥从最开始用的是「谷歌拼音」简洁 UI 界面,支持 "滑行输入" 方式,用手指滑动键盘打字,比一个一个点击 ...
- PHP高性能输出UNICODE正则汉字列表 汉字转拼音多音字解决方案 搜索引擎分词细胞词库更新 搜狗词库提取TXT...
为什么80%的码农都做不了架构师?>>> 目前现状 汉字转拼音 难度大就大在 多音字!行业上较准确的是基于词语.成语的识别.搜狗有1万多词库 每个词库又很大: 比如: 了 我们 ...
- 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件
一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...
最新文章
- 3d大爱心c语言程序,C语言控制台打印3D爱心图案
- 操作系统(一)操作系统的概念、功能
- 理解php反序列化漏洞
- qt中QListView的用法和QModelIndex的使用
- 【剑指offer】面试题49:丑数
- 700 页的机器学习总结火了!
- centos mysql二进制包_centos mysql5.7 二进制包安装
- python--re模块
- 类 QQ IM 通讯软件开发实战
- 家藏四库图书系列书目(经典)
- 谷歌神经网络机器翻译NMT:人人可利用TensorFlow快速建立翻译模型
- 终端网络饱和攻击猜想
- 《Spark实时词频统计处理系统》
- 轻松在线制作各种Logo标志
- 车牌识别关键技术-车牌定位
- 【Ubuntu】ubuntu 安装 ES (ElasticSearch)
- hostapd wpa_supplicant madwifi详细分析(十)——wps原理及实现 二
- 揭秘国漫《武动乾坤》制作幕后 动作戏竟然真人演
- 手把手教你用手机轻松制作精美封面,封面不够吸引人?
- 毕业论文之转化为三线表格(wps)