最近在解析百度词库https://shurufa.baidu.com/dict。说一下解决思路吧。

把文件下载下来会发现是字节流。而计算机存储数据有两种方式,大端字节序,小端字节序。

计算机的内部处理都是小端字节序。人类还是习惯读写大端字节序。所以,除了计算机的内部处理,其他的场合几乎都是大端字节序,比如网络传输和文件储存。

计算机处理字节序的时候,不知道什么是高位字节,什么是低位字节。它只知道按顺序读取字节,先读第一个字节,再读第二个字节。

如果是大端字节序,先读到的就是高位字节,后读到的就是低位字节。小端字节序正好相反。

而百度词库在存储的时候使用了大端存储,但如果想要解析出汉字,需要先将大端存储转为小端存储

def be2le(self):of = open(self.originfile,'rb')lef = open(self.lefile, 'wb')contents = of.read()contents_size = contents.__len__()mo_size = (contents_size % 2)#保证是偶数if mo_size > 0:contents_size += (2-mo_size)contents += contents + b'0000'#大小端交换for i in range(0, contents_size, 2):self.buf[1] = contents[i]self.buf[0] = contents[i+1]le_bytes = struct.pack('2B', self.buf[0], self.buf[1])lef.write(le_bytes)print('写入成功转为小端的字节流')of.close()lef.close()

之后再读取字节流,每4位解析成一个汉字字母或者字符。注意百度词库解析是从0x350这个位置开始。再根据规律拼接。经实测搜狗词库的解析上面代码同样适用起始位置改为0x2628.

详情在我的git上https://github.com/zhao-dapeng/Lexicon-analysis/blob/master/baidudict.py好用的话记得点个start

个人搭建的肿瘤社区http://www.h2cancer.com/希望能为肿瘤患者提供一个交流互助的平台

Python 解析百度,搜狗词库相关推荐

  1. 将搜狗词库.scel格式转化为.txt格式

    [2020年5月28日更新:有一说一,这篇文章是我2017年底在新浪工作时处理家居.房产频道相关业务时的实践,代码是后来从自己代码库直接粘贴的,当然转码部分的代码是借鉴的,当时也是查阅了几种方法,一一 ...

  2. python读取文本两个数字的成语_只要2步!将搜狗词库(scel)转为Python可读的文本...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...

  3. 搜狗词库的批量下载#Python

    在制作电子病历全文索引时,需要建立索引,索引是根据索引词建立的,现有索引词匮乏,不能满足需求,搜寻之后,发现搜狗输入法的医学词库很庞大,所以,想着自学写一个Python脚本,完成词库的自动下载工作. ...

  4. Python:文本分析必备—搜狗词库

    全文阅读:Python:文本分析必备-搜狗词库| 连享会主页 目录 1. 引言 2. 词典的妙用 3. 搜狗词库的下载 3.1 抓取12个页面链接 3.2 爬取所有词库名称和下载链接 3.3 下载细胞 ...

  5. 搜狗词库爬虫(2):基础爬虫框架的运行流程

    系列目录: 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类 项目Github地址:github.com/padluo/sogo- 各模块对应的内容如下: getCategory.py,提取词库分类ID ...

  6. 搜狗词库scel格式转为txt格式(python3版本)

    1.想用搜狗的词库来辅助jieba分词,需要把词库从scel转成txt格式. 在网上找到了大神的python2版本,https://blog.csdn.net/zhangzhenhu/article/ ...

  7. Scrapy 搜狗词库爬虫

    引言 最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列 https://github.com/Ehco1996/Python-crawler 博主写的对新手很友好,很适合入门. 我写这篇文章 ...

  8. visual studio输入法打不了中文_目前比较满意的手机输入法方案:Gboard + 搜狗词库...

    输入法是手机必备的APP了,选择一款好的输入法能提高你的文字输入体验,雷锋哥从最开始用的是「谷歌拼音」简洁 UI 界面,支持 "滑行输入" 方式,用手指滑动键盘打字,比一个一个点击 ...

  9. PHP高性能输出UNICODE正则汉字列表 汉字转拼音多音字解决方案 搜索引擎分词细胞词库更新 搜狗词库提取TXT...

    为什么80%的码农都做不了架构师?>>>    目前现状 汉字转拼音 难度大就大在 多音字!行业上较准确的是基于词语.成语的识别.搜狗有1万多词库 每个词库又很大: 比如: 了 我们 ...

  10. 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件

    一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...

最新文章

  1. 3d大爱心c语言程序,C语言控制台打印3D爱心图案
  2. 操作系统(一)操作系统的概念、功能
  3. 理解php反序列化漏洞
  4. qt中QListView的用法和QModelIndex的使用
  5. 【剑指offer】面试题49:丑数
  6. 700 页的机器学习总结火了!
  7. centos mysql二进制包_centos mysql5.7 二进制包安装
  8. python--re模块
  9. 类 QQ IM 通讯软件开发实战
  10. 家藏四库图书系列书目(经典)
  11. 谷歌神经网络机器翻译NMT:人人可利用TensorFlow快速建立翻译模型
  12. 终端网络饱和攻击猜想
  13. 《Spark实时词频统计处理系统》
  14. 轻松在线制作各种Logo标志
  15. 车牌识别关键技术-车牌定位
  16. 【Ubuntu】ubuntu 安装 ES (ElasticSearch)
  17. hostapd wpa_supplicant madwifi详细分析(十)——wps原理及实现 二
  18. 揭秘国漫《武动乾坤》制作幕后 动作戏竟然真人演
  19. 手把手教你用手机轻松制作精美封面,封面不够吸引人?
  20. 毕业论文之转化为三线表格(wps)

热门文章

  1. Scratch3架构结构说明
  2. 微信小程序使用字体图标
  3. 将 exe 文件反编译成 Python 脚本
  4. Xshell5 破解
  5. jsp购物车加mysql_网上购物车(jsp+servlet+mysql)
  6. 数据驱动的综合能源系统
  7. Coin3D三维可视化教程3
  8. Java开发揭秘!java反射和映射机制
  9. keytool java_如何找到并运行keytool
  10. HeadFirstJava学习心得——网络编程