Mac 朗文5++(Longman LDOCE5)双解·例句发音 词库制作
tag: FF朗文5++, 朗文英汉,LDOCE,朗文当代,朗曼词典
词典数据来源于 掌上百科论坛 的 [英汉] 朗文5++ ·双解·例句发音(更新V1.35 2018/01/30) 帖子。https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=22389
Note:此贴需要一定等级才可以浏览,刚注册无法查看。
非DIY爱好者 请前往 mac-dict 获取词库。
词典介绍
FF朗文5++辞典其实是包括了三部辞典,一部是朗文当代双解第五版,一部是朗文当代Online(LDOCE Online),例句前有喇叭标志的都是可以发音的例句。LDOCE Online, 以个人的观察理解,应该是朗文当代这一产品的最新版本,两部词典绝非简单的拼凑在一起,二者内容互相交织于同一页面的并通过开关及标志区分,你可以在同一个页面上看到这两部词典有哪些不同,有哪些内容是Online新增的,有哪些内容是双解独有的,因此本产品得名5++。另外一部词典是 Longman Business Dictionary。
本产品页面为online的克隆版,所谓【克隆】, 就是说页面直接来自于online,之后经过深度剪裁与加工而成。本产品坚持尽最大可能地使用最源头的素材,因此绝大部分配音,图片也都来自online。online部分收词量覆盖双解5,LDOCE ENGLISH 5 以及 LDOCE ENGLISH 6全部词汇。
中文来自网上一个有很多大道理的地方(以下用wy简称这个地方),依据字典对wy数据进行了大量修订和补充,wy缺少的单词据字典手工录入。wy数据英文部分以及整体结构一塌糊涂,属于如果收费绝对可以去索赔的范畴,但中文部分完整度还不错。
本产品携带三套图片,一套来自online, 一套来自LDOCE 5 , 某些如形容词类的图片,online版本已经删除,第三套图片来自wy双解版,这套图片实际上是前两套的组合和拼凑,但带有中文翻译。
本产品包含了 longman corpus 的内容,通俗点,就是一大波无配音无翻译的原生态例句。
Mdx词库转 Mac Dictionary 方法
非DIY爱好者 请直接移步文章末尾下载 Mac 词库。
Mac 官方关于词典格式的说明文档:Dictionary Services Programming Guide
依赖软件
- PyGlossary:最新3.1 Releases见PyGlossary 3.1.0
- 读取 Mdict (MDX) 词库:
sudo pip3 install python-lzo
- 写入到 AppleDict:
sudo pip3 install lxml beautifulsoup4 html5lib
- spx音频转为MP3:
brew install speex
- 其他Mac OS X 工具:
- GNU make as part of Command Line Tools for Xcode.
- Dictionary Development Kit as part of Auxillary Tools for Xcode.Extract to
/Developer/Extras/Dictionary Development Kit
转换过程
- mdx 反解析
进入到Mdict词库所在目录,执行命令将词典文件转换成 xml 文件,并将其他图片、音频等文件提取出来放在OtherResources文件夹下。
python3 ~/Applications/script/pyglossary/pyglossary.pyw --read-options=resPath=OtherResources --write-format=AppleDict "./LDOCE5++ V 1-31.mdx" ldoce5-EnCn
- spx语音转换
词典内包含部分 spx 文件,需要先将其转换成 wav 格式,这里用到的软件是 speex,如果 brew 安装失败,可以在这里下载程序:https://download.csdn.net/download/qq252101792/10504089
find OtherResources -name "*.spx" -execdir sh -c 'spx={};speexdec $spx ${spx%.*}.wav' \;
然后使用FFmpeg把wav文件转换成mp3文件(macOS中默认的iTunes与QuickTime均不支持wav格式)。
for x in ./OtherResources/*.wav; do ffmpeg -i "$x" "Sounds/`basename "$x" .wav`.mp3"; done
- 编译&安装
make
make install
- 图片&音频拷贝
将提取的 OtherResources 文件夹下的图片和音频拷贝到 ldoce5-EnCn.dictionary/Contents
目录下
词典文件其他问题修复
上述步骤转换的词典可能存在很多问题,例如毫无排版可言,无法显示图片,无法播放语音,词典内链接跳转不正确,单词跳转不正确,JS失效等问题。
- 毫无排版可言及JS失效
FF大神的朗文5++词库包含不少需要JS配合的内容,例如隐藏了Word family,隐藏了Online内容,隐藏了corpus,隐藏了Longman Business Dictionary内容,隐藏了语法、用法、搭配,更要命的是很多基本释义的例句也隐藏了。Mac Dictionary不支持JS,所以需要通过CSS一一将隐藏的内容显示出来。
使用修改后的 CSS 文件覆盖 ldoce5-EnCn.dictionary/Contents/DefaultStyle.css
文件即可。
- 无法显示图片,无法发音
这个原因是由于跳转的超链接不正确引起的,假设xml文件中为:
<a href="x-dictionary:d:sound://1.spx"><img border="0" src="Br.gif"/></a>
可替换为
<audio id="1" src="Sounds/1.mp3"/><img border="0" src="Br.gif" onmousedown="document.getElementById('1').play(); return false;"/>
onmousedown
可替换成 onmouseover
,这样鼠标悬浮上发音图标就开始发音,而不用单击。
- 修复词典中的链接跳转问题。
假设 dict_bundle_id 为 ldoce5-EnCn 。()
假设xml文件中为:
<a href="x-dictionary:d:entry://hour">hour</a>
可替换为:
<a href="x-dictionary:d:hour:ldoce5-EnCn">hour</a>
其中 ldoce5-EnCn
是词典的 dict_bundle_id, dict_bundle_id可在 ldoce5-EnCn.dictionary/Contents/Info.plist
中查看或修改。
- 修正词典中页面内的定位问题
例如点击apple1会跳转到同一个页面中的apple2处。
<a href="x-dictionary:d:entry://#_hke1">apple1</a>
<a name="_hke1">apple2</a>
将其替换为
<a href="#_hke1">apple1</a>
<a name="_hke1">apple2</a>
其他注意事项
以上每个词典文件中的具体模式均不太一样,而且有时会有与一般模式不同的个例(如多加了几个空格、标签间加了个
、中间换了一行、图片大多是png个别是gif等等),需要一一调试。
- 空格
连续两个粗体单词之间的空格会不显示。例如
<b>apple</b> <b>pie</b>
会显示为applepie。此时将其替换为
<b>apple</b> <b>pie</b>
xml 中如果含有
需要将其替换成普通的空格字符,另外有时xml中会有 &nbsp;
,原意应显示为空格,却显示为
。此时将其替换为
就好。
- CSS样式文件
若文件夹中有其它CSS文件,或者原来CSS文件就独立于MDX文件之外,将其内容复制到词典文件包中的DefaultStyle.css文件中。
- 其它问题
将 @@@LINK=abc
替换成 <a href="x-dictionary:d:abc:dict_bundle_id">abc</a>
.
如果图片无法正常显示,将相对路径名最前面的/去掉,例如将 <img src="/dir/abc.png"/>
替换成 <img src="dir/abc.png"/>
.
由于macOS的Dictionary中鼠标悬浮于某一内容之上时会将其视作一个span,如果CSS中原本就有应用于所有span的样式,会把该样式应用于鼠标经过的区域。这样鼠标经过的区域会有很奇怪的样式。解决办法是在原有span中加一个class,并把原来span的样式归到新建的class中。
Mac 朗文5++(Longman LDOCE5)双解·例句发音 词库制作相关推荐
- 朗文词典安装教程 朗文当代词典Longman 第五版 windows版 含映像工具
无需东奔西走找寻下载工具,也不需要下载器, 我把需用用到的工具和朗文词典安装包统一打包放在了网盘, 只需要一个网盘账户即可下载, 节约大家的时间 网盘链接可关注我的同名某信公号, 回复"朗文 ...
- 朗文3000词汇表带音标_英语零基础音标语法都不会词汇量3000 学雅思到6/6.5分 需要多久 该如何做?...
谢邀~ 题主好! 看来题主的零基础非常纯正.你现在测试的单词量是3000,只能大概展示出你的一些基础,但其实真正的还是要看你会使用,真正理解用法.语境的词汇有多少,而不是为了看起来有多少的那个数字. ...
- 如何正确安装朗文英文当代大词典(2CD版)
朗文英文当代大词典相信不少人在用,我没有买正版的书,因为前期买了柯林斯英英字典,现在感觉后悔啊,如果想学好英语还是要买朗文啊,以下安装方法是针对在网上下载的2CD版本的字典,仅供参考. 网上很多人没有 ...
- 朗文当代英英词典安装说明
1. 在VeryCD上下载以下六个文件: [朗文英英现代字典].patched1.ccd [朗文英英现代字典].patched2.ccd [朗文英英现代字典].patched1.img [朗文英英现代 ...
- AI 绘画Stable Diffusion 研究(五)sd文生图功能详解(下)
大家好,我是风雨无阻. 上一篇文章详细介绍了sd文生图的功能及使用注意事项,感兴趣的朋友可以前往查看:AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上) . 那今天这篇文章 ...
- python判断是否回文_对python判断是否回文数的实例详解
设n是一任意自然数.若将n的各位数字反向排列所得自然数n1与n相等,则称n为一回文数.例如,若n=1234321,则称n为一回文数:但若n=1234567,则n不是回文数. 上面的解释就是说回文数和逆 ...
- python--中文分词与词云制作--入门笔记(附停用词库及Mac字体资源)
这里写自定义目录标题 一.中文分词基本说明 二.停用词库.自定义词典的使用 (一)停用词 (二)自定义词典 三.词云绘制 四.中文字体的使用说明 (一)Mac 字体使用说明 五.附件 (一)ttf字体 ...
- mdx格式的词典用什么软件打开_分享 | 手机词典推荐—欧陆词典(涵盖牛津、朗文等14部权威英语辞典)...
前言: 小编在前一篇文章中提到过:英语词汇学习的重点,是熟练掌握那些平时常见词汇的用法.在学习词汇用法的时候,手机词典最好具备两个优点:1,可屏幕取词:2,词典为业内权威. 小编试用过的不多,今天跟大 ...
- PDF to Word Document Converter for Mac(PDF文档转换器)
如何将pdf文件转换为word.PPT.html.jpg等文件?PDF to Word&Document Converter是一个PDF文档转换器,可让您快速将PDF文档转换为其他格式的文件. ...
- Mac pro 下安装win7系统双系统
Mac pro 下安装win7系统双系统 准备工作:mac笔记本一台,win7系统 1. 应用程序-实用工具-bootCamp助理 2. 进入bootCamp助理界面点击继续 注意:有的可 ...
最新文章
- 可穿戴智能设备的发展趋势及技术变化
- [C#]关于override和new在重写方法时的区别
- 王道考研 计算机网络10 物理层设备 中继器 集线器
- Linux笔记-grep -v功能相关说明
- numpy存储特征:消耗内存和计算速度测试
- 【Java】Java对象转换成Map
- html阴影 渐变,CSS3:图层阴影及渐变
- Forefront_TMG_2010-安装TMG 2010
- AngularJ控制器
- Hidden (NOIP模拟赛)(字符串模拟QAQ)
- 《软件开发这点事儿》作者邵志东老师视频发布
- java坦克大战图片素材包,坦克大战素材包
- win7旗舰版梦幻主题补丁~完美你的桌面
- 用收敛标准计算神经网络迭代次数
- 人工智能会代替人工翻译?知行翻译:这是不可能地!
- 分类模型指标ks的含义
- jenkins使用python脚本发送企业微信通知
- word中右键图片菜单没有更改图片选项
- 尚硅谷_在线教育_Nuxt整合错误
- 机器学习算法竞赛平台整理