TIP-LAS 藏语分词工具使用
最近处理藏语语料的时候找到了李亚超老师的TIP-LAS,详细介绍可见论文: TIP-LAS:一个开源的藏文分词词性标注系统
这个工具可以对藏语进行分词、词性标注处理。只是使用时遇到了一些问题,在此记录。
1.安装
论文中给出的github项目地址已经失效,现在的下载地址可见:TIP-LAS: An open source toolkit for Tibetan word segmentation and part of speech tagging。
安装方法已经在文档中详细写出,我是在Linux环境下使用的此工具,也就是进入解压后的主目录然后使用make
命令进行编译即可,但是在编译最后一个文件的时候出现了错误:
g++ -g -o ./tip-las utility/SentenceSplit.o utility/StringOperation.o utility/POSExtract.o utility/StringSplit.o utility/StringType.o utility/TextClassification.o utility/Tokenize.o taggin
g/Sample.o tagging/Model.o tagging/Decoder.o tagging/Perceptron.o Formatting.o Las.o Main.o -lpthread -ldl
/usr/bin/ld:无法打开输出文件 ./tip-las:是一个目录
解决方法: 在解压后的文件里,会看到一个tip-las
的空文件夹,在编译之前删掉即可。
2.运行
项目文档中给出了训练和测试的命令,也可以向李老师直接发邮件要一份已经训练好的模型,李老师邮件地址可以在项目首页文档中找到(李老师回复的还是很快的哈哈)
运行工具的命令是:
./tip-las test ws/pos/all input_file output_file
上述wa/pos/all
分别表示分词,词性标注和同时进行两种处理,我在这里只用到了分词,所以命令是./tip-las test ws input_file output_file
,对于不同的功能,输入数据文件的要求具体可以参考上面给出的项目地址文档。
注意!
- 模型文件直接放在主文件,也就是你运行上面命令的文件夹下就好(虽然没有在命令中指明模型,但是在进行处理的时候应该会自动寻找相应模型);
- 分词模型和词性标注模型并不同,如果是运行
./tip-las test all input_file output_file
,那么需要两个模型都存在,我只试验过分词模型:);
TIP-LAS 藏语分词工具使用相关推荐
- 梵语和藏语_【语言学】梵语与藏语的比较小论
讲师:白景皓(讲解) 1.梵语 梵语是印欧语系的印度-伊朗语族的印度-雅利安语支的一种语言,是印欧语系最古老的语言之一.和拉丁语一样,梵语已经成为一种属于学术和宗教的专门用语.梵语文法的主要特征是复杂 ...
- python 分词工具训练_中文分词入门和分词工具汇总攻略
[注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...
- 腾讯翻译君在线翻译怎么翻译整个文件_藏语怎么翻译成中文?这两方法非常好用...
就算你真的不会翻译,掌握一些翻译方法还是非常有必要的.因为有时候我们会遇到一些比较特殊的语言,比如说藏语.藏语怎么翻译成中文呢?如果你不知道,那么这两种翻译方法,你值得拥有. 一.工具翻译 工具:文档 ...
- 分词工具与方法:jieba、spaCy等
分词是自然语言处理中的一项重要任务,将一段文本划分成一系列有意义的词语或单词,是很多文本处理任务的基础,如文本分类.情感分析.机器翻译等.在中文分词中,jieba是一个常用的分词工具,而在英文分词中, ...
- 各种中文分词工具的使用方法
诸神缄默不语-个人CSDN博文目录 本文将介绍jieba.HanLP.LAC.THULAC.NLPIR.spacy.stanfordcorenlp.pkuseg等多种中文分词工具的简单使用方法. 对于 ...
- 6大中文分词工具测试比较
中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...
- 自然语言处理学习笔记2:分词工具及分词原理
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词之 ...
- TiBERT:藏语预训练语言模型——中文翻译
TiBERT--藏语预训练语言模型 摘要 预训练语言模型在大规模无标签文本上进行训练,可以在许多不同的下游任务中获得最先进的结果.然而,目前的预训练语言模型主要集中在汉语和英语领域.对于藏语这样的 ...
- 藏语计算机语言学基础知识,语言学概论(00541)基础知识点.docx
<语言学概论>00541 精讲1 第一章 第一节 认识人类的语言 1.只有人类才有语言(内容多.用处大.能够创造)[选择/没考过] 2.语言和民族的关系[简答]--语言是民族的重要标志:同 ...
最新文章
- 《算法导论》学习总结 — 13. 第13章 红黑树(2)
- MSB600 cmd.exe 已退出,代码为3
- cnn风格迁移_快速图像风格迁移思想在无线通信中的另类应用:算法拟合
- 受众定向_我如何了解社区与受众之间的差异
- IOT(10)---NB-IOT的物联网十大典型应用场景
- java获取上周任意一天的日期
- 令人震惊!JSP已经淘汰,却才搞明白JSP和Servlet之间不可告人的关系!
- Python:实现蓝牙通信
- Java调用WebService接口
- JSP教程:学习路线和开发工具安装视频
- 中国大陆五级行政区划数据爬虫
- 云队友丨十年寒窗苦读为什么赢不过几代人的努力?
- 【每日随笔】2021 年终总结 ( 学习和博客 | 技术学习方向 | 专业学习方向 | 写博客的技巧总结 | 工作成果 | 2022 年展望及职业规划 | 对 CSDN 的建议和期望 )
- 微信公众号如何绑定运营者的微信号
- maven引入支付宝SDK
- java dms_奥点云-DMS Java API 文档
- python网络爬虫网易云音乐_一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取...
- Python2.7安装Opencv3
- 使用opencv调用摄像头识别颜色(python版)
- 电脑桌面宠物-开机自启
热门文章
- mysql ibdata1过大_MySql ibdata1文件太大如何缩小
- python卸载方法(教你一招干干净净卸载Python
- JavaScript 中根据换行符拆分字符串失败
- Uva 12563,劲歌金曲,01背包
- 计算机信息学院开学演讲稿,大学开学演讲稿范文(精选16篇)
- 博客总访问量一万了,感觉有点不真实
- 配置Tomcat的虚拟目录,通过www.XXX.com的方式访问项目
- serverlet 原理_serverlet_servlet工作原理面试题_serverlet和jsp
- 阴阳师快速过河童本第十层
- 超级简单又功能强大还免费的电路仿真软件