最近处理藏语语料的时候找到了李亚超老师的TIP-LAS,详细介绍可见论文: TIP-LAS:一个开源的藏文分词词性标注系统
这个工具可以对藏语进行分词、词性标注处理。只是使用时遇到了一些问题,在此记录。

1.安装

论文中给出的github项目地址已经失效,现在的下载地址可见:TIP-LAS: An open source toolkit for Tibetan word segmentation and part of speech tagging。
安装方法已经在文档中详细写出,我是在Linux环境下使用的此工具,也就是进入解压后的主目录然后使用make命令进行编译即可,但是在编译最后一个文件的时候出现了错误:

g++ -g -o ./tip-las utility/SentenceSplit.o utility/StringOperation.o utility/POSExtract.o utility/StringSplit.o utility/StringType.o utility/TextClassification.o utility/Tokenize.o taggin
g/Sample.o tagging/Model.o tagging/Decoder.o tagging/Perceptron.o Formatting.o Las.o Main.o -lpthread -ldl
/usr/bin/ld:无法打开输出文件 ./tip-las:是一个目录

解决方法: 在解压后的文件里,会看到一个tip-las的空文件夹,在编译之前删掉即可。

2.运行

项目文档中给出了训练和测试的命令,也可以向李老师直接发邮件要一份已经训练好的模型,李老师邮件地址可以在项目首页文档中找到(李老师回复的还是很快的哈哈)
运行工具的命令是:

./tip-las test ws/pos/all input_file output_file

上述wa/pos/all分别表示分词,词性标注和同时进行两种处理,我在这里只用到了分词,所以命令是./tip-las test ws input_file output_file,对于不同的功能,输入数据文件的要求具体可以参考上面给出的项目地址文档

注意!

  • 模型文件直接放在主文件,也就是你运行上面命令的文件夹下就好(虽然没有在命令中指明模型,但是在进行处理的时候应该会自动寻找相应模型);
  • 分词模型和词性标注模型并不同,如果是运行./tip-las test all input_file output_file,那么需要两个模型都存在,我只试验过分词模型:);

TIP-LAS 藏语分词工具使用相关推荐

  1. 梵语和藏语_【语言学】梵语与藏语的比较小论

    讲师:白景皓(讲解) 1.梵语 梵语是印欧语系的印度-伊朗语族的印度-雅利安语支的一种语言,是印欧语系最古老的语言之一.和拉丁语一样,梵语已经成为一种属于学术和宗教的专门用语.梵语文法的主要特征是复杂 ...

  2. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  3. 腾讯翻译君在线翻译怎么翻译整个文件_藏语怎么翻译成中文?这两方法非常好用...

    就算你真的不会翻译,掌握一些翻译方法还是非常有必要的.因为有时候我们会遇到一些比较特殊的语言,比如说藏语.藏语怎么翻译成中文呢?如果你不知道,那么这两种翻译方法,你值得拥有. 一.工具翻译 工具:文档 ...

  4. 分词工具与方法:jieba、spaCy等

    分词是自然语言处理中的一项重要任务,将一段文本划分成一系列有意义的词语或单词,是很多文本处理任务的基础,如文本分类.情感分析.机器翻译等.在中文分词中,jieba是一个常用的分词工具,而在英文分词中, ...

  5. 各种中文分词工具的使用方法

    诸神缄默不语-个人CSDN博文目录 本文将介绍jieba.HanLP.LAC.THULAC.NLPIR.spacy.stanfordcorenlp.pkuseg等多种中文分词工具的简单使用方法. 对于 ...

  6. 6大中文分词工具测试比较

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  7. 自然语言处理学习笔记2:分词工具及分词原理

    中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词之 ...

  8. TiBERT:藏语预训练语言模型——中文翻译

    TiBERT--藏语预训练语言模型 摘要 ​ 预训练语言模型在大规模无标签文本上进行训练,可以在许多不同的下游任务中获得最先进的结果.然而,目前的预训练语言模型主要集中在汉语和英语领域.对于藏语这样的 ...

  9. 藏语计算机语言学基础知识,语言学概论(00541)基础知识点.docx

    <语言学概论>00541 精讲1 第一章 第一节 认识人类的语言 1.只有人类才有语言(内容多.用处大.能够创造)[选择/没考过] 2.语言和民族的关系[简答]--语言是民族的重要标志:同 ...

最新文章

  1. 《算法导论》学习总结 — 13. 第13章 红黑树(2)
  2. MSB600 cmd.exe 已退出,代码为3
  3. cnn风格迁移_快速图像风格迁移思想在无线通信中的另类应用:算法拟合
  4. 受众定向_我如何了解社区与受众之间的差异
  5. IOT(10)---NB-IOT的物联网十大典型应用场景
  6. java获取上周任意一天的日期
  7. 令人震惊!JSP已经淘汰,却才搞明白JSP和Servlet之间不可告人的关系!
  8. Python:实现蓝牙通信
  9. Java调用WebService接口
  10. JSP教程:学习路线和开发工具安装视频
  11. 中国大陆五级行政区划数据爬虫
  12. 云队友丨十年寒窗苦读为什么赢不过几代人的努力?
  13. 【每日随笔】2021 年终总结 ( 学习和博客 | 技术学习方向 | 专业学习方向 | 写博客的技巧总结 | 工作成果 | 2022 年展望及职业规划 | 对 CSDN 的建议和期望 )
  14. 微信公众号如何绑定运营者的微信号
  15. maven引入支付宝SDK
  16. java dms_奥点云-DMS Java API 文档
  17. python网络爬虫网易云音乐_一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取...
  18. Python2.7安装Opencv3
  19. 使用opencv调用摄像头识别颜色(python版)
  20. 电脑桌面宠物-开机自启

热门文章

  1. mysql ibdata1过大_MySql ibdata1文件太大如何缩小
  2. python卸载方法(教你一招干干净净卸载Python
  3. JavaScript 中根据换行符拆分字符串失败
  4. Uva 12563,劲歌金曲,01背包
  5. 计算机信息学院开学演讲稿,大学开学演讲稿范文(精选16篇)
  6. 博客总访问量一万了,感觉有点不真实
  7. 配置Tomcat的虚拟目录,通过www.XXX.com的方式访问项目
  8. serverlet 原理_serverlet_servlet工作原理面试题_serverlet和jsp
  9. 阴阳师快速过河童本第十层
  10. 超级简单又功能强大还免费的电路仿真软件