自然语言处理 -- 中文句子分割
pom.xml引入jar
<dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version><classifier>models</classifier></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version><classifier>models-chinese</classifier></dependency>
加载模型和初始化
Properties properties = new Properties();/*** Pipeline options - lemma is no-op for Chinese but currently needed because coref demands it (bad old requirements system)*/properties.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,parse,depparse,coref,kbp,quote");/*** segment*/properties.setProperty("tokenize.language", "zh");properties.setProperty("segment.model", "edu/stanford/nlp/models/segmenter/chinese/ctb.gz");properties.setProperty("segment.sighanCorporaDict", "edu/stanford/nlp/models/segmenter/chinese");properties.setProperty("segment.serDictionary", "edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz");properties.setProperty("segment.sighanPostProcessing", "true");/*** sentence split*/properties.setProperty("ssplit.boundaryTokenRegex", "[.。]|[!?!?,;,]+");/*** pos*/properties.setProperty("pos.model", "edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger");/*** ner*/properties.setProperty("ner.language", "chinese");properties.setProperty("ner.model", "edu/stanford/nlp/models/ner/chinese.misc.distsim.crf.ser.gz");properties.setProperty("ner.applyNumericClassifiers", "true");properties.setProperty("ner.useSUTime", "false");properties.setProperty("ner.fine.regexner.mapping", "edu/stanford/nlp/models/kbp/chinese/gazetteers/cn_regexner_mapping.tab");properties.setProperty("ner.fine.regexner.noDefaultOverwriteLabels", "");/*** parse*/properties.setProperty("parse.model", "edu/stanford/nlp/models/srparser/chineseSR.ser.gz");/** * depparse*/properties.setProperty("depparse.model", "edu/stanford/nlp/models/parser/nndep/UD_Chinese.gz");properties.setProperty("depparse.language", "chinese");/*** entitylink*/properties.setProperty("entitylink.wikidict", "edu/stanford/nlp/models/kbp/chinese/wikidict_chinese.tsv.gz");StanfordCoreNLP pipline = new StanfordCoreNLP(properties);
分句
String text = "乔·史密斯出生于加利福尼亚。2017年夏天,他去了法国巴黎。他的航班于2017年7月10日下午3点起飞。第一次吃了一些蜗牛后,乔说:“太好吃了!”他寄了一张明信片给他的妹妹简·史密斯,他打了他的女儿汤姆。听了乔的旅行后,简决定有一天去法国。";// make an example documentCoreDocument doc = new CoreDocument(text);// annotate the documentpipline.annotate(doc);List<CoreSentence> sentences = doc.sentences();System.out.println("-----------分句-------------");for (int i = 0; i < sentences.size(); i++) {CoreSentence sentence = sentences.get(i);System.out.println(sentence.text());System.out.println("************************");}
自然语言处理 -- 中文句子分割相关推荐
- python 把中文句子分割成一个一个的字(英文适用)
cn = [one for one in '习惯性综合征'] print(cn)en = [char for char in 'I am very handsome'] print(en)
- BERT预训练模型简单应用(中文句子向量相关性分析)
目录 一.BERT简单认识 二.Google BERT以及中文模型下载 1.Google BERT源码下载 2.bert-as-server 框架下载 3.中文预训练模型下载 三.bert生成中文句子 ...
- 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍 本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...
- Java正则判断中文字符串句型_NLP中文句子类型判别和分类实现
目录 一.中文句子类型主要类别 1.陈述句(statement) 主语为首(subject_front),例:大家对这件事都很热心 主题为首(theme_front),例:红绿灯,真好玩 复合句(co ...
- 自然语言0_nltk中文使用和学习资料汇总
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&am ...
- php字符串分割汉字,php支持中文字符串分割的函数
本文给大家分享了2个php使用mb_xxx方法来实现中文字符分割的方法,其基本思路都差不多,有需要的小伙伴可以参考下. str_split不支持中文,利用mb_xx函数实现个 /** * Conver ...
- 376招募线上被试 | 你对“中文句子”的记忆情况如何?
招募结束 [实验任务]你对"中文句子"的记忆情况如何? [实验时长]总时长约40分钟左右.实验分为2次,分别在第一天(25-30分钟)和第三天(10分钟)进行,须确保两次实验是接近 ...
- java String中文字符串分割成数组 中文字符串分割成一定长度的字符串数组
java String中文字符串分割成一定长度的字符串数组 /*** 几个字一组 变量控制 大于零有意义*/ int num = 6; /*** 待操作的字符串*/ String str = &quo ...
- 拆分汉字|中文拆字|分割汉字
拆分汉字|中文拆字|分割汉字 中文拆字,偏旁,部首,字根,我一直以为是通过什么算法变成hash或者二进制进行运算去匹配查找字库的值,或者什么技术上下左右分割,同音字查找,其实开始已经把字库文档已经定义 ...
最新文章
- ijkplayer iOS集成
- 精品网摘:大内核锁将何去何从
- C++ 创建一个窗口
- 原来这样调优可以攻破MySQL性能瓶颈
- THU – team players 合作精神
- 对996最客观的描述,一叶知秋
- 学习记录:由技术而产品,由产品而商务
- php 中文字符串长度_php中计算中文字符串长度、截取中文字符串的函数代码
- python快速搭建网页_使用python快速搭建HTTP服务实现局域网网页浏览或文件传输...
- I2C总线协议/地址详解
- oracle 数据误删除 数据恢复
- linux下的系统监控软件,管理员必备的20个Linux系统监控工具
- java jsp 跳转_JSP页面跳转的五种方法
- Ubuntu Server 20.04 设置静态 IP
- NLP 模型压缩方法综述
- java笔记5 抽象类和接口
- 体检报告录入有误,到底是谁的错?
- html修改word页边距,Word怎么只修改一页的页边距,而不影响同一文件中的其他页?...
- 迅雷2014C++研发笔试卷C
- css 文字溢出...显示,hover时显示隐藏文字