自然语言处理 -- 中文句子分割

pom.xml引入jar

      <dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version><classifier>models</classifier></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version><classifier>models-chinese</classifier></dependency>

加载模型和初始化

        Properties properties = new Properties();/*** Pipeline options - lemma is no-op for Chinese but currently needed because coref demands it (bad old requirements system)*/properties.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,parse,depparse,coref,kbp,quote");/*** segment*/properties.setProperty("tokenize.language", "zh");properties.setProperty("segment.model", "edu/stanford/nlp/models/segmenter/chinese/ctb.gz");properties.setProperty("segment.sighanCorporaDict", "edu/stanford/nlp/models/segmenter/chinese");properties.setProperty("segment.serDictionary", "edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz");properties.setProperty("segment.sighanPostProcessing", "true");/*** sentence split*/properties.setProperty("ssplit.boundaryTokenRegex", "[.。]|[!?！？,;，]+");/*** pos*/properties.setProperty("pos.model", "edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger");/*** ner*/properties.setProperty("ner.language", "chinese");properties.setProperty("ner.model", "edu/stanford/nlp/models/ner/chinese.misc.distsim.crf.ser.gz");properties.setProperty("ner.applyNumericClassifiers", "true");properties.setProperty("ner.useSUTime", "false");properties.setProperty("ner.fine.regexner.mapping", "edu/stanford/nlp/models/kbp/chinese/gazetteers/cn_regexner_mapping.tab");properties.setProperty("ner.fine.regexner.noDefaultOverwriteLabels", "");/*** parse*/properties.setProperty("parse.model", "edu/stanford/nlp/models/srparser/chineseSR.ser.gz");/** * depparse*/properties.setProperty("depparse.model", "edu/stanford/nlp/models/parser/nndep/UD_Chinese.gz");properties.setProperty("depparse.language", "chinese");/*** entitylink*/properties.setProperty("entitylink.wikidict", "edu/stanford/nlp/models/kbp/chinese/wikidict_chinese.tsv.gz");StanfordCoreNLP pipline = new StanfordCoreNLP(properties);

分句

        String text = "乔·史密斯出生于加利福尼亚。2017年夏天，他去了法国巴黎。他的航班于2017年7月10日下午3点起飞。第一次吃了一些蜗牛后，乔说:“太好吃了!”他寄了一张明信片给他的妹妹简·史密斯，他打了他的女儿汤姆。听了乔的旅行后，简决定有一天去法国。";// make an example documentCoreDocument doc = new CoreDocument(text);// annotate the documentpipline.annotate(doc);List<CoreSentence> sentences = doc.sentences();System.out.println("-----------分句-------------");for (int i = 0; i < sentences.size(); i++) {CoreSentence sentence = sentences.get(i);System.out.println(sentence.text());System.out.println("************************");}

自然语言处理 -- 中文句子分割相关推荐

python 把中文句子分割成一个一个的字（英文适用）
cn = [one for one in '习惯性综合征'] print(cn)en = [char for char in 'I am very handsome'] print(en)
BERT预训练模型简单应用（中文句子向量相关性分析）
目录一.BERT简单认识二.Google BERT以及中文模型下载 1.Google BERT源码下载 2.bert-as-server 框架下载 3.中文预训练模型下载三.bert生成中文句子 ...
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...
Java正则判断中文字符串句型_NLP中文句子类型判别和分类实现
目录一.中文句子类型主要类别 1.陈述句(statement) 主语为首(subject_front),例:大家对这件事都很热心主题为首(theme_front),例:红绿灯,真好玩复合句(co ...
自然语言0_nltk中文使用和学习资料汇总
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&am ...
php字符串分割汉字,php支持中文字符串分割的函数
本文给大家分享了2个php使用mb_xxx方法来实现中文字符分割的方法,其基本思路都差不多,有需要的小伙伴可以参考下. str_split不支持中文,利用mb_xx函数实现个 /** * Conver ...
376招募线上被试 | 你对“中文句子”的记忆情况如何？
招募结束 [实验任务]你对"中文句子"的记忆情况如何? [实验时长]总时长约40分钟左右.实验分为2次,分别在第一天(25-30分钟)和第三天(10分钟)进行,须确保两次实验是接近 ...
java String中文字符串分割成数组中文字符串分割成一定长度的字符串数组
java String中文字符串分割成一定长度的字符串数组 /*** 几个字一组变量控制大于零有意义*/ int num = 6; /*** 待操作的字符串*/ String str = &quo ...
拆分汉字|中文拆字|分割汉字
拆分汉字|中文拆字|分割汉字中文拆字,偏旁,部首,字根,我一直以为是通过什么算法变成hash或者二进制进行运算去匹配查找字库的值,或者什么技术上下左右分割,同音字查找,其实开始已经把字库文档已经定义 ...

自然语言处理 -- 中文句子分割

pom.xml引入jar

加载模型和初始化

分句

自然语言处理 -- 中文句子分割相关推荐

最新文章

热门文章