pom.xml引入jar

      <dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version><classifier>models</classifier></dependency><dependency><groupId>edu.stanford.nlp</groupId><artifactId>stanford-corenlp</artifactId><version>3.9.2</version><classifier>models-chinese</classifier></dependency>

加载模型和初始化

        Properties properties = new Properties();/*** Pipeline options - lemma is no-op for Chinese but currently needed because coref demands it (bad old requirements system)*/properties.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,parse,depparse,coref,kbp,quote");/*** segment*/properties.setProperty("tokenize.language", "zh");properties.setProperty("segment.model", "edu/stanford/nlp/models/segmenter/chinese/ctb.gz");properties.setProperty("segment.sighanCorporaDict", "edu/stanford/nlp/models/segmenter/chinese");properties.setProperty("segment.serDictionary", "edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz");properties.setProperty("segment.sighanPostProcessing", "true");/*** sentence split*/properties.setProperty("ssplit.boundaryTokenRegex", "[.。]|[!?!?,;,]+");/*** pos*/properties.setProperty("pos.model", "edu/stanford/nlp/models/pos-tagger/chinese-distsim/chinese-distsim.tagger");/*** ner*/properties.setProperty("ner.language", "chinese");properties.setProperty("ner.model", "edu/stanford/nlp/models/ner/chinese.misc.distsim.crf.ser.gz");properties.setProperty("ner.applyNumericClassifiers", "true");properties.setProperty("ner.useSUTime", "false");properties.setProperty("ner.fine.regexner.mapping", "edu/stanford/nlp/models/kbp/chinese/gazetteers/cn_regexner_mapping.tab");properties.setProperty("ner.fine.regexner.noDefaultOverwriteLabels", "");/*** parse*/properties.setProperty("parse.model", "edu/stanford/nlp/models/srparser/chineseSR.ser.gz");/** * depparse*/properties.setProperty("depparse.model", "edu/stanford/nlp/models/parser/nndep/UD_Chinese.gz");properties.setProperty("depparse.language", "chinese");/*** entitylink*/properties.setProperty("entitylink.wikidict", "edu/stanford/nlp/models/kbp/chinese/wikidict_chinese.tsv.gz");StanfordCoreNLP pipline = new StanfordCoreNLP(properties);

分句

        String text = "乔·史密斯出生于加利福尼亚。2017年夏天,他去了法国巴黎。他的航班于2017年7月10日下午3点起飞。第一次吃了一些蜗牛后,乔说:“太好吃了!”他寄了一张明信片给他的妹妹简·史密斯,他打了他的女儿汤姆。听了乔的旅行后,简决定有一天去法国。";// make an example documentCoreDocument doc = new CoreDocument(text);// annotate the documentpipline.annotate(doc);List<CoreSentence> sentences = doc.sentences();System.out.println("-----------分句-------------");for (int i = 0; i < sentences.size(); i++) {CoreSentence sentence = sentences.get(i);System.out.println(sentence.text());System.out.println("************************");}

自然语言处理 -- 中文句子分割相关推荐

  1. python 把中文句子分割成一个一个的字(英文适用)

    cn = [one for one in '习惯性综合征'] print(cn)en = [char for char in 'I am very handsome'] print(en)

  2. BERT预训练模型简单应用(中文句子向量相关性分析)

    目录 一.BERT简单认识 二.Google BERT以及中文模型下载 1.Google BERT源码下载 2.bert-as-server 框架下载 3.中文预训练模型下载 三.bert生成中文句子 ...

  3. 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践

    基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍   本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...

  4. Java正则判断中文字符串句型_NLP中文句子类型判别和分类实现

    目录 一.中文句子类型主要类别 1.陈述句(statement) 主语为首(subject_front),例:大家对这件事都很热心 主题为首(theme_front),例:红绿灯,真好玩 复合句(co ...

  5. 自然语言0_nltk中文使用和学习资料汇总

    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&am ...

  6. php字符串分割汉字,php支持中文字符串分割的函数

    本文给大家分享了2个php使用mb_xxx方法来实现中文字符分割的方法,其基本思路都差不多,有需要的小伙伴可以参考下. str_split不支持中文,利用mb_xx函数实现个 /** * Conver ...

  7. 376招募线上被试 | 你对“中文句子”的记忆情况如何?

    招募结束 [实验任务]你对"中文句子"的记忆情况如何? [实验时长]总时长约40分钟左右.实验分为2次,分别在第一天(25-30分钟)和第三天(10分钟)进行,须确保两次实验是接近 ...

  8. java String中文字符串分割成数组 中文字符串分割成一定长度的字符串数组

    java String中文字符串分割成一定长度的字符串数组 /*** 几个字一组 变量控制 大于零有意义*/ int num = 6; /*** 待操作的字符串*/ String str = &quo ...

  9. 拆分汉字|中文拆字|分割汉字

    拆分汉字|中文拆字|分割汉字 中文拆字,偏旁,部首,字根,我一直以为是通过什么算法变成hash或者二进制进行运算去匹配查找字库的值,或者什么技术上下左右分割,同音字查找,其实开始已经把字库文档已经定义 ...

最新文章

  1. ijkplayer iOS集成
  2. 精品网摘:大内核锁将何去何从
  3. C++ 创建一个窗口
  4. 原来这样调优可以攻破MySQL性能瓶颈
  5. THU – team players 合作精神
  6. 对996最客观的描述,一叶知秋
  7. 学习记录:由技术而产品,由产品而商务
  8. php 中文字符串长度_php中计算中文字符串长度、截取中文字符串的函数代码
  9. python快速搭建网页_使用python快速搭建HTTP服务实现局域网网页浏览或文件传输...
  10. I2C总线协议/地址详解
  11. oracle 数据误删除 数据恢复
  12. linux下的系统监控软件,管理员必备的20个Linux系统监控工具
  13. java jsp 跳转_JSP页面跳转的五种方法
  14. Ubuntu Server 20.04 设置静态 IP
  15. NLP 模型压缩方法综述
  16. java笔记5 抽象类和接口
  17. 体检报告录入有误,到底是谁的错?
  18. html修改word页边距,Word怎么只修改一页的页边距,而不影响同一文件中的其他页?...
  19. 迅雷2014C++研发笔试卷C
  20. css 文字溢出...显示,hover时显示隐藏文字

热门文章

  1. 对证书和公钥的基本理解
  2. vscode 下使用mysql
  3. 笔记本WIN7系统玩虚拟机不能全屏解决办法
  4. git提交 出现 : fatal: refusing to merge unrelated histories
  5. 杭电多校2020 第十场 C - Mine Sweeper HDU - 6879
  6. 公众平台自动回复php代码,微信公众号开发之文本消息自动回复php代码
  7. 蓝色对比关系图表合集PPT模板-优页文档
  8. K12472 射击比赛
  9. Scrapy 小白自学笔记
  10. 浅析手机定位---GPS、基站、AGPS、WIFI