此例是我之前在学习nlp过程中的一个demo项目,并使用了HanLP官网提供的API接口实现功能,具体需求如下:

1 .项目背景

平时收集了一下客户对于餐馆的评价,这些数据一方面可以让每一位用户清楚地看到每个商家所提供的服务质量,同时让一个商家也意识到自己的问题所在。 但是面对大量的评论数据,如何让一个用户或者商家能够更方便地看到全貌呢? 这就是本项目中需要解决的问题。

目标是将这些评价数据进行分类,比如分成满意或者不满意,这一类基于用户评价的情感极性分析系统,来策划餐馆满意菜品的推荐、用倾向性分析来帮助商家从大量评论中挖掘有价值的信息,更好的认识服务的特色点,不足点。以及提高创收利润。

2 .查看数据。评价数据的抽样:

可以看到数据集中有餐馆的id编号,以及对餐馆的评价分数(总体评分、环境、口味、服务)

3. 数据清洗:

在语料库中找到我们感兴趣的东西,把不感兴趣的、视为噪声的内容清洗掉,比如从网络上爬取的乱码、时间戳等文本(上面用户点评的数据已经经过了数据清洗)

4. 分词:

中文文本通常是一批短文本或者是长文本,比如:一篇文章摘要、一则简讯快报、一个段落等,一般在此类文本中句子之间的字和词是连续的,有一定的含义。但是在我们进行文本处理的时候,更多的希望可以处理文本的粒度为最小的字为单位,所以这个时候就需要用到分词来进行对文本的全部分词。

简单好用的中文分词利器:HanLP 。HanLP从v1.7版起独立运作,由自然语义(青岛)科技有限公司作为项目主体,主导后续版本的开发,并拥有后续版本的版权。授权协议为 Apache License 2.0,可免费用做商业用途。

目前HanLP官网测试版注册账号,并可以免费调用API接口,采用了开源HanLP的最新技术,功能完全一致,采用上亿文字的通用语料库训练生成,能够解决一般情况下大多数的NLP开发需要。

调用了HanLP的多语言分词下的标准分词,

该接口返回的是json数据格式,使用java函数进行对用户点评数据的遍历分词,得到结果如下(满意+抱怨点评):

5. 词性标注

词性标注是为句子中每个单词预测一个词性标签的任务,提供词语的抽象表示,便于进行更深层次的文本挖掘处理,无需担心新词发现、歧义消除等问题。

设计需求如下:考虑使用该接口功能获得用户点评数据中的词性,然后编写函数将词性为形容词adj的单词进行文本挖掘,再对这些形容词语(好古老、复古、实惠、略贵、爽口,极其粗鲁等)的处理(如进行词频统计,生成词云)来对用户对餐馆的点评描述可视化,以此做倾向性分析来改善餐馆的服务质量等提升。

另外词性标注还可以作词语的消除歧义,有效剔除“噪音“误导,比如对“他马上功夫很好”这句话,该模型通过识别该句话的语境和上下文特征,对“马上”二字进行分开识别成“马n/上l”,而不是识别成“马上n”。

6. 词频统计(词云展示)

如上面在词性标注提取到adj形容词后,对该用户点评数据中形容词进行了词频的统计,并对其词云化展示,得到结果如下:

7.命名实体识别

命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,进而挖掘各实体间的关系。

设计需求如下:尝试对用户点评文本数据中的菜品名称进行命名实体识别,然后对识别后的菜品名称进行后续的分析(对餐厅菜系菜品的推荐、对现已有的菜品质量进行评定审核等)

在对用户点评数据进行菜品名称识别时,HanLP关于ner接口有

中国人名识别、日本人名识别、机构识别、地名识别、音译人名识别、深度学习命名实体识别等,不过对于菜品名称的命名实体标注需要对语料进行自定义标注,HanLP也提供了中文语料库标注:

可使用该语料标注规范的进行语料标注,正确理解NLP中词性定义。这其中涉及中文环境中的分词与词性内容:

标注符号中有14项非常见标注符号,包括:“nr”、“ns”、“nt”、“nz”、“m”、“q”、“t”、“r”、“b”、“i”、“L”、“j”、“g”、“x”。如以下人名/nr的标注和 成语/i 习用语/l的标注等。

添加自己的用户点评生语料数据进行菜品名称标注:

进入标注系统:

领取设定的菜品名称任务:

进入自定义标注语料:

上示意图中下半部分已经使用HanLP标注系统自动化标注完毕,上半部分是可选择的词性标签。利用可选择词性标签对下半部分的语句进行自定义化标注。我对nz其他专名(菜品名称)进行了语料的标注,得到如下符合我要求的自定义语料库:

还可以子账户标注完之后,使用主账户进行二次审核,进行驳回或者通过。

在审核通过之后即可标注为成熟语料库,对语料进行打包,送入模型训练。

模型训练是HanLP特有的定制化功能服务,无需复杂的环境搭建与编程,直接调用HanLP算法,训练专属私有模型。

进行菜品名称标注模型训练:

在经过了调用虚拟机训练任务后,模型训练完毕,在模型管理分栏中得到最新训练的算法模型。

获取API功能是将模型生成私有API接口进行调用,只有本账号能够查阅并使用。

调用了HanLP的命名实体识别API(菜品名称)接口,对用户点评数据进行了NER识别,得到如下的分析结果:

慕斯蛋糕甜而不腻好吃!!烧鸡饭的鸡肉很香!!爱了爱了

得到"nature":"food"的命名实体识别结果:   慕斯蛋糕     、  烧鸡饭 。

编写函数依次对用户点评数据进行输入,调用HanLP API接口来进行命名实体识别可以很方便快捷的对所需要的实体进行识别,列出了用户点评数据中某料理店的菜品名称如下:

不同于常规的人名、地名、机构名的实体,使用HanLP进行了自定义化的NER命名实体识别,这样做可以更有效的个性化定制提取,还可以对此类菜品名称后续进行更多的下游任务如餐厅菜系菜品的推荐,对餐厅菜品营销的策略等等。当然,还可以对医疗文本数据中的药品名、疾病名、医疗器械名等进行个性化NER命名实体识别。

8.依存句法分析

依存句法分析是识别语句中词与词之间的依存关系,并揭示其句法结构,包括主谓关系、动宾关系、核心关系等。

设计需求如下:根据目标提取用户评价,作为此系统的使用者-餐厅管理经营者,因为用户评价是多维度的,比起一个大体的评价,商家更希望获得一些更加具体的信息,比如商家想获得用户对新来的蛋糕面点师傅手艺看法,明天想获取用户对餐厅服务员服务态度的评价等,这类更多细节具体的信息。

以上这类更加细节具体的用户数据,可以通过依存句法分析从技术上实现,如:这家店 的 甜点 真不错 并且 小姐姐的服务态度很热情 。       使用依存句法分析后可以根据aspect来切分目标提取用户评价, 

  如aspect==甜点, 分析结果就获得   [ /K ,这家/L ,店/E ,的/L ,甜点/A ,真/K ,不错/A , /A]      甜点 - 不错 。

如果aspect==服务  分析结果就获得   [ /K ,小姐姐/K ,的/L ,服务/L ,态度/L ,很/L ,热情/L , /A]    服务态度 - 热情

得到词与词之间的依存关系,并从其中获取到之间的结构联系。

调用了HanLP依存句法分析API接口后通过分析得到如下结果:

最终得到   甜品- 不错  、  服务态度 - 热情 此类具体的用户评价信息,为商家了解生意产品提供直观性说明。

9.情感分析

文本分类的应用场景非常广泛,常见的情感分析是其一个子集,涵盖垃圾邮件过滤、垃圾评论过滤、自动标签,舆情分析、改进服务及产品、了解用户的体验等任何需要自动归档文本的场合。

设计需求如下:用户的评论是商家服务质量的反馈,如何在大量的评论数据中帮助商家意识到自己的问题,提高用户的满意度具有经济价值,这就是本博客中尝试解决的问题。使用HanLP接口做词性标注、命名实体识别,最终搭建一套基于用户评价的情感分类系统,以期帮助商家从大量评论中挖掘有价值的信息,更好的认识服务的特色点,不足点。

同样的HanLP提供了更为方便系统的情感分析API调用。

在进行情感分析输入数据之前要对文本数据进行分词、词性标注、命名实体识别、依存句法分析管道式操作。以上已经对用户评价数据进行了处理,对用户评价数据中抽取样例,

这家店 的 甜点 真不错 并且 小伙子的服务态度很热情 。调用HanLP情感分析API后,得到如下结果:

这家店 的 甜点 真不错 并且 小伙子的服务态度很热情 。     情感极性是 【正面】

什么服务态度,点餐半个小时才上菜,下次再也不来吃了。  情感极性是 【负面】

显然的,对于情感分析模型HanLP已经训练好,只需要将用户评价的数据作为输入,输出值即正负情感极性,对于商家收取到的用户平均数据时,可调用该API接口做正负极性的二分类数据,将正面评价数据进行数据挖掘分析,对用户点赞的内容继续推广、  将负面评价的数据分析后,对用户提出的意见内容进行整改,同时也意识到自己的问题所在。

10.总结和思考

1.  在处理此项目需求时,考虑面对众多文本处理的步骤,繁琐且无专业性知识难以编程。在此项目完毕后,对使用工具HanLP的API调用好感倍增,较之前科研的nlp项目从零搭建模型环境、处理数据、模型训练、结果分析而言,用HanLP的API的感觉像是一把锋利的奥卡姆剃刀 ————如无必要 勿增实体,直接API调用来实现用户的需求 ,简单高效的感觉再好不过了。

2. 在设计该项目时,对于使用API接口调用,原始生文本的完整正确性对于模型结果影响因子较大,在尝试多次调用试验后得到上文的输出json数据,再进行编程对json数据处理后才能得到符合项目需求的数据。

3.另,对于其中处理的一些错误点(如对于菜品名称的NER命名实体识别,狮子头、绝代双骄、蚂蚁上树等自定义实体),只是使用通用性的API接口来调用,难免有所缺失,需要在该特定领域建立自己的技术模型,为特定场景下的更好体验,使用语料管理工具生成自己独有的语料库,并使用模型训练工具生成自己的专属模型才能更好的自定义化用户需求。此博客使用HanLP的API来实现餐厅用户评价情感分析系统项目,结果初步成型,但精度未够,记录在案。

技术改变生活——用HanLP来协助处理现实中问题相关推荐

  1. Maven问题总结 - 3 - 技术改变生活商业成就梦想 - 51CTO技术博客

    Maven问题总结 - 3 - 技术改变生活商业成就梦想 - 51CTO技术博客 Maven问题总结 - 3 - 技术改变生活商业成就梦想 - 51CTO技术博客 Maven问题总结 - 3 2010 ...

  2. 如何用技术改变生活 哪个瞬间你突然觉得读书真有用?

    作者:南慕伦 链接:https://www.zhihu.com/question/35720340/answer/262160679 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转 ...

  3. 技术改变生活,激情成就梦想

    技术改变生活,激情成就梦想 不管有没有感受到或者是认识到,技术在改变我们的生活.从我开始接触到技术学习开始, 我就认定了,技术能提高生活水平,技术能让生活更方便,就一直梦想自己能用的自己的技术去 改变 ...

  4. 技术改变生活 浅谈阿里云混合云的探索与实践

    简介: 也许你并不了解"阿里云混合云",甚至没有听说过"混合云",然而它却在幕后"默默"改变着人们的生活. 也许你并不了解"阿里云 ...

  5. 技术改变生活:华为十大发明

    转载自:华为招聘(ID:huaweizhaopin) 本文3666字,建议阅读 10分钟 . 本文 介绍华为公司评选出的第三届十大发明. 时代的车轮滚滚向前,推动时代前进的离不开那些改变人们生活的发明 ...

  6. 技术改变生活 区块链正在改变你的生活方式

    7月16日,由阿萨石科技.哩咕游戏.金树科技三方联合主办的聚势破界·价值互联--阿萨石&哩咕游戏<零界战线>首场发布会在广州隆重举行,又一款重量级的区块链手游将与玩家见面.< ...

  7. 技术改变生活,统一通信走向深度融合

    最近的3Q之争,引发了一系列对于即时通讯市场格局的讨论.我们可以看到即时通讯工具在生活中所占的地位已经不容忽视. 人们在日常生活与工作中,常用到即时通讯手段来沟通与交流.即时通讯,是一种面向终端使用者 ...

  8. 3d打印技术改变生活的影响

    自从3d打印技术的诞生到最后的火起,引进各个企业纷纷意图分,但是几十年过去,没有高涨反而渐渐低落,不复往日. 几十年过去,从航空.医疗.工业等大多行业都可以看出它的影子,显然是高端的行业所用的机器很难 ...

  9. 5G引领时代潮流----技术改变生活

    文章目录 前言 一 . 相关术语 1)IMT-2020 2)3GPP R15/R16 3)NOMA(非正交多地址) 4)Millimeter Wave (毫米波) 5)大规模天线技术Massive M ...

最新文章

  1. 2017年嵌入式领域的MCU四个变化
  2. git学习笔记(四)—— 分支管理
  3. 微信小程序——收起和查看更多功能
  4. 16.异常处理机制:exception
  5. 最终在学校的职业发展目标
  6. 使用 SqlDataSource 插入、更新和删除数据49
  7. HDFS--分布式文件系统
  8. Van-UI发送验证码demo -效果篇
  9. 红旗Linux 网卡bond,Linux双网卡绑定一个IP的实现
  10. Python--单引号、双引号、三引号用法
  11. 属于程序员的“高考”考题,我估计没准还有很多人没有看过(建议不要收藏)
  12. Nginx失败重试中的HTTP协议幂等问题: non_idempotent
  13. 获取300套PPT模板+7天WPS会员,扫码关注领取
  14. 大数据技术原理与应用(第十章 Spark)
  15. java des ecb_java DES ECB模式对称加密解密
  16. python中的sum()函数
  17. 一文带你掌握MYSQL数据库
  18. 多模态机器学习基础、应用及预训练模型介绍
  19. 极海APM微控制器基于IAR开发环境搭建与工程调试配置方法
  20. JAVA读取X.509格式的cer公钥文件信息

热门文章

  1. .NET接入UnionPay银联支付(一)手机wap支付
  2. netty的IM项目小结
  3. 程序员都要学学任正非的坚强!这个老头,在逆境中崛起!
  4. Python3全面基础学习
  5. 【沙发管家】夏普电视怎么装软件?怎么才能看免费电影,电视直播?
  6. MATLAB画带延时系统的伯德图
  7. 想剑网三妹子最多服务器,女生入坑《剑网3》,首选门派是蓬莱,但千万不要碰五毒...
  8. 安卓设置keychain_Keychain的使用
  9. 《南茜的早晨》与《亡命鸡礼花》的dvd和原声音乐cd……大雅与大俗……Orz
  10. 电话号码组成分析 东海陈光剑