机器学习当道，还在使用基于词典的文本挖掘方法么，过时啦！

摘要： 机器学习时代，基于词典的文本挖掘方法已不那么适用，快用新方法开始你的探索吧！

摘要：机器学习时代，基于词典的文本挖掘方法已不那么适用，快用新方法开始你的探索吧！

在多数企业中，体现客户与产品间联系的数据就占到总数据量的80%。对于企业来说，在制定主要策略时，使用文本挖掘客户与产品间的关系至关重要。由于众包挖掘和分析通常充满错误、花费昂贵且不具有伸缩性，企业通常会选择自动化技术进行文本挖掘及分析，并生成用户文档。

机器学习技术因其在挖掘文本方面具有良好的适应性而备受研究者的青睐。然而，多数企业在进行大部分文本挖掘工作时仍然依赖于基于预先标记的词典方法。

在本文中，我们将重点介绍基于几种基于词典的文本挖掘方法，其次会简明概述当数据集发生改变时，机器学习如何以更高的准确性和适应性取代这些方法。

观点挖掘

人们通常会针对产品、新闻、名人等各种话题发表评价。当消费者需要做出购买决策时，他们会倾向于参照其它消费者对该商品的评价，然后再做出决定。由于人们会对各种实体发表自己的看法，挖掘出评论中所隐含的信息变得尤为重要。观点挖掘不仅能够帮助企业获取更多的产品及服务信息，而且有助于企业做出更为明智的决策。

就好比有这样一句话：“这款手机的电池很差，甚至待机不超过四个小时”，该评论是关于手机（目标）的“电池寿命”，且评论透露出消极情绪。日常生活中，许多应用场景中都需要这样的分析，并且应该更加深入，这样才能有助于企业明确产品中的哪些组件或特征更有市场，或者哪些需要在下次更新中予以改进。

观点挖掘在自然语言处理（NLP）、文本分析和计算机语言学中是一项较大的挑战。在此，我们将讨论相关研究工作的最新进展，这些工作集中于对在互联网中产生的用户文档（例如评论、评价）以及平台上的交互（例如微博、论坛和社交网站）进行评论挖掘。

关键字检索（词袋法）

在词袋模型中，一个句子或者一篇文档均能被看作一个包含词语的“袋子”。词袋模型会更多地考虑词语和它们所在句子或文档中出现的频率，而忽略其在句子中的语义关系。市场营销人员罗列出了透露积极情绪和消极情绪的词汇列表，并尝试分析这两种情绪在某个文档中谁占主导地位（若两种词出现的次数都很少，则视为“无评价”）。词袋模型通过在线词典搜索同义词和反义词对情绪进行判断。

举个例子，当我们需要从众多的用户评论中过滤出与价格相关的评论时，通常是对价格进行关键字搜索，或者搜索与价格密切相关的词语，比如定价、收费、支付等。

当然，词袋法也是有其局限性的，它无法很好的处理大规模的文本挖掘任务。

局限性

人类自身局限——想出能代表一个特定概念的所有相关关键词或者它们的变体是极其困难的，所以建立和更新词库对提升准确性格外重要。

领域知识的欠缺——当一个领域的子分支词典应用于其他领域时，可能会产生相反的效果。许多词语在别的场景中体现出消极的情绪，但换种场景，也许就变成积极情绪了，就拿“高油价”来说，它在石油公司看来则是具有积极意义的词。而且，对于句子本身体现积极情绪，但其中所含词语具有消极情绪的情况也不适用，比如“fix the broken economy”以及“taste was not bad”，可这样的说法在日常生活中屡见不鲜。

推陈出新，机器学习！

利用机器学习技术，用户能够部署AI用于挖掘非结构化数据。由于其良好的适应能力以及准确性，机器学习技术备受研究学者的青睐。在利用机器学习技术对文本进行挖掘时，通常包含如下四个步骤：数据采集，数据预处理，数据训练，结果的测试及验证。在训练集中，提供了一组带标签的数据。根据训练数据集构建一个模型，该模型可用于对新产生的文本进行分类。在收集到足够多的评论并对它们进行深入且正确的分析后，你就能准确的了解大多数人的感受。当然，这不仅仅与人们的感受有关，也与产生这种感觉的因素有关。

模式挖掘

在分类场景中，为了计算出与特定标签高度相关的文本模式，我们可以先在小部分已标记的训练集中使用模式发现算法。分类器识别单词之间的关系的同时还对其进行存储，方便后续对新产生的文档进行分析。举个例子，我们需要区分出给公司的反馈邮件中所表达的情绪。此时，与负面情绪标签有高度相关性的常见文本可能是“我将选择XYZCorp”，其中XYZCorp是竞争公司的名字。一旦分类器学会了这一点，它就可以像人类一样将其他新文档归类到标签中。

各种情绪背后的动因是什么呢？

了解到情绪产生的动因，就能够在评论数据中挖掘出特定领域的优势及劣势。比如，公司高管们可以根据这些数据进行有针对性、战略性的改革，以提高盈利能力或者增加市场份额的占比。

在政府部门，这些数据可以用来制定与选民产生共鸣的策略和竞选活动，并针对选民不断变化的需求做出及时的调整。并且，通过分析情绪产生的动因，观点挖掘使得人们具有更加深刻的社会洞察力——一个了解人们想法和感受的窗口。

通过分析情绪以及情绪产生的动因，银行可能会发现，在众多的反馈意见中，排队以及等待时长是顾客最在意的。

一家快餐连锁店通过对数据进行分析也许会了解到，尽管他们有着优秀的服务水平，但对顾客而言，他们的食物分量与其竞争对手相比太少了。

若你想尝试文本挖掘，你可以使用我们现成的文本分类模型，如情感分析和情绪分析，或者使用自定义分类器API构建自己的分类器。所有的API都可以在Excel Plugins 或Google Sheets add-on中使用，以便你利用电子表格进行文本挖掘。

对于企业来说，文本分类模型可以用于公有云或私有云部署，以保证较低的延迟，并符合隐私法。

你可以在这里发现更多的文本分类模型。

你也可以在这里有关文本分类的内容。

本文作者：【方向】

阅读原文

本文为云栖社区原创内容，未经允许不得转载。

机器学习当道，还在使用基于词典的文本挖掘方法么，过时啦！相关推荐

机器学习当道，还在使用基于词典的文本挖掘方法么，过时啦！ 1
在多数企业中,体现客户与产品间联系的数据就占到总数据量的80%.对于企业来说,在制定主要策略时,使用文本挖掘客户与产品间的关系至关重要.由于众包挖掘和分析通常充满错误.花费昂贵且不具有伸缩性,企业通常 ...
NLP-基础任务-中文分词算法(2)-基于词典：基于N-gram语言模型的分词算法【基于词典的分词方法】【利用维特比算法求解最优路径】【比机械分词精度高】【OOV：基于现有词典，不能进行新词发现处理】
例子:"经常有意见分歧" 词典:["经常","有","意见","意","见",& ...
机器学习实战（四）——基于概率论的分类方法：朴素贝叶斯
朴素贝叶斯法 4.1 基于贝叶斯决策理论的分类方法 4.1.1 贝叶斯决策理论 4.1.2 条件概率 4.1.3 全概率公式 4.1.4 贝叶斯推断 4.1.5 朴素贝叶斯 4.2 使用朴素贝叶斯进行 ...
NLP-基础任务-中文分词算法(1)-基于词典：机械分词（词典字符串匹配）：前向最大匹配、后向最大匹配、双向最大匹配【OOV：基于现有词典，不能进行新词发现处理】
分词与NLP关系:分词是中文自然语言处理的基础,没有中文分词,我们对语言很难量化,进而很能运用数学的知识去解决问题.对于拉丁语系是不需要分词的. 拉丁语系与亚系语言区别拉丁语言系不需要分词,因为他们 ...
基于词典的前缀扫描中文分词
说明中文分词是很多文本分析的基础.最近一个项目,输入一个地址,需要识别出地址中包含的省市区街道等单词.与以往的分词技术不同.jieba/hanlp等常用的分词技术,除了基于词典,还有基于隐马尔科夫/ ...
基于词典的中文情感倾向分析算法设计
基于词典的中文情感倾向分析算法设计 https://site.douban.com/146782/widget/notes/15462869/note/355625387/ 情感倾向可认为是主体对 ...
基于机器学习的web异常检测——基于HMM的状态序列建模，将原始数据转化为状态机表示，然后求解概率判断异常与否...
基于机器学习的web异常检测 from: https://jaq.alibaba.com/community/art/show?articleid=746 Web防火墙是信息安全的第一道防线.随着网络 ...
机器学习聚类篇——python实现DBSCAN（基于密度的聚类方法）
机器学习聚类篇--python实现DBSCAN(基于密度的聚类方法) 摘要 python实现代码计算实例摘要 DBSCAN(Density-Based Spatial Clustering of ...
情感分析基于词典（算例代码）
基于词典的情感分析情感分析是指挖掘文本表达的观点,识别主体对某客体的评价是褒还是贬,褒贬根据进态度行倾向性研究.文本情感分析可以分为基于机器学习的情感分类方法和基于语义理解的情感分析.基于机器学习进 ...
《机器学习实战》笔记（04）：基于概率论的分类方法 - 朴素贝叶斯分类
基于概率论的分类方法:朴素贝叶斯分类 Naive Bayesian classification 这大节内容源于带你理解朴素贝叶斯分类算法,并非源于<机器学习实战>.个人认为<机器学 ...

机器学习当道，还在使用基于词典的文本挖掘方法么，过时啦！

机器学习当道，还在使用基于词典的文本挖掘方法么，过时啦！相关推荐

最新文章

热门文章