数据分析中,文本分析远比数值型分析重要!(上)
温馨提示:本文是《数据分析中,文本分析远比数值型分析重要!》的上篇,聊的是文本分析的一些基本知识,下篇将以一个实际案例来聊聊基于大数据的文本分析是如何应用在商业场景中的,将于明天推送,敬请期待~
图片太小看不清的话,点击即可放大~
1.我们日常所理解的“数据分析”
在我们日常的产品和运营工作中,经常接触的数据分析方法、形式绝大部分是基于对数字(值)的描述性分析,如销量情况、用户增长情况、留存情况和转化情况等,高级一些的数据分析方法有因子分析、聚类分析和回归分析等方法(见下图)。
常用的数据分析方法/形式
这些分析方法/形式有一个共同点:都是跟数字在打交道,说的专业一点,就是基于对结构性数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)的分析,比如姓名、性别、年龄这些信息,以Word、Excel等形式呈现的数据。这种类别的数据比较好处理,只要简单的建立一个对应的表就可以了。
典型的结构性数据表格
然而,数据分析仅仅只有这一种类型吗?
答案当然是:NO.
一个完整而清晰的数据分析过程,除了在范围上,要进行宏观和微观的分析外,还需要在分析的层次上有所递进和深入,以下是我们进行数据分析时常会考虑到7个维度。(见下图)。
数据分析的7个维度(来源:《谁说菜鸟不会数据分析(工具篇)》)
在上图中,对数值型数据的分析能覆盖绝大部分的维度,但它更多的是描述事物的表层现象,主要是在事物的“量”上进行描述。也就是说,对数值型数据的分析并不能回答其中最为重要的一个维度---“Why”,但在产品和运营的实际工作中,发掘出用户的喜好、购买/使用及流失的内在原因(也就是洞察用户的行为动机),对我们的工作至关重要,它会直接影响产品的功能设定和运营策略。
这时,对非结构性的文本型数据进行分析呼之欲出。
根据2011年IDC的调查,非结构化数据将占未来十年所创造数据的90%。作为一个尚未得到充分开发的信息源,非结构化数据分析可以揭示之前很难或无法确定的重要相互关系。
所以,我们有必要对非结构性数据引起高度重视!!!
那什么是非结构性数据呢?
2.基于大数据的文本分析
非结构性数据是与结构性数据相对的一个概念,它包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非结构性数据组成部分
本文所提及的非结构性数据特指文本数据,这里包括且不限于社交网络(微博、微信、QQ和脉脉等)、客户反馈(客户抱怨邮件、社交媒体网站的帖子、开放式问卷调查、消费者点评)新闻媒体、销售人员的拜访记录等。
那对文本数据进行分析,我们能得到哪些有价值的线索或洞察呢?
3.基于大数据的文本分析的商业价值
文本数据来源异常广泛且多样,很多时候需要搜索海量的网页。当然,只有基于恒河沙数般体量的大数据文本分析,才可能得出比较可靠、有说服力的商业insight。
“文本分析”,或者“语义分析”是分析海量的非结构性的文本(信息)数据,回答的不仅是“是什么”的描述性分析,更多的回答了“为什么”,即目标用户购买和使用产品的潜在动机/真实需求。
基于大数据的文本分析被广泛应用于各种行业来解决关键的知识性问题,例如从CRM 数据、 社交媒体、 新闻网站和购物网站评论等渠道获取文本数据,再通过计算机自然语言处理,从而揭示出在任何非结构化文本信息中的人物、事件、时间、地点等内容,从而能够提供贯穿所有业务的全新层面的理解。
大数据文本分析提取出的主要维度
举例来说,用户满意度的上升,可以从评论量中好评的增加以及服务评价几颗星来看出,但这只是描述性的分析,并不能知道为什么用户会给好评,产品或服务的哪些方面会得到好评。借助文本/语义分析,我们可以了解到这段时间排名靠前的评论词汇大都是正面的评论,而且可以清楚的看到用户对哪些方面感到满意,这是成功的经验,是需要巩固和加强的地方。反之,用户关于产品/服务反馈较负面的方面是我们需要重点注意和改善的。
简而言之,基于大数据的文本分析能够揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。
4.这些有价值的海量文本数据“藏”在哪里?
社会化媒体时代,用户在购买产品/服务前,或是使用产品/服务之后,会在互联网上表达自己的对产品的疑虑或看法,通过互联网这个平台表达社情民意,体现自身的真实意愿和产品/服务的体验感受等。
以下是用户所产生的海量的、有价值的文本信息“聚集地”:
大数据文本信息的来源
同时,在互联网的产品和运营工作中,我们主要注意如下3类文本信息来源渠道,即社交媒体、电商平台及APP应用市场上的用户对于产品/服务的“发声”。
(1)社交媒体
社交媒体发展日益瞩目,论坛、博客、微博、微信等社交网络接踵而至,它们在悄无声息中改变着我们的生活方式。
在交互性强、容易沉淀价值信息的网络论坛上,网民们可以获得各种信息服务,同时可以发布信息、进行讨论、聊天,用发帖回帖来表达对事件、产品、品牌和企业的看法。
在容易爆发热点话题的微博上,用户除了会主动发布的微博外,还会主动追踪热点事件、喜爱的兴趣频道和明星的微博,转发和评论这些微博。
在具有强关系属性的微信上,用户会对自己关注的公众号发布的内容进行评论和转发,以此来表达自己的观点和情绪…
在这个社会化的媒体时代,用户成为企业最好的品牌推广大使。如何从这些可观的社交媒体数据中分析出用户的潜在且准确的购物意愿及用户需求,将成为提高品牌价值和声誉,改善用户体验的新兴途径。
这就需要互联网从业者们加强社交媒体的监测功能,综合利用高级分析能力,发掘为消费者创造惊喜的良机。比如,新浪微博上粉丝过万的零售商,可以根据用户发表的微博、所参与的微话题和签到地点,为用户个性化的去推送优惠及新品信息。因为这些看似庞大无规则的社交数据,往往包含着大量的用户基本信息和兴趣标签,进而绘制出潜在的用户画像。
(2)电子商务平台
电子商务网站上的海量的用户言论数据隐含着巨大的信息,这些网站包括且不限于淘宝网、京东商城、亚马逊和大众点评网等主流购物、服务平台。
例如,亚马逊上的用户对某商品的评论,商家可以根据用户的评论和反馈为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的。
(3)其他第三方应用市场
移动互联网时代诞生了的APP,这些APP除了“挂”在自家的官方网站以外,更多的是分布于第三方应用市场(如苹果商店、91助手、豌豆荚、小米应用市场、百度手机助手等),这时收集用户的大量吐槽对于改善APP的用户体验至关重要。通过对用户大量评论的文本分析,我们可以第一时间了解到产品的哪些方面是用户喜欢的,哪些方面是用户比较嫌弃的,哪些是无关痛痒的“伪需求”,力求在短时间内改善产品的功能与设计。
综上所述,相关文本数据的来源多样,而且覆盖了非常广泛的话题。任何和产品/服务相关的陈述和评论本质上都是有用的信息,因为这些陈述可以让产品/品牌所有者了解用户的最真实的想法。
5.大数据文本分析的一些应用场景
以上说的是大数据文本分析的一些原理、数据来源及其商业价值,现在笔者就从以下5点来谈谈它的实际应用场景。
(1)开放式作答处理
大量问卷调研中的开放式问题的处理,这些开放式的问题以电子文档的形式进行存储,使计算机进行文本分析成为可能,可以在短时间内从数以万计的作答中提取出有价值的分析维度,获得对(潜在)用户的需求的洞察。
从近万份某3.15开放式问答题中提炼出的焦点话题
(2)内容运营优化
捕捉优秀作者的写作风格
对于一些初入新媒体运营岗位的小伙伴来说,研究和模仿某些知名自媒体作者的写作风格很有必要,学习他们的写作手法和套路可以使我们的文案写作进步神速。
要想对这些优秀作者的行文风格进行深入研究,除了熟悉他们的行文脉络和篇章结构,更要熟稔其遣词造句上的套路(包括措辞特点、常用关键词和情感倾向等),在模仿中逐步形成自己的写作风格。
如下图,对咪蒙10几篇具有代表性的文章进行文本分析,从如下各种属性的关键词,再结合对咪蒙作品的一定了解,可以得出这样的结论:咪蒙的文章里经常进行宣泄负面情绪,把粉丝心中想说却不敢说的话酣畅淋漓的表达了出来,使万千粉丝感同身受,被其感染;另一方面,她身边的人常是被吐槽和分析的对象。。。
对咪蒙10几篇具有代表性文章进行文本分析
新媒体热点采集、追踪及预测
基于大数据的文本分析能快速获取全网具有趋势传播的关键词,可以实时监测传播趋势(包括全面研究阅读数、评论数、分享量、传播趋势),并且通过分析内容属性和成功原因,预测内容在未来的传播潜力。
能够娴熟使用大数据的媒体人在未来的媒体行业才有立足之地,就如热巢网CEO穆青所强调的:
在未来的媒体竞争中,媒体人需要转型变成“内容+技术”的复合型人才,一方面发挥自己在内容创作中的人性的独立判断和分析,另一方面需要借助大数据分析技术提升文章的传播效果。
(3)口碑管理
基于大数据的文本分析能快速准确的识别出企业/品牌/产品自身及竞争对手在互联网上的口碑变化,深度挖掘文本数据价值,在消费者洞察、产品研发、运营管理、市场营销、品牌战略方面,为管理决策提供科学依据。
某餐饮品牌的口碑管理
(4)舆情监测及分析
利用基于大数据的文本分析,我们可以清晰的知晓事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情的传播路径、传播节点、发展态势和受众反馈等情报。
对沪文化广播影视管理局的舆情监测
(5)了解用户反馈
通过基于大数据的文本分析,企业可以用正确的方式阅读用户散落在网络上的“声音”,企业可以直接读懂自己用户的想法,挖掘出用户对于产品/服务的情绪和态度。比如,大数据文本分析可以回答如下问题:
用户喜欢的是它产品的哪一方面?
比起其他公司的产品来,客户是否更倾向他的产品?
这些偏好会随着时间发展和变化吗?
本文偏向于科普大数据文本分析的基本知识,下一篇将用一个生动的案例来说明,大数据文本分析是如何在互联网商业实践中体现其巨大商业价值的。
精彩回顾
Python网络爬虫与文本数据分析
综述:文本分析在市场营销研究中的应用
Seaborn:一行代码生成酷炫狂拽的数据集可视化
50题matplotlib从入门到精通
30例 | 一文搞懂python日期时间处理
如何批量下载上海证券交易所上市公司年报
pdfkit | 自动化利器,生成PDF就靠它了
中文文本数据逻辑性分析库
中文文本分析相关资源汇总
cnsenti中文情绪情感分析库
如何使用Python快速构建领域内情感词典
Python数据分析相关学习资源汇总帖
漂亮~pandas可以无缝衔接Bokeh
YelpDaset: 酒店管理类数据集10+G
Loughran&McDonald金融文本情感分析库
万水千山总是情,给我点好看可好❤
数据分析中,文本分析远比数值型分析重要!(上)相关推荐
- 【数据运营】数据分析中,文本分析远比数值型分析重要!(下)
本文是<数据分析中,文本分析远比数值型分析重要!>的下篇,以一个实际案例来聊文本分析在实际运营如何落地.行为脉络如下:先简要讲述文本分析的分支---情绪分析的基本原理,然后以亚马逊的Kin ...
- Excel VBA 小程序 - 文本型数字转为数值型数字
实现功能:选中当前工作表中的所有数据内容,将文本型数字转换为数值型数字. 缺点:日期格式的字符串会变成数值 Sub 转数值型数字() With ActiveSheet.UsedRange.Number ...
- ML之FE:利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测
ML之FE:利用FE特征工程(分析两两数值型特征之间的相关性)对AllstateClaimsSeverity(Kaggle2016竞赛)数据集实现索赔成本值的回归预测 目录 输出结果 设计思路 核心代 ...
- 最快速一键批量转换Excel里面的“文本形式数字”为“数值型数字”
前面写了一篇关于转换Excel里面的"文本形式数字"为"数值型数字"的文章,但是发现比较麻烦,尤其遇到Excel数据极大的时候,比如我遇到的是一个9万行的数据. ...
- 如何一键批量转换Excel里面的“文本形式数字”为“数值型数字”
遇到大量的Excel数据从平台导出的时候,可能出现数据为文本型数字的情况,如下图 为了进行数据分析,这些文本数值不能被处理,需要提前转换为"数值型数字". 具体方法细节如下图所示 ...
- Matlab中布尔值/逻辑值与数值型类型的相互转换
在涉及到一些下标运算时,经常会遇到布尔值与数值型的相互转换. 数值型转化为逻辑值 在MATLAB中常采用函数logical()将数值型数据转换成逻辑型数据.数值型数据转换成逻辑型的数据一般遵循这样的规 ...
- pandas将表中的字符串转成数值型
在用pd.read_csv读数据时,将要转换数据类型的列名和类型名构成字典,传给dtype import numpy as np import pandas as pdpath = 'house_da ...
- 《数据分析变革:大数据时代精准决策之道》一第1章 了解运营型分析1.1 定义运营型分析...
本节书摘来自异步社区<数据分析变革:大数据时代精准决策之道>一书中的第1章,第1.1节,作者[美]Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区"异步社区 ...
- SPSS数据分析中出现的常见问题总结
总结最近数据分析过程中遇到的一些问题的思考 1.问卷中多选题的录入与分析 2.数据分析流程的第一步:对所分析的样本数据本身的特征结构进行预分析 3.根据数据中的某个因素的几个水平来分析数据总体的差异性 ...
最新文章
- 矩阵的终极分解-奇异值分解 SVD
- 20.二叉树怎么存储
- 【学术相关】Github大盘点!2021年最值得推荐的38篇AI论文
- Vue 性能优化--打包优化
- randn函数加噪声_NLP入门指南01:感知机、激活函数、损失函数
- linq to xml 操作sitemap
- Jwt Token 的刷新机制设计
- 实践:《从头到脚撸一个多人视频聊天 — 前端 WebRTC 实战(一)》
- python中sorted()函数的用法_Python中的Sorted()函数
- 无人车创业正驶入分水岭
- Clojure 学习入门(8)- 连接mongodb
- java日历制作日期不对_在我的代码中,为什么Java日期或日历中的月份日期不同? - java...
- Spring入门篇——第4章 Spring Bean装配(下)
- 幼儿识字软件测试自学,十大儿童识字APP排行,看看有你知道的吗?
- Nature杂志总编辑:如何培养一个有价值的研究者
- Matlab抓取网页数据
- 中高端时代趁势而来,本就艰难的酒店企业如何顺势而为
- ovs-vsctl设置ofport不成功处理
- Gameplay - 设计使命召唤类型的关卡
- Python实现简易音频播放器
热门文章
- 【Java】 org.apache.catalina.tribes.group.interceptors.MessageDispatch15Interceptor
- 第十三届蓝桥杯 EDA 设计与开发科目 模拟试题(详细解读)
- 苹果8a1660是什么版本_苹果A1660是什么型号?
- 题目54:百钱百鸡 一只公鸡值5元,一只母鸡值3元,而1元可买3只小鸡,用百元买百鸡。现有n元钱,想买n只鸡。问有多少种买法?(钱要用完)
- 基于python的水果销售系统设计与实现 django框架毕业设计毕设参考
- java毕业设计题目
- 关于“有未经处理的异常: 0xC0000005: 写入位置 0xfeeefeee 时发生访问冲突”的解...
- “人货场”模型,该怎么搭建?
- 逻辑回归实现数字手写识别
- 14款前端常用的富文本编辑器插件