大家的好朋友,我们的好邻居老王时隔一周第二次闪亮登场了!!!上次给大家讲到老王通过小编公司爬虫的帮助找到了合适的合作伙伴,之后生意一直风生水起,但是老王并不满足于现状。当他听说可口可乐通过大数据分析出樱桃味的可乐,并在全世界推出之后,心里一阵窃喜。他的辣条厂想要推出新口味的辣条,请小编帮他分析一下。

第一步:打开爬虫

首先,小编先从微博搜索中搜索到关于正餐,小吃,零食,泡面等的所有信息,采集到的信息文本中,包含一些无关的垃圾信息,如广告等等。

第二步:把垃圾信息塞到分类器中去

但是老王需要的却只是关于这四类食品大众喜欢的口味,这些垃圾信息没有帮助,反而会增加系统的负担。因此需要对这类文本给出垃圾标识。那么怎么来判定是否为垃圾文本呢,小编在分类器里输入了垃圾文本的特征词,如果言论文本属于垃圾文本,则给出垃圾标识。
通过上述步骤,老王在小编的帮助下通过分类器筛选出了全部有关于正餐、小吃、零食、泡面的口味评价。

第三步:把有效信息塞到分类器中去

接着,小编要开始对这些信息进行分类了,也就是说使用前嗅的分类器根据言论的类型,自动对得到的文本打上对应的标签,分到所在的类别里。其中,言论的类别是根据提供的类型确定的,分类器是采用机器学习的方法从大规模标注数据中训练得到的。对于一个输入的言论文本,由N个训练好的分类器分别判断言论是否属于该类别,如泡面的红烧牛肉味、老坛酸菜味等。如果言论文本属于该类别,则给言论打上对应的标签。

通过上述步骤,老王在小编的帮助下通过分类器,将全部有效信息,按照正餐、小吃、零食、泡面的各个口味,进行了精确的分类。

第四步:判断想吃/不想吃

最后也是最重要的一步情感极性分析,也称文本倾向性分析,即判断微博的言论属于想吃、不想吃或者吃不吃都行。用户言论文本的情感极性判断分为两个过程,分别为情感极性模型训练过程和言论文本情感极性判别过程。首先,需要在分类器输入标注好情感极性的言论文本,需要有三类文本:想吃文本、不想吃文本或者吃不吃都行文本。训练好了情感模型可以应用此分类器对言论文本的情感极性进行判断,进行情感极性判断,最后输出的言论文本的情感极性标签:想吃、不想吃或者吃不吃都行。

第五步:关上分类器

把分类器的结果关联到ForeAna数据分析引擎中,就自动得出了可视化图表。

老王拿着结果兴高采烈的跑到了工厂,工人们对这个结果表示十动然拒,并以 ba gong 要挟,如果要出这些口味的辣条,他们就跳槽到某龙辣条厂。。。

大数据应用场景”之隔壁老王(连载二)相关推荐

  1. “大数据应用场景”之隔壁老王(连载二)

    大家的好朋友,我们的好邻居老王时隔一周第二次闪亮登场了!!!上次给大家讲到老王通过小编公司爬虫的帮助找到了合适的合作伙伴,之后生意一直风生水起,但是老王并不满足于现状.当他听说可口可乐通过大数据分析出 ...

  2. “大数据应用场景”之隔壁老王(连载四)

    老王上周预测了辣条的销量之后,马上就吩咐了工厂工人,开始制作各种形状的辣条了,什么条状的,块状的,片状等等等.可是等到辣条生产出来之后,是要卖的呀,所以怎么定价又成了老王的一个难题,也成了老王再次敲响 ...

  3. OMG,隔壁老王竟然是个GEEK !

    每天除了吃饭,基本就是坐在电脑前写程序,我就是传说中真正的码农.你一定觉得我的生活很枯燥,但我不觉得,几行代码就能帮助一个APP实现某些功能,几行代码就能让素不相识的人聊起天,我觉得非常有成就感. - ...

  4. 隔壁老王的女朋友都能学会的ELK实战之elasticsearch

    文章目录 准备工作 本文所用操作系统: 系统详细信息: 系统内核: 系统版本: 系统内存 本文所用ELK软件版本: 软件下载地址: 将ELK所需要的软件上传到服务器 新建文件夹xinsz08 上传软件 ...

  5. 厉害了隔壁老王,带你入坑腾讯联机对战引擎!

    前文导读: <联机对战!隔壁老王都入坑了,你还在等啥?> 前面我们介绍了『开心鼠吃象』这个游戏的玩法,以及对战引擎的注册开通,这次给大家介绍MGOBE实战操作! 如果你对MGOBE还不太了 ...

  6. 隔壁老王的iptables防火墙

    防隔壁老王的iptables防火墙 一.Linuux包过滤防火墙概述 1.1防火墙的分类 1.2Linux防火墙 1.3Linux包过滤的工作层次 1.3iptables的表.链结构 1.3.1规则表 ...

  7. 到底是不是隔壁老王?责任链模式帮小头爸爸洗绿

    目的 在发送请求的类和最终处理的类之间进行解耦 例子代码 小伙伴们都看过 大头儿子小头爸爸 么(大手牵小手, 走路不怕滑~), 当初纯洁的我怎么也没想到小头爸爸的绿帽子这么鲜艳 [外链图片转存失败,源 ...

  8. 凭借这四招,别说隔壁老王,神也蹭不到你家Wifi!

    无wifi何以平天下,出门在外,用手机蹭别人的Wifi热点,那叫"江湖救急",我睁只眼闭只眼也就算了.但是,隔壁的老王天天蹭我们家Wifi是怎么回事? 一.别人是怎么蹭上你的Wif ...

  9. python教学小说03 好卷,隔壁老王也来学python了

    猫慵懒的声音蹦到小柯脑中. "我来自其他星球,就是你梦中的那个世界.嗯,怎么说呢,那是个和地球差不多的星球,里面除了人类,还有兽人和机器人." "我们星球的人类借助上古语 ...

  10. 2021年大数据基础(三):​​​​​​​​​​​​​​​​​​​​​大数据应用场景

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 大数据应用场景 电商方 ...

最新文章

  1. Cloudify — 安装部署与基础使用
  2. Python学习笔记(5)——使用list和tuple
  3. 你知道现在的.net是什么样的吗,一张图告诉你
  4. POJ 2236 Wireless Network (并查集)
  5. 【FFmpeg】FFmpeg 相关术语简介 二
  6. Flink从入门到精通100篇(十八)-CentOS环境中搭建Flink分布式集群
  7. jvm性能调优 - 03垃圾回收机制
  8. lightoj 1236 正整数唯一分解定理
  9. IS-IS快速收敛调优配置实例
  10. 计算机组成原理期末笔记,计算机组成原理复习笔记.pdf
  11. 【工赋开发者社区】产业互联网和工业互联网的区别
  12. 保姆级windows下mysql数据库安装教程
  13. Android之权限(permission)大全
  14. 433模块-----HCS301芯片烧录器
  15. 用telnet+openocd+jtag_dpi+vcs仿真调试RISCV的cpu
  16. 如何取消a标签的下划线
  17. GStreamer Tutorial 中文翻译:Basic tutorial 3: Dynamic pipelines
  18. XBee zigbee 使用指南---XBee设备如何通信
  19. Random 随机数
  20. SPFA求单源最短路(邻接表)

热门文章

  1. Unity打包篇:关于MMD模型贴画在安卓手机上无法显示的问题。
  2. 双拼对简拼和混拼的支持
  3. 标准时间格式与时间戳的转化
  4. html写的3d烟花带字幕,Three.js 3D烟花绽放动画
  5. poco linux,centos7.2 安装poco
  6. 5990. 找出数组中的所有孤独数字
  7. TCP close-wait 状态分析
  8. div实现页面划分为左,中,右三栏
  9. rust怎么建柱子_原神慈盐之末任务怎么做?原神钟离传说任务的方碑柱子点亮顺序...
  10. 计算机游戏玩法,123木头人游戏规则与玩法