水军的大行其道,严重影响了社会舆论,尤其是有组织地针对公众任务、企业的诽谤和攻击行为,造成严重的社会影响。大行的社交媒体以及知名论坛,早期都需要雇佣大量的运营支撑人员来人工鉴别处理。是否可以使用机器学习的技术来达到一定程度的自动化识别负面评论呢?

本章主要以IMDB数据集为例介绍负面评论的识别技术。介绍识别负面评论使用的数据集以及使用的特征提取方法,包括词袋和TF-IDF模型、词汇表模型、Word2Vec和Doc2Vec模型。介绍使用的模型以及对应的验证结果,,包括朴素贝叶斯、支持向量机和深度学习。

7.1 数据集

测试数据来自互联网电影资料库(Internet Movie Database, IMDB),IMDB是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDB另一受欢迎的特色是其对应每个数据库条目,有47个主要板块的留言板系统。注册用户可以在这些留言板上分享和讨论关于电影、演员、导演的消息。至今已有超过600万注册用户使用过留言板。我们使用标注为正面评论和负面评论的留言板数据。

整个数据集一共10万条记录,5万做了标记,5万没有做标记。5万做了标记的数据集合被随机分配成了训练数据集和测试数据集。

7.2 特征提取

7.2.1 词袋和TF-IDF模型

7.2.2 词汇表模型

7.2.3 Word2Vec模型和Doc2Vec模型

7.3 模型训练与验证

7.3.1 朴素贝叶斯算法

7.3.2 支持向量机算法

7.3.3 深度学习算法之MLP
7.3.4 深度学习算法之CNN

第7章 负面评论识别相关推荐

  1. 卷积神经网络识别负面评论

    我们先来看看CNN的架构 传统的DNN(即Deep neural network,泛指一般的深度学习网路)最大问题在于它会忽略资料的形状.例如,输入影像的资料时,该data通常包含了水平.垂直.col ...

  2. 如何在网上回复负面评论

    通过五个步骤轻松在线回复负面评论,以积极的方式展示您的业务,打动您的客户并加强您的品牌形象. 为什么回复负面评论很重要? 负面评论真的很重要吗?是的 - 即使您只收到了一些负面评论,仍然值得花时间管理 ...

  3. 《熟练掌握OpenCV----实用计算机视觉工程案例》第5章 车牌号码识别

    人工智能系列经典图书翻译 原   名:<Mastering OpenCV with Practical Computer Vision Projects> 作   者:Shervin Em ...

  4. 实验5-9 使用函数输出水仙花数_正点原子STM32F407探索者开发板资料连载第五十三章 手写识别实验

    1)实验平台:alientek 阿波罗 STM32F767 开发板 2)摘自<STM32F7 开发指南(HAL 库版)>关注官方微信号公众号,获取更多资料:正点原子 第五十三章 手写识别实 ...

  5. python本科毕业设计基于神经网络的虚假评论识别系统源码,含模型及数据

    主要函数: 1.corpusprocess原始语料处理函数 2.train_word2vec生成word2vec向量 3.generate_id2wec获得索引的w2id,和嵌入权重embedding ...

  6. 【正点原子STM32连载】第五十四章 手写识别实验 摘自【正点原子】MiniPro STM32H750 开发指南_V1.1

    1)实验平台:正点原子MiniPro H750开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id=677017430560 3)全套实验源码+手册+视频 ...

  7. 《Web安全之机器学习入门》笔记:第十六章 16.3 恶意评论识别(二)

    本小节使用NB和RNN两种方法识别恶意评论. 1.数据集获取 (1)正面影评 数据集的位置:../data/movie-review-data/review_polarity/txt_sentoken ...

  8. 第二章,人脸识别与管理系统界面开发(WinForm界面增强,OpenCV-Python智能识别)

     摘要:通过人脸识别与管理系统界面的开发(WinForm界面增强,OpenCV-Python智能识别),我将以一个用户登录窗体的两种不同登录验证方式向各位同学介绍如何利用WinForm开发出漂亮的应用 ...

  9. 《Web安全之深度学习实战》笔记:第十三章 DGA域名识别

    本小节是讲解DGA域名的识别,在<web安全之机器学习入门>中,曾经通过多节来讲解DGA域名,相关笔记如下: <Web安全之机器学习入门>笔记:第七章 7.6朴素贝叶斯检测DG ...

最新文章

  1. 学术干货:看清华教授如何将深度学习引入音频信号处理
  2. MySQL InnoDB锁
  3. 中文 iOS/Mac 开发博客列表
  4. mach空串 php preg_PHP 优化详解
  5. Windows服务BAT命令-安装、卸载、启动、停止
  6. 在 MFC SDI 程序中实现多语言程序界面
  7. ASP.NET Core Blazor 初探之 Blazor Server
  8. linux平台安装React Native遇到的坑
  9. 高手过招:用SQL解决环环相扣的刑侦推理问题(苏旭辉版本)
  10. Integrating ASP.NET AJAX with SharePoint
  11. 工业互联网为湖南制造装上“智脑”
  12. UnityWebPlayer的日志文件在哪
  13. linux下u盘不识别问题,linux u盘不识别解决办法
  14. GIMP为证件照更换背景颜色
  15. 流程驱动管理vs 数据驱动管理
  16. 机房收费管理系统之退卡
  17. 风电的Weibull分布及光电的Beta分布组合研究(Matlab代码实现)
  18. 马踏棋盘问题(C++版)
  19. (MATLAB代码分享,可运行)基于改进遗传算法的柔性作业车间调度优化研究
  20. 光遇显示服务器已满怎么办,光遇服务器已满怎么办 光遇服务器已满您正在登陆队列中解决方法...

热门文章

  1. 亚信联创 java_亚信联创--java面试题目总结
  2. SSM框架实验报告总结
  3. 汇编语言c equ a-b,汇编语言EQU伪指令
  4. Redis报错:WRONGTYPE Operation against a key holding the wrong kind of value 解决处理
  5. 用树莓派给实验室做个门禁
  6. Unity+SteamVR开发——交互
  7. 电荷量 电流 电压 功率
  8. 阿里巴巴、华为、万科、新东方的前高管都去哪了
  9. JavaScript 1 JavaScript 教程
  10. 目标检测经典论文——R-FCN论文翻译(中英文对照版):Object Detection via Region-based Fully Convolutional Networks