最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入。

本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验:

分词以及词频统计

每一章的关键词提取

每一章的文本摘要

每一章文本之间的相似度分析

实验流程以及数据可以在阿里云机器学习PAI的社区直接使用,只要点击“去PAI平台创建”按钮即可在自己的项目下生成实验。社区部分截图:

社区地址:人民的名义分析-云栖社区-阿里云

二、数据集介绍

数据源:本文数据为人民的名义部分剧集文本,一共分成1-9个章节。

具体字段如下:

数据截图:

三、数据探索流程

首先,实验流程图:

1.分词以及停用词

分词是文本分析的基础,但是在“人民的名义”这样的文本中会有很多特有名词,是分词算法很难区分的。比如“侯亮平”、“沙瑞金”、“大风厂”等,所以我们需要在split word组件中加入一个词库,帮助分词组件可以对人名做正确的分词处理。加入的词库fufeitest.splite_w如下图:

另外,文本中一些“的”、“地”、“得”这样的助词以及各种标点符号也需要去掉,这些词是没有意义的,对文本分析有干扰,这些词可以通过“停用词过滤”组件去除。最终通过分词以及停用词过滤组件操作之后,文本内容被整理成了如下图形态:

2.关键词提取及词频统计

通过“词频统计”组件可以查看每一章中各个词语出现的频率,如图所示,id为1的文章中每个词语出现的次数:

“关键词”提取组件可以返回每个文章中关键的词语以及权重,(如果我们在停用词过滤那里处理的更细致,这部分效果会更好),通过这个结果可以看到每一章的关键人物有哪些,以及他们的权重排名:

3.文本摘要

“文本摘要”组件可以帮助您快速的浏览每一章节的关键内容,返回的是全文最关键的句子,我这里设置的是返回前三关键的句子:

截取的是第9章的摘要内容,如果看过这个剧,通过这个摘要可以大致了解到这是在讲汉东省委关于干部任用的会议的那一集。

4.相似文章分析

通过“Doc2Vec”组件可以将文本文章映射成高维向量化,将文本按照语义变成数学向量,结果如下:

然后可以通过"语义向量距离"组件挖掘出不同文章向量的距离,这里面的隐含关系是文章向量距离越近,那么语义越相近。我们以第9章为例:

第9章与第8章的向量距离最小,言外之意就是这两章的语义相近,这一点也比较容易理解,因为相连的两章在意义上肯定上是有一定的关联性。

四、总结

本文通过对“人民的名义”部分章节文本的分析,帮助大家了解机器学习PAI上面的部分文本算法的用法。如果向更深入的了解相关的内容,欢迎到PAI的社区来讨论,我们会定时组织活动。

社区:云栖社区公众号

产品页:阿里云数加机器学习平台

点击作者姓名查看更多内容:傲海

转载于:https://my.oschina.net/u/3579120/blog/1533242

机器学习PAI眼中的《人民的名义》相关推荐

  1. 【机器学习PAI实践五】机器学习眼中的《人民的名义》

    一.背景 最近热播的反腐神剧"人民的名义"掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用.笔者在平日追剧之余, ...

  2. 机器学习眼中的《人民的名义》

    一.背景   最近热播的反腐神剧"人民的名义"掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用.笔者在平日追剧之 ...

  3. 从《人民的名义》看声纹识别技术在案件侦查中的应用

    被号称为"史上最大尺度反腐剧"的<人民的名义>即将收官,播出期间,该剧一直备受好评.除了曲折的故事情节之外,该剧最大的看点就是公安机关曲折的案件侦查过程,只不过因为剧中 ...

  4. 机器学习PAI产品架构

    机器学习PAI产品架构 本文介绍PAI的产品架构. 如上图所示,PAI的业务架构分为五层: 基础设施层:包括CPU.GPU.FPGA及NPU. 计算引擎和容器服务层:包括MaxCompute.EMR. ...

  5. 【机器学习PAI实战】—— 玩转人工智能之综述

    摘要: 基于人工智能火热的大背景下,通过阿里云的机器学习平台PAI在真实场景中的应用,详细阐述相关算法及使用方法,力求能够让读者读后能够马上动手利用PAI搭建属于自己的机器学习实用方案,真正利用PAI ...

  6. 【正一专栏】从人民的名义看失败的婚姻关系

    从人民的名义看失败的婚姻关系 人民的名义其中几对夫妻失败的婚姻关系引人关注,展示了人间百态.从中也可以看出婚姻关系确实是家庭关系的基石,婚姻关系处理不好,就会带来各种各样的问题,腐败也会随之而来.天下 ...

  7. 【机器学习PAI实践十二】机器学习实现男女声音识别分类(含语音特征提取数据和代码)

    背景 随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理.目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一 ...

  8. 【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分

    背景 如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应 ...

  9. 【机器学习PAI实践九】如何通过机器学习实现云端实时心脏状况监测

    背景 我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见http://blog.csdn.net/buptgshengod/article/details/53609878 ...

最新文章

  1. python stm32-STM32F4系列使用MicroPython开发
  2. c 类别构造函数需要包含所有成员吗_C++默认成员函数解析
  3. linux : epoll详解
  4. double四舍五入
  5. go语言构造函数的创建以及赋值使用
  6. linux安装 soapui_SoapUI命令行方式运行
  7. MSN退休,寻找微软如何融合MSN的答案:体验skype6国际版MSN功能。
  8. 2.4GHz频段天线的选择
  9. 如何建立能力评估模型?
  10. linux debian 设置 开机 启动
  11. KALI2020忘记用户名密码
  12. pdf转txt java_pdf转换txt怎么操作?pdf文件可以转换成txt文件吗?
  13. 记录:macbook 下剪切快捷键
  14. NYOJ-975 关于521
  15. python代码少儿编程转换_数据类型转换_清华尹成python入门教程_少儿编程视频-51CTO学院...
  16. 直饮水机按键板触摸弹簧过于灵敏问题
  17. vconsole-移动端调试工具
  18. Nginx的动静分离实验
  19. 【五】Socket函数详解
  20. python 读取excel一列的内容根据内容循环生成宏定义

热门文章

  1. jQuery为table表格动态添加或删除tr
  2. C语言基础教程_文件操作
  3. 驾驭大数据 - 电子书下载(高清版PDF格式+EPUB格式)
  4. 短视频带货系统,HTML+CSS+JS实现宇宙星球旋转动画特效
  5. 20P67 PR模板预设14组MOGRT预设卡通彩色爱心情人节浪漫婚礼心形状元素图形动画
  6. Day1:计算机网络概述——基本concept、网络结构:网络边缘、网络核心、接入网络;多路复用
  7. 《如何阅读一本书》--读书笔记
  8. ubuntu20.04 AMD显卡 不能调节屏幕亮度与外接显示器问题的解决
  9. 高通平台避免误入FFBM模式和退出FFBM
  10. 220名产品经理快速体验一款app:精选5个好玩的app