文章目录

  • 第六章 文本数据可视化
    • 6.1 文本数据在大数据中的应用及提取
      • 6.1.1 文本数据在大数据中的应用
      • 6.1.2 使用网络爬虫提取文本数据
    • 6.2 文本信息分析
      • 6.2.1 向量空间模型
      • 6.2.2 主题抽取
    • 6.3 文本数据可视化
      • 6.3.1 文本内容可视化
      • 6.3.2 文本关系可视化
      • 6.3.3文本多特征信息可视化

第六章 文本数据可视化

6.1 文本数据在大数据中的应用及提取

6.1.1 文本数据在大数据中的应用

对文本的理解需求分为三级:词汇级、语法级和语义级。
词汇级使用各类分词算法,而语法级使用一些句法分析算法,语义级则使用主题抽取算法。
文本数据类别分为: 单文本, 文档集合, 时序文本。

6.1.2 使用网络爬虫提取文本数据

URL(统一资源定位符)格式: protocol://hostname[pr/]pat/;parametersJ[?query]#fragment
第一部分是协议(protocol),例如,百度使用的就是HTTPS;
第二部分hostamef:port],主机名(还有端口号为可选参数,端口号一般默认为80),例,百度的主机名就是 www.baidu.com, 这个就是服务器的地址;
第三部分path是主机资源的具体地址,如目录和文件名等。

Python爬虫架构主要有调度器、URL管理器、网页下载器、网页解析器、数据库。
(1)调度器:相当于计算机CPU,主要负责URL管理器、网页下载器、网页解析器之间的协调工作。
(2)URL管理器:管理待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL。
(3)网页下载器:通过传入一个URL地址来下载网页内容,Python支持网页下载的库有urllilb模块和requests模块等。
(4)网页解折器。将一个网页字符串进行解析。网页解析器有正则表达式(直观,将网页转成字符申,通过机糊匹配的方式来提取有价值的信息,但该方法不适用于比较复杂的文档)、html.parser(Python自带的)、beautifulsoup(第三方插件)、lxml(第三方插件,可以解析xml和HTML)。
(5)数据库:将从网页中收集的有价值的数据存人数据库。

urllib包相关模块
(1) urlib.request模块,用于打开和读取URL。
(2) urllib.error模块,包含一些由urllib.request产生的错误,可以使用try进行捕捉处理。
(3) urlib.parse模块,包含了一些解析URL的方法。
(4)urllib.robotparser模块,用来解析robots.txt文本文件。它提供了一个单独的RobotFileParser类,通过该类提供的canfetch0方法测试爬虫是否可以下载一个页面。
可以通过ullib.request.urlopen()接口函数打开网站,读取并打印信息,具体使用方法如下:
ur111b.request.urlopen(url,data=None,[timeout,]*,cafile = None, capath = None,cadefault=False, context=None)

6.2 文本信息分析

6.2.1 向量空间模型

  1. 词袋模型
    词袋模型(Bag of Words)指在信息检索中,将某一文本仅看作是一个词集合,而不考虑其语法、词序等信息。文本中每个词相互独立,不依赖于其他词的出现与否。词袋模型是向量空间模型构造文本向量的常用方法之一,常用来提取词汇级文本信息。词袋模型就是忽略词序、语法和语句,过滤掉对文本内容影响较弱的词(停用词),将文本看作一系列关键词汇的集合所形成的向量,每个词汇表示一个维度,维度的值就是该词汇在文档中出现的频率。
  2. TF-IDF
    TF-IDF (Term Frequency-Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF的含义是词频(Term Frequency),IDF的含义是逆文本频率指数(InverseDocument Frequency)。
    T-DF的主要思想是:字词在某个文本的重要性与它在这个文本中出现的次数正相关,但同时也会随着它在文档集合中出现的频率增加而下降。

6.2.2 主题抽取

主题模型是对文字中隐含主题的一种建模方法,它从语义级别描述文档集中的各个文本信息。文本主题的抽取算法大致可分为两类:基于贝叶斯的概率模型和基于矩阵分解的非概率模型。

6.3 文本数据可视化

文本数据可视化可以分为文本内容的可视化,文本关系的可视化以及文本多特征信息的可视化。

6.3.1 文本内容可视化

  • 文本内容可视化是对文本内的关键信息分析后的展示
  1. 关键词可视化
    (1) 标签云:
    标签云是一种最常见的,简单的关键词可视化方法,主要可分为如下两步:
    <1>统计文本中词语的出现频率,提取出现频率较高的关键词。
    <2>按照一定的顺序和规律将这些关键词展示出来。
    (2) 文档散:
    文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语义关系的词语来布局关键词,从而揭示文本中的内容。
    <1>将一个单词作为中心点,中心点的词汇可以由用户指定,选择不同的中心点词汇呈现出的可视化结果将大不相同。
    <2>将整个文章内的词语呈现在一个放射式层次圆环中,外层的词内层词的下义词。这样就可以直观的展示文档的中心词在词语关系网中是如何被呈现的。
  2. 时序文本可视化
    (1) 主题河流:
    主题河流主要用于反映文本主题强弱变化的过程。
    经典的主题河流模型包括以下两个属性:
    <1>颜色:表示主题的类型,一个主题用一个单一颜色的涌流表示。
    <2>宽度:表示主题的数量(或强度),涌流的状态随着主题的变化,可能扩展、收缩或者保持不变。
    (2) 文本流:
    文本流是主题河流可视化技术的一种扩展,它不仅可以表达主题的变化,还能随着时间的推移展示各个主题之间分裂与合并的状态。
    (3) 故事流:
    故事流常用来表示电影或者小说里的剧情线或者时间线。
  3. 文本分布可视化
    文本弧可视化技术不仅可以展现词频,还可以展示词的分布情况。
    文本湖的特性如下:
    (1) 用一条螺旋线表示一篇文章,螺旋线的首尾对应着文章的首尾,文章的词语有序的分布在螺旋线上。
    (2) 若词语在整篇文章中出现的比较频繁,则靠近画布的中心区域分布。
    (3) 若词语只是在局部出现的比较频繁,则靠近螺旋线分布。
    (4) 字体的大小和颜色深度代表着词语的出现频率。

6.3.2 文本关系可视化

  • 文本关系的可视化既可以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示
  1. 基于图的文本关系可视化:
    (1) 词语树:
    词语数使用树形图展示词语在文本中的出现情况,可以直观地呈现出一个词语和其前后的词语,用户可自定义感兴趣的词语作为中心节点,中心节点向前扩展,就是文本中处于该词与前面的词语,中心节点向后扩展,就是文本中处于该词语后面的词语。字号大小代表了词语在文本中出现的频率。
    (2) 短语网络:
    短语网络包括以下两种属性:
    <1>节点:代表一个词语或短语。
    <2>带箭头的连线:表示节点与节点与节点之间的关系,需要用户定义。
  2. 文档间数据可视化
    (1) 星系视图:
    星系视图可用于表征多个文档之间的相似性。
    (2) 文档集抽样投影:
    当一个文档集中包含的文档数量过大时,投影出来的星系视图中就会产生很多重叠的星星。

6.3.3文本多特征信息可视化

  • 文本多特征信息的可视化,是结合文本的多个特征进行全方位的可视化展示。

平行标签云将标签云在水平方向上基于多个不同的特征进行显示,每一个特征对应着一列标签云,列与列之间的特征都不一样。颜色越深,字号越大,说明关键词频率越高.

大数据可视化课程笔记 6相关推荐

  1. 大数据可视化课程笔记 7

    文章目录 第七章 复杂数据可视化 7.1 高维多元数据在大数据中的应用 7.1.1 空间映射法 7.1.2 图标法 7.2 非结构化数据可视化 7.2.1 基于并行的大尺度数据高分辨率可视化 7.2. ...

  2. 大二下学期大数据可视化课程学期总结

    大二下学期大数据可视化课程的学期总结 在大二的下学期学习了大数据可视化这门课程,主要是用Java后台+Echarts实现的.Java后台使用的是spring boot + mybatis数据库使用的是 ...

  3. 大数据算法课程笔记1:寻找中值算法之随机选取,中值的中值,One Pass算法

    大数据算法的课程笔记,包括四种中值搜索算法.包括最简单的先搜索后检索,平均算法复杂度为O(N)的简单随机选取算法,确定性的中值的中值算法,大概率返回中值的one pass算法. 1. 最简单的方法:先 ...

  4. HCIA-Big Data华为认证大数据工程师 课程笔记 + 课后习题

    点击进入习题专辑(含答案) 文章目录 一.大数据发展趋势与鲲鹏大数据 导读 大数据时代的机遇与挑战 华为鲲鹏解决方案 课后习题 二.HDFS分布式文件管理系统和ZooKeeper 导读 HDFS分布式 ...

  5. 斯坦福大学数据可视化课程学习笔记:第一节 可视化的发展与目标

    <斯坦福大学数据可视化课程学习笔记>课程资源来自于斯坦福大学数据可视化课程,是我所在团队实习生提升计划的一部分.本系列是 "秉姝" 同学在学习过程中记录和整理的学习笔记 ...

  6. 斯坦福大学数据可视化课程学习笔记:第二节 从数据到图像

    <斯坦福大学数据可视化课程学习笔记>课程资源来自于斯坦福大学数据可视化课程,是我所在团队实习生提升计划的一部分.本系列是 "秉姝" 同学在学习过程中记录和整理的学习笔记 ...

  7. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

  8. 大数据入门课程_我根据数千个数据点对互联网上的每门数据科学入门课程进行了排名...

    大数据入门课程 by David Venturi 大卫·文图里(David Venturi) A year ago, I dropped out of one of the best computer ...

  9. “Python编程及大数据应用”课程教师(厦门)寒假研修班

    全国高校大数据教育联盟  "Python编程及大数据应用"课程教师(厦门)寒假研修班 邀 请 函 各高校教务处.计算机.软件.统计等相关学院(系)负责人: 近年来,大数据受到我国政 ...

最新文章

  1. 平安京服务器维护不能打字,《决战!平安京》:玩的真的累,我真的是服了这破游戏的举报系统...
  2. Windows GPT磁盘GUID结构详解
  3. php操作redis_PHP操作redis的两种方式
  4. 在一台服务器上搭建多个项目的SVN
  5. centos7 安装SSH
  6. Java Web项目的保存和刷新
  7. html 二级试题,计算机二级考试WEB试题及答案
  8. Halcon算子学习:find_surface_model
  9. PHP设计模式——门面模式
  10. 会议安排问题C++贪心算法
  11. 看山不是山看水不是水
  12. 使用AhMyth入侵Android智能手机
  13. udal导mysql_MySQL性能测试工具之mysqlslap
  14. shiro权限框架中五张基本数据表
  15. android 虚拟键 高度,Android获取虚拟按键的高度(适配全面屏)
  16. java kpi_KRA与KPI 绩效考核
  17. 重新启动linux系统应使用 命令实现,在重新启动Linux系统的同时把内存中的信息写入硬盘,应使用哪个命令...
  18. PL SQL中如何去掉字符串中重复的字符
  19. 开源月刊《HelloGitHub》第 62 期
  20. rhel6 下iib9.0实现HA

热门文章

  1. Java 中代码优化的 30 个小技巧(下)
  2. 网络报表学习体会心得!
  3. DHCP-relay测试总结
  4. python从邮箱获取指定邮件_用python提取并统计指定邮箱里的特定邮件
  5. 图片处理系列:png图片背景色改为透明
  6. 1024程序员节?我们整点AI绘图玩玩吧,一文教你配置stable-diffusion
  7. Python 爬虫js加密破解(四) 360云盘登录password加密
  8. 浅析超启发式算法(hyper heuristic)
  9. ora-01722 无效数字_错误提示ORA-01722: 无效数字一例
  10. SSRF在有无回显方面的利用及其思考与总结