通过前面几个小节的学习,我们现在已经学会了如何获取文本预料,然后分词,在分词之后的结果上,我们可以提取文本的关键词查看文本核心思想,进而可以通过可视化技术把文档从视觉的角度表达出来。

下面,我们来看看,文本数据如何转换成计算机能够计算的数据。这里介绍两种常用的模型:词袋和词向量模型。

词袋模型(Bag of Words Model)

词袋模型的概念

先来看张图,从视觉上感受一下词袋模型的样子。

词袋模型看起来好像一个口袋把所有词都装进去,但却不完全如此。在自然语言处理和信息检索中作为一种简单假设,词袋模型把文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序,把每一个单词都进行统计,同时计算每个单词出现的次数,常常被用在文本分类中,如贝叶斯算法、LDA 和 LSA 等。

动手实战词袋模型

(1)词袋模型

本例中,我们自己动手写代码看看词袋模型是如何操作的。

首先,引入 jieba 分词器、语料和停用词(标点符号集合,自己可以手动添加或者用一个文本字典代替)。

    import jieba#定义停用词、标点符号punctuation = [",","。", ":", ";", "?"]

第05课:面向非结构化数据转换的词袋和词向量模型相关推荐

  1. 非结构化数据 mysql_Apache Sqoop 结构化、非结构化数据转换工具

    简介: Apache Sqoop 是一种用于 Apache Hadoop 与关系型数据库之间结构化.非结构化数据转换的工具. 一.安装 MySQL.导入测试数据 2.导入测试数据 mysql > ...

  2. 知识抽取学习笔记:面向非结构化数据的抽取

    1概念 知识抽取,即从不同来源.不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱.大体的任务分类与对应技术如下图所示: 2知识抽取的技术与难点 从结构化数据库中获取知识:D2R 难点 ...

  3. Zilliz2022首届非结构化数据峰会圆满结束

    9 月 24 日至 25 日,2022 首届非结构化数据峰会在线上成功举办,Zilliz 携手来自 Linux Foundation AI & DATA 基金会.中国电信翼支付.百度飞桨社区. ...

  4. 非结构化数据的相关知识

    一.出现原因 信息社会化时代,各行各业在处理相关业务的过程中,都累计了海量的数据信息,随着IT应用的普及和发展,传统的纸质资料存储方式在不断缩减,更多的采用电子信息的存储方式存放在计算机中.这些信息数 ...

  5. 结构化、非结构化和半结构化数据 数据清洗

    结构化数据 **  结构化数据可以使用关系型数据库来表示和存储,如MySQL.Oracle.SQL Server等,表现二维形式的数据.可以通过固有键值获取相应信息.一般特点是:数据以行为单位,一行数 ...

  6. 【C/C++13】天气APP:数据挖掘/HTTP协议/非结构化数据存储(filetoblob.cpp),数据管理/监控告警(hsmtable.cpp,tbspaceinfo.cpp)

    文章目录 1. 数据挖掘:/etc/rc.local,sudo su 2.HTTP协议:优先wget 3.非结构化数据存储:blob,pzhrain24file 4.数据管理子系统:数据字典表 5.监 ...

  7. MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

    为什么80%的码农都做不了架构师?>>>    摘要: MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断 ...

  8. 非结构化WEB数据库与图书馆多媒体信息资源的组织利用

    1 非结构化WEB数据库简介 非结构化WEB数据库,是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的基于INTERNET.INTRANET的数据库,用它不仅可以处理结构化数 ...

  9. 非结构化商业文本中隐私信息识别-第2名方案(含数据)

    向AI转型的程序员都关注了这个号???????????? 人工智能大数据与深度学习  公众号:datayx 随着社交网络.移动通讯等技术的迅速发展,网络中存在大量包含隐私数据的文本信息,如何在非结构化 ...

最新文章

  1. python 字符串转字典,字典转字符串 Expecting property name enclosed in double quotes
  2. 李德毅院士:新一代人工智能十问
  3. Oracle --存储过程,输入不定个数参数
  4. postgresql语句
  5. spring 注解简单使用
  6. Android Mac下反编译apk
  7. 涉密文件检查工具_深圳龙华资料文件销毁粉碎销毁资料文件公司一览表
  8. 今天主要改了罗宾钢琴的首页图片缩放问题
  9. java的两种核心机制(一)
  10. nginx+iis、NLB、Web Farm、Web Garden、ARR
  11. 最流行的六大数据模型工具
  12. select2参数介绍
  13. aes-gcm模式前端加解密(html页面 js)——使用node-forge库
  14. Win8.1系统System.exe进程占用磁盘率高达100%如何解决
  15. 靠模仿红牛成为饮料界的“黑马”,东鹏特饮的未来如何谱写?
  16. linux指定行添加内容,Linux sed命令在指定行前后添加内容
  17. git 设置单个文件上传大小
  18. 软件测试价值观-SMBT新理念
  19. 为啥女性洗澡都很慢,究竟在干啥?
  20. 实战:HPA(Pod 水平自动伸缩)-2021.11.23

热门文章

  1. 必看 | Hexo博客搭建超级指南
  2. 脚本 | 获取windows安装软件列表
  3. 18个顶级的腾讯qq技巧
  4. ArcGIS自制符号库、兴趣点符号库、poi符号库
  5. 【★】致全球第一批全帧3D游戏!
  6. C++ primer 5版第六章
  7. Window打开服务的DOS命令
  8. 【数据工具】高德地图POI数据下载工具(支持选择省市以及POI类型)
  9. 彻底卸载 Visual Studio 2010 和 2012 并安装免费的 Visual Studio 2013 社区版!
  10. 数码相机短片合并及压缩工具(数码短片伴侣)