1、基本介绍

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

官网:https://radimrehurek.com/gensim/

https://pypi.python.org/pypi/gensim/

安装:pip install gensim

2、基本概念:

  • 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。
  • 向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。
  • 稀疏向量(Sparse Vector):通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的tuple。
  • 模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

gensim 是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具。gensim 以“文集”——文本文档的集合——作为输入,并生成一个“向量”来表征该文集的文本内容,从而实现语义挖掘。该向量表示可被用于训练一个“模型”。模型是从数据生成不同特征的算法集,通常是更为语义化的。

3、功能:预料处理、文本向量化、文本相似度等。

【数据平台】python语言NLP库Gensim初识相关推荐

  1. python语言Camelot库: 人类的 PDF 表提取

    python语言Camelot库: 人类的 PDF 表提取 一.介绍 官方介绍Camelot是一个 Python 库,可以帮助您从 PDF 中提取表格!需注意的是Camelot 仅适用于基于文本的 P ...

  2. Manning大神牵头,斯坦福开源Python版NLP库Stanza:涵盖66种语言

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 转自:机器之心 对于斯坦福 NLP 库,我们一定不会陌生,但是这一库主要基于 Java ...

  3. 【重磅来袭】斯坦福开源Python版NLP库Stanza:涵盖66种语言!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 对于斯坦福 NLP 库,我们一定不会陌生,但是这一库主要基于 Java.近日,Ch ...

  4. python语言函数库_Python 的标准库,从0到1学Python

    1.1. 介绍软件测试业务流程的梳理技巧 - 乐搏软件教育 - 软件测试 - Powered By EduSoho​17lebo.com Python 的标准库包括了很多的模块, 从 Python 语 ...

  5. 【数据平台】基于pymysql库python连接mysql

    1.场景:python连接mysql的API使用pymysql库 https://pypi.python.org/pypi/PyMySQL/ 安装:pip install pymysql 即可 2.代 ...

  6. 【数据平台】基于pyhs2库Python作为client driver连接HiveServer

    1.安装pyhs2 A Python client driver for HiveServer2 is available at https://github.com/BradRuderman/pyh ...

  7. 初识大数据与Python语言——学习笔记

    学习视频 实验 现9/30 记录一下,21年9月28日开始学习大数据

  8. 大数据数学基础 python描述_大数据数学基础(Python语言描述)

    第 1章 绪论 1n 1.1 大数据与数学 1n 1.1.1 大数据的定义 1n 1.1.2 数学在大数据领域的作用 2n 1.2 数学与Python 4n 1.2.1 NumPy 4n 1.2.2 ...

  9. 大数据python试卷_大数据起步--Python语言-中国大学mooc-试题题目及答案

    中档饭店清扫房间定额一般为().A.1416间/人B.1214间/人C.1012间/人D.810间/人 一般情况下,能发生瓦斯爆炸的最低氧气浓度为()A.8%B.12%C.20%D.18% P ...

最新文章

  1. 校招经验分享—高考结束!校招还会远么~~
  2. 我的matlab5个车牌_顶帽_底帽_边缘_腐蚀
  3. 图片旋转对于识别模式带来的变化
  4. html长文本自动换行
  5. wpf 点击某控件范围之外的区域 该控件隐藏_iOS平台设计规范(八)控件Controls...
  6. 两个service事务统一_拜托,别再让我优化大事务了,我的头都裂了
  7. linux vim debugger,Vim 调试:termdebug 入门
  8. js new Date 创建时间默认是8点
  9. C语言发展历史,C语言特点,C语言利于弊,入门须知三招
  10. 项目中配置Babel转码器的详细教程
  11. On the other hand, regarding Linux Mint’s
  12. 苹果藏在 iOS 14.3 中的新算法被发现,CSAM 检测技术再遭抗议!
  13. 0基础学python要多久-零基础学习python,要多久才可以学好并且找到工作?
  14. 关于ObjectProxy
  15. 欧几里得算法求最大公约数
  16. 数据展现DataList控件(26)
  17. 西门子滚筒洗衣机教程_西门子洗衣机优缺点
  18. win 10 添加网络位置提示【输入的文件夹似乎无效,请选择另一个】解决办法
  19. 使用while循环实现xyz+yzz=532
  20. OpenGL ES 3. 天空盒 立方体贴图

热门文章

  1. php获得帮助类数据_PHP实现的一个时间帮助类
  2. Linux下scp无密码上传 下载 文件 目录的方法
  3. 2019牛客暑期多校训练营(第五场)- generator 1
  4. Java IO流(三)
  5. 人生苦短,请好好珍惜自已的身体
  6. 装载:CodePen项目网站简介(以备不时之需)
  7. [CodeForces 300D Painting Square]DP
  8. uchome后台系统配置分析
  9. Java程序练习-字符串插入
  10. Excel35招必学秘技