绪论

最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像。这一切的基础就是特征词提取技术了,本文主要围绕关键词提取这个主题进行介绍(英文)。

不同版本python混用(官方用法)

Python2 和python3 是一个神一般的存在,如何让他们共存呢,直到我用了pycharm我才知道为啥这么多人选择它,如下图所示配置两个目录直接可以混用了,叼炸天。

插播一个广告,想修改pycharm中python注释的颜色找了半天居然得这么搞:

当大家搜索如何在系统中混合使用python2和python3,国内网站经常会让大家把其中一个python.exe改个名字,这样区分开两个可执行文件的名字,但是这样做有一个重大的隐患,就是修改了名字的那个python对应的pip将无法使用。有时候还是需要用用命令行的,怎么办?

  • 官方用法为:
      在安装Python3(>=3.3)时,Python的安装包实际上在系统中安装了一个启动器py.exe,默认放置在文件夹C:\Windows\下面。这个启动器允许我们指定使用Python2还是Python3来运行代码(当然前提是你已经成功安装了Python2和Python3)。
      
      如果你有一个Python文件叫 hello.py,那么你可以这样用Python2运行它
      

    py -2 hello.py

      类似的,如果你想用Python3运行它,就这样

    py -3 hello.py

      去掉参数 -2/-3
      
      每次运行都要加入参数-2/-3还是比较麻烦,所以py.exe这个启动器允许你在代码中加入说明,表明这个文件应该是由python2解释运行,还是由python3解释运行。说明的方法是在代码文件的最开始加入一行
      

    #! python2

    或者

    #! python3

      分别表示该代码文件使用Python2或者Python3解释运行。这样,运行的时候你的命令就可以简化为
      

    py hello.py

  • 使用pip
      
      当Python2和Python3同时存在于windows上时,它们对应的pip都叫pip.exe,所以不能够直接使用 pip install 命令来安装软件包。而是要使用启动器py.exe来指定pip的版本。命令如下:
      

    py -2 -m pip install XXXX

      -2 还是表示使用 Python2,-m pip 表示运行 pip 模块,也就是运行pip命令了。如果是为Python3安装软件,那么命令类似的变成
      

    py -3 -m pip install XXXX
      

  • #! python2 和 # coding: utf-8 哪个写在前面?

      对于Python2用户还有另外一个困惑,Python2要在代码文件顶部增加一行说明,才能够在代码中使用中文。如果指明使用的Python版本也需要在文件顶部增加一行,那哪一行应该放在第一行呢?
      
      #! python2 需要放在第一行,编码说明可以放在第二行。所以文件开头应该类似于:
      

    #!python2
    # coding: utf-8

      有了这些技巧,Python2和Python3就可以愉快地在一起玩耍了~
      
      Python标准:https://www.python.org/dev/peps/pep-0397/

信息检索概述

信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配度 relevance (q, d)排序的相关文档列表D。

对于这一基问题,先后出现了布尔模型、向量模型等各种经典的信息检索模型,它们从不同的角度提出了自己的一套解决方案。

布尔模型以集合的布尔运算为基础,查询效率高,但模型过于简单,无法有效地对不同文档进行排序,查询效果不佳。

向量模型把文档和查询串都视为词所构成的多维向量,而文档与查询的相关性即对应于向量间的夹角。不过,由于通常词的数量巨大,向量维度非常高,而大量的维度都是0,计算向量夹角的效果并不好。另外,庞大的计算量也使得向量模型几乎不具有在互联网搜索引擎这样海量数据集上实施的可行性。

TF-IDF原理概述

如何衡量一个特征词在文本中的代表性呢?以往就是通过词出现的频率,简单统计一下,从高到低,结果发现了一堆的地得,和英文的介词in of with等等,于是TF-IDF应运而生。

TF-IDF不但考虑了一个词出现的频率TF,也考虑了这个词在其他文档中不出现的逆频率IDF,很好的表现出了特征词的区分度,是信息检索领域中广泛使用的一种检索方法。

Tf-idf算法公式以及说明:

具体实现如下所示,公式分成两项,词频*逆词频,逆词频取log值。


注意分母中的+1,在很多文献中并没有出现,这个可能引发异常。

本人写了一份代码近期正在修改,后续传到github 上,再贴出来。文章末尾贴出了两份我认为比较好的代码,一份是面向对象的实现一份是分布式的。

tfidf源代码实现及相关博客资料:

python scikit-learn计算tf-idf词语权重(scikit-learn包中提供了tfidf的矩阵实现,缺点是词数量过大可能溢出)
http://www.tuicool.com/articles/U3uiiu

http://www.cnblogs.com/chenbjin/p/3851165.html
http://blog.csdn.net/liuxuejiang158blog/article/details/31360765?utm_source=tuicool&utm_medium=referral
http://blog.csdn.net/lsldd/article/details/41520953
http://blog.csdn.net/zhb_bupt/article/details/40985831
http://www.tuicool.com/articles/feIji2

参考文献

  1. http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
  2. https://news.cnblogs.com/n/161240/ (tf-idf的概率解释)
  3. https://www.python.org/dev/peps/pep-0397/ (python不同版本共存官方文档)
  4. http://mt.sohu.com/20160416/n444499895.shtml (python版本混用中文翻译)

github代码:

https://github.com/mirsamantajbakhsh/TFIDF
https://github.com/laertispappas/mapreduce_python
(分布式版本)

转载于:https://www.cnblogs.com/wuyida/p/6301236.html

短文本分析----基于python的TF-IDF特征词标签自动化提取相关推荐

  1. python文献检索工具与技巧答案_短文本分析----基于python的TF-IDF特征词标签自动化提取...

    绪论 最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术.我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像.这一切的基础就是 ...

  2. python工业自动化仿真_ABAQUS 中基于 Python 脚本语言开发实现仿真自动化操作

    进行 ABAQUS 开发编程前,首先需要明白 ABAQUS 有限元分析思路和基本流程,以及 Python 基本语法和面向对象编程有基本的认识,下面是 Python 和 ABAQUS 的开发模板: # ...

  3. 源程序的相似性分析 —— 基于Python实现哈希表

    一.问题描述 对于两个C++语言的源程序代码,用哈希表的方法分别统计两个程序中使用C++语言关键字的情况,并最终按定量的计算结果,得出两份程序的相似性. 二.需求分析 建立C++语言关键字的哈希表,统 ...

  4. 词云分析——基于Python对天猫商品评论进行词云分析

    文章目录 0 引言 1 准备工作 2 主程序 3 分析与改进 4 可能出现的报错及解决方案 0 引言 什么是词云分析? 词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视 ...

  5. Sen+MK长时间序列趋势性分析----基于python的代码实现

    sen+mk python实现代码免费共享-----赶紧收藏吧 python开源社区公布了进行sen+mk趋势性检验的官方包,有关该官方包的主要内容详见:https://github.com/Code ...

  6. 生日悖论分析基于python

    题目:生日悖论指如果一个房间里有23人或以上,那么至少有两个人生日相同的概率大于50%.编写程序,输出在不同随机样本数量下,23个人中至少有两个人生日相同的概率. 基本思想:首先建立一个列表,遍历一年 ...

  7. python评论情感分析毕业设计_使用文本挖掘技术进行小说《圣墟》评论的情感分析——基于python...

    反正我已经准备好节后吃土了

  8. python用find爬虫提取img下的src属性_基于 Python 的 Scrapy 爬虫入门:页面提取

    目录 下面创建一个爬虫项目,以图虫网为例抓取图片. 一.内容分析 打开 图虫网,顶部菜单"发现" "标签"里面是对各种图片的分类,点击一个标签,比如" ...

  9. 基于python网络爬虫的个性化音乐播放器

    前言 当前很多人在闲暇时喜欢听音乐,那么基于这种现象,我也是肝了几个小时完成了基于python的个性化音乐播放器,现在分享给你们. 开发组件 python3.5 以上版本就行 tkinter (pyt ...

最新文章

  1. 微信小程序tabBar
  2. 【PHPExcel】数学公式
  3. UVA10534-----Wavio Sequence-----动态规划之LIS
  4. 【刷题记录】杂题记录
  5. ArrayList初步
  6. 《Go语言圣经》学习笔记 第五章函数
  7. 图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建
  8. 视频: 电子制作基本知识
  9. 微服务实现不同登陆_微服务网关——实现篇
  10. java枚举的线程安全及序列化
  11. VOSviewer:高频关键字段共现网络制作入门教程(以PubMed数据为例)
  12. 金蝶盘点机金蝶条码管理方案实施金蝶仓库条码管理实现方法
  13. c语言判断按下键盘,找出键盘上当前按下的键
  14. Postgresql Bloom索引
  15. 小林和腾讯不得不说的故事(完整篇)
  16. Win10 全屏截图快捷键
  17. 文献检索--系统综述与meta分析
  18. 3 非齐次线性微分方程与无量纲化
  19. [SIGMOD 2022]DMCS Density Modularity based Community Search
  20. python socket connect 阻塞_python 网络编程(socketserver,阻塞,其他方法)

热门文章

  1. kafka架构:分区机制详解
  2. Python Django 一对一多表设计数据保存
  3. IDEA的GsonFormat插件--将json字符串直接实例化成类
  4. Hibernate执行原理总结
  5. IDEA中查看SVN项目历史版本更新信息
  6. 解决IDEA项目中文件夹层级显示(小数点形式与文件夹层级形式)
  7. java《算法》第四版一些API方法笔记
  8. Git 之一 起源、安装、配置
  9. python模块搜索原则_详解python模块路径查找规则及定义
  10. cmake / CMAKE _ * _ OUTPUT_DIRECTORY 说明