绪论

最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像。这一切的基础就是特征词提取技术了,本文主要围绕关键词提取这个主题进行介绍(英文)。

不同版本python混用(官方用法)

Python2 和python3 是一个神一般的存在,如何让他们共存呢,直到我用了pycharm我才知道为啥这么多人选择它,如下图所示配置两个目录直接可以混用了,叼炸天。

插播一个广告,想修改pycharm中python注释的颜色找了半天居然得这么搞:

当大家搜索如何在系统中混合使用python2和python3,国内网站经常会让大家把其中一个python.exe改个名字,这样区分开两个可执行文件的名字,但是这样做有一个重大的隐患,就是修改了名字的那个python对应的pip将无法使用。有时候还是需要用用命令行的,怎么办?

官方用法为:

在安装Python3(>=3.3)时,Python的安装包实际上在系统中安装了一个启动器py.exe,默认放置在文件夹C:\Windows\下面。这个启动器允许我们指定使用Python2还是Python3来运行代码(当然前提是你已经成功安装了Python2和Python3)。

如果你有一个Python文件叫 hello.py,那么你可以这样用Python2运行它

py -2 hello.py

类似的,如果你想用Python3运行它,就这样

py -3 hello.py

去掉参数 -2/-3

每次运行都要加入参数-2/-3还是比较麻烦,所以py.exe这个启动器允许你在代码中加入说明,表明这个文件应该是由python2解释运行,还是由python3解释运行。说明的方法是在代码文件的最开始加入一行

#! python2

或者

#! python3

分别表示该代码文件使用Python2或者Python3解释运行。这样,运行的时候你的命令就可以简化为

py hello.py

使用pip

当Python2和Python3同时存在于windows上时,它们对应的pip都叫pip.exe,所以不能够直接使用 pip install 命令来安装软件包。而是要使用启动器py.exe来指定pip的版本。命令如下:

py -2 -m pip install XXXX

-2 还是表示使用 Python2,-m pip 表示运行 pip 模块,也就是运行pip命令了。如果是为Python3安装软件,那么命令类似的变成

py -3 -m pip install XXXX

#! python2 和 # coding: utf-8 哪个写在前面?

对于Python2用户还有另外一个困惑,Python2要在代码文件顶部增加一行说明,才能够在代码中使用中文。如果指明使用的Python版本也需要在文件顶部增加一行,那哪一行应该放在第一行呢?

#! python2 需要放在第一行,编码说明可以放在第二行。所以文件开头应该类似于:

#!python2

# coding: utf-8

有了这些技巧,Python2和Python3就可以愉快地在一起玩耍了~

Python标准:https://www.python.org/dev/peps/pep-0397/

信息检索概述

信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配度 relevance (q, d)排序的相关文档列表D。

对于这一基问题,先后出现了布尔模型、向量模型等各种经典的信息检索模型,它们从不同的角度提出了自己的一套解决方案。

布尔模型以集合的布尔运算为基础,查询效率高,但模型过于简单,无法有效地对不同文档进行排序,查询效果不佳。

向量模型把文档和查询串都视为词所构成的多维向量,而文档与查询的相关性即对应于向量间的夹角。不过,由于通常词的数量巨大,向量维度非常高,而大量的维度都是0,计算向量夹角的效果并不好。另外,庞大的计算量也使得向量模型几乎不具有在互联网搜索引擎这样海量数据集上实施的可行性。

TF-IDF原理概述

如何衡量一个特征词在文本中的代表性呢?以往就是通过词出现的频率,简单统计一下,从高到低,结果发现了一堆的地得,和英文的介词in of with等等,于是TF-IDF应运而生。

TF-IDF不但考虑了一个词出现的频率TF,也考虑了这个词在其他文档中不出现的逆频率IDF,很好的表现出了特征词的区分度,是信息检索领域中广泛使用的一种检索方法。

Tf-idf算法公式以及说明:

具体实现如下所示,公式分成两项,词频*逆词频,逆词频取log值。

注意分母中的+1,在很多文献中并没有出现,这个可能引发异常。

本人写了一份代码近期正在修改,后续传到github 上,再贴出来。文章末尾贴出了两份我认为比较好的代码,一份是面向对象的实现一份是分布式的。

tfidf源代码实现及相关博客资料:

python scikit-learn计算tf-idf词语权重(scikit-learn包中提供了tfidf的矩阵实现,缺点是词数量过大可能溢出)

http://www.tuicool.com/articles/U3uiiu

参考文献

github代码:

python短文本数据集的关联性_短文本分析----基于python的TF-IDF特征词标签自动化提取...相关推荐

  1. python文献检索工具与技巧答案_短文本分析----基于python的TF-IDF特征词标签自动化提取...

    绪论 最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术.我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像.这一切的基础就是 ...

  2. 短文本分析----基于python的TF-IDF特征词标签自动化提取

    绪论 最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术.我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像.这一切的基础就是 ...

  3. python微信库wxpy无法登录_使用wxpy这个基于python实现的微信工具库的一些常见问题...

    使用如下的命令行安装: pip install wxpy Collecting wxpy Downloading https://files.pythonhosted.org/packages/6b/ ...

  4. python selenium 下拉框选择_【selenium】基于python语言,如何用select选择下拉框

    在项目测试中遇到了下拉框选择的控件,来总结下如何使用select选择下拉框: 下图是Select类的初始化描述,意思是,给定元素是得是select类型,不是就抛异常.接下来给了例子:要操作这个sele ...

  5. python能干啥是什么意思_这年头不懂点Python都不好意思说是码农 神奇的Python都能干啥...

    原标题:这年头不懂点Python都不好意思说是码农 神奇的Python都能干啥 如果你在周末.有WIFI的房间里不知道做什么,不如学下Python吧.有了它,你可以什么都不需要! 基础需求篇 温饱与空 ...

  6. python导入数据画柱状图代码_在Linux下使用Python的matplotlib绘制数据图的教程

    如果你想要在Linxu中获得一个高效.自动化.高质量的科学画图的解决方案,应该考虑尝试下matplotlib库.Matplotlib是基于python的开源科学测绘包,基于python软件基金会许可证 ...

  7. python泰坦尼克号生存预测论文_泰坦尼克号生存率预测(基于Python)

    背景:泰坦尼克号(RMS Titanic)是英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年3月31日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造.她是当时世界上体积最庞大.内部设施最豪华 ...

  8. python网上有免费资源吗_【转载】学习Python无从下手?最好的免费资源想要拿走...

    Python 可以用来做什么? 在我看来,基本上可以不负责任地认为,Python 可以做任何事情.无论是从入门级选手到专业级选手都在做的爬虫,还是Web 程序开发.桌面程序开发还是科学计算.图像处理, ...

  9. python的gui库哪个好_常用的13 个Python开发者必备的Python GUI库

    [Python](http://www.blog2019.net/tag/Python?tagId=4)是一种高级编程语言,它用于通用编程,由Guido van Rossum 在1991年首次发布.P ...

  10. python源代码最多的学习网站_史上最全Python学习资料大合集分享

    Python有多火就不用说了,之前也零散地分享过一些Python学习开发资料. 本次将分享Python学习资料合集.合集哦,你品,你细品! 在分享之前,还是要啰嗦一下,不然文章字数太少,不太好看. P ...

最新文章

  1. Redis 通用 key 命令
  2. (多图) 基于FPGA的FIR数字滤波器设计与仿真
  3. 在c语言中函数的定义变量的值为,变量定义(C语言中变量的声明和定义)
  4. python找不到csv文件_Python如何读取csv文件
  5. 视频会议应用空间广阔 未来“上云”将成趋势
  6. 汇编语言:实现大小写字母转换
  7. 事务并发、事务隔离级别
  8. 小米屏下摄像头专利曝光!或为小米mix4准备?
  9. java抽象机制_Java很好学:接口+抽象类+事件监听机制
  10. get请求中传json参数报400的错误_react的数据请求
  11. weka安装需要java不_如何下载安装Weka机器学习工作平台
  12. 大厂Android相关岗位校招职位要求汇总
  13. java base64 加号_Base64 空格,加号问题
  14. 【SQL注入技巧拓展】————13、我的WafBypass之道(SQL注入篇)
  15. 关于做项目中关于文件读取遇到的一个问题(0x80070299)
  16. Linux的网卡配置 vi /etc/sysconfig/network-scripts/ifcfg-ens33
  17. 短信验证码和发送短信按钮没有反应
  18. 我,94年山西人,矿山地质专业,自学软件当程序员,加班到窒息
  19. 后台数据库取值 轮播图
  20. 通达信行情接口源代码是什么?

热门文章

  1. 第一次写前后端分离项目的经验总结
  2. 2022内蒙古最新建筑施工电工(建筑特种作业)模拟考试试题及答案
  3. SQL Server 分组排序
  4. 更多:Racket系统编程
  5. c语言三角函数例题,三角函数的诱导公式习题及答案解析.doc
  6. CSDN中用Markdown如何给文本加下划线(可延长下划线)
  7. 数据结构PTA 案例6-1.3 哥尼斯堡的“七桥问题”
  8. 什么是Service(服务)?
  9. 路由变化时使用axios取消所有请求
  10. postman 解决Could not send request