python提取高频词_seo与python大数据结合给文本分词并提取高频词
最近研究seo和python如何结合,参考网上的一些资料,写的这个程序。
目的:分析某个行业(例如:圆柱模板)用户最关心的一些词,根据需求去自动调整TDK,以及栏目,内容页的规划
使用方法:
1、下载安装cygwin:http://www.cygwin.com/
2、cygwin安装时别忘记安装curl,wget,iconv,lynx,dos2unix,Python等常用工具,特别是Python,这次主要就是用它了。
3、去下载jieba中文分词组件:
首选:https://github.com/fxsjy/jieba/archive/master.zip
备用:https://pypi.python.org/pypi/jieba/
4、安装jieba中文分词组件:
全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba
半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
通过 import jieba 来引用
5、复制以下代码,另存为“jiebacmd.py”
6、新建一个文件夹,将你需要分词的文本和jiebacmd.py拷进去,记住文本需要另存为utf-8编码,然后在cygwin里用cd命令把工作目录切换进新建的文件夹,再输入以下命令:cat abc.txt|python jiebacmd.py|sort|uniq -c|sort -nr|head -100
代码:
#encoding=utf-8
#usage example (find top 100 words in abc.txt):
#用途:找出abc.txt文件中出现频率最高的前100个词
#复制以下命令到cygwin里运行,abc.txt是你文本的文件名,head -100可以自己改成想要提取的前多少个词
#cat abc.txt | python jiebacmd.py | sort | uniq -c | sort -nr -k1 | head -100
#以上都是注释,不影响程序运行
from __future__ import unicode_literals
import sys
sys.path.append("../")
reload(sys)
sys.setdefaultencoding( "utf-8" )
import jieba
default_encoding=‘utf-8‘
if len(sys.argv)>1:
default_encoding = sys.argv[1]
while True:
line = sys.stdin.readline()
if line=="":
break
line = line.strip()
for word in jieba.cut(line):
print(word)
python提取高频词_seo与python大数据结合给文本分词并提取高频词相关推荐
- python提取高频词_cygwin下用Python+jieba给文本分词并提取高频词
本文信息本文由方法SEO顾问发表于2015-05-3023:05:55,共 2000 字,转载请注明:cygwin下用Python+jieba给文本分词并提取高频词_[方法SEO顾问],如果我网站的文 ...
- 《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf
<Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...
- Python项目实战:使用PySpark对大数据进行分析
Python项目实战:使用PySpark对大数据进行分析 大数据,顾名思义就是大量的数据,一般这些数据都是PB级以上.PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个 ...
- Python+Flask实现全国、全球疫情大数据可视化(二):网页页面布局+echarts可视化中国地图、世界地图、柱状图和折线图
文章目录 相关文章 一.实现效果 二.页面布局html+css main.html main.css 三.echarts图表制作 1.全国累计趋势折线图ec_l1.js 2.全国趋势变化折线图ec_l ...
- 会计与python结合-财务与会计前沿讲座——“大数据集训”开讲
原标题:财务与会计前沿讲座--"大数据集训"开讲 11月23日至24日,会计学院<财务与会计前沿讲座>系列讲座在5教301举行.本次讲座邀请到了四位大数据和人工智能专家 ...
- Python与R的争锋:大数据初学者该怎样选?
在当下,人工智能的浪潮席卷而来.从AlphaGo.无人驾驶技术.人脸识别.语音对话,到商城推荐系统,金融业的风控,量化运营.用户洞察.企业征信.智能投顾等,人工智能的应用广泛渗透到各行各业,也让数据科 ...
- python 干什么工作具有明显优势-科多大数据告诉你Python为什么这么牛?学习python有什么优势?...
原标题:科多大数据告诉你Python为什么这么牛?学习python有什么优势? 选择要学习的技术和选择要上的大学一样重要,如果选错了,你将来不仅得不到自己喜欢的高薪工作,反而会弄得一堆麻烦.如果你打开 ...
- python写spark的效率问题_“大数据架构”Spark 3.0发布,重大变化,性能提升18倍...
我们激动地宣布,作为Databricks运行时7.0的一部分,可以在Databricks上使用Apache SparkTM 3.0.0版本.3.0.0版本包含超过3400个补丁,是开源社区做出巨大贡献 ...
- 复旦大学python教程_安装python-复旦大学大数据学院.pdf
安装python-复旦大学大数据学院 复旦大学大数据学院 Introduction to Python and NLTK School of Data Science, Fudan Universit ...
最新文章
- 平述factory reset	——从main system到重引导流程
- 大数据读书笔记(2)-流式计算
- Leaflet中使用Leaflet.draw插件实现图形交互绘制和编辑(修改图形坐标点)
- Java代码性能优化技巧
- js与设计模式----单例
- 《挖财编程题》水花仙数
- python使用redis_python应用中使用redis的几个思考
- 超全Linux备份工具集合,满足你的所有需要!
- docker 与宿主共享文件
- 计算机网络优化是啥,计算机网络优化是什么意思
- python读音播报-用Python写一个语音播放软件
- linux下升级php5.4到php5.6
- Leetcode 558.四叉树交集
- 数据分析之数据可视化
- 怎样做产品能甩同行一个时代?李彦宏说AI思维助你降维攻击
- xmind 拖拽_Xmind教程:思维导图原来这么简单实用!
- amap不同样式marker点_高德地图markers生成和点击
- OTN 设备基本组成介绍
- 【LSSVM回归预测】基于matlab人工蜂群算法优化最小二乘支持向量机LSSVM数据回归预测【含Matlab源码 2213期】
- 电磁阀安装和使用事项
热门文章
- java列表框_Java图形用户界面之列表框
- RTT的IPC机制篇——信号
- linux查看cpu缓存大小,如何在Linux中获取CPU Cache的大小
- C语言课后习题(57)
- 案例:ORA-04031 12.1.0.2 on exadata x7
- 实战经验:如何定位控制文件热点块,即读取延迟高的块所在的ASM磁盘
- 一篇搞懂MySQL 8.0 Clone技术在线搭建主从复制全过程
- 下载丨OGG实战项目总结
- 2019年9月数据库流行度排行:MySQL 强劲增长完成深 V 反转
- 谈判失败:Oracle杀死Java EE