最近研究seo和python如何结合,参考网上的一些资料,写的这个程序。

目的:分析某个行业(例如:圆柱模板)用户最关心的一些词,根据需求去自动调整TDK,以及栏目,内容页的规划

使用方法:

1、下载安装cygwin:http://www.cygwin.com/

2、cygwin安装时别忘记安装curl,wget,iconv,lynx,dos2unix,Python等常用工具,特别是Python,这次主要就是用它了。

3、去下载jieba中文分词组件:

首选:https://github.com/fxsjy/jieba/archive/master.zip

备用:https://pypi.python.org/pypi/jieba/

4、安装jieba中文分词组件:

全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba

半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install

手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录

通过 import jieba 来引用

5、复制以下代码,另存为“jiebacmd.py”

6、新建一个文件夹,将你需要分词的文本和jiebacmd.py拷进去,记住文本需要另存为utf-8编码,然后在cygwin里用cd命令把工作目录切换进新建的文件夹,再输入以下命令:cat abc.txt|python jiebacmd.py|sort|uniq -c|sort -nr|head -100

代码:

#encoding=utf-8

#usage example (find top 100 words in abc.txt):

#用途:找出abc.txt文件中出现频率最高的前100个词

#复制以下命令到cygwin里运行,abc.txt是你文本的文件名,head -100可以自己改成想要提取的前多少个词

#cat abc.txt | python jiebacmd.py | sort | uniq -c | sort -nr -k1 | head -100

#以上都是注释,不影响程序运行

from __future__ import unicode_literals

import sys

sys.path.append("../")

reload(sys)

sys.setdefaultencoding( "utf-8" )

import jieba

default_encoding=‘utf-8‘

if len(sys.argv)>1:

default_encoding = sys.argv[1]

while True:

line = sys.stdin.readline()

if line=="":

break

line = line.strip()

for word in jieba.cut(line):

print(word)

python提取高频词_seo与python大数据结合给文本分词并提取高频词相关推荐

  1. python提取高频词_cygwin下用Python+jieba给文本分词并提取高频词

    本文信息本文由方法SEO顾问发表于2015-05-3023:05:55,共 2000 字,转载请注明:cygwin下用Python+jieba给文本分词并提取高频词_[方法SEO顾问],如果我网站的文 ...

  2. 《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf

    <Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...

  3. Python项目实战:使用PySpark对大数据进行分析

    Python项目实战:使用PySpark对大数据进行分析 大数据,顾名思义就是大量的数据,一般这些数据都是PB级以上.PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个 ...

  4. Python+Flask实现全国、全球疫情大数据可视化(二):网页页面布局+echarts可视化中国地图、世界地图、柱状图和折线图

    文章目录 相关文章 一.实现效果 二.页面布局html+css main.html main.css 三.echarts图表制作 1.全国累计趋势折线图ec_l1.js 2.全国趋势变化折线图ec_l ...

  5. 会计与python结合-财务与会计前沿讲座——“大数据集训”开讲

    原标题:财务与会计前沿讲座--"大数据集训"开讲 11月23日至24日,会计学院<财务与会计前沿讲座>系列讲座在5教301举行.本次讲座邀请到了四位大数据和人工智能专家 ...

  6. Python与R的争锋:大数据初学者该怎样选?

    在当下,人工智能的浪潮席卷而来.从AlphaGo.无人驾驶技术.人脸识别.语音对话,到商城推荐系统,金融业的风控,量化运营.用户洞察.企业征信.智能投顾等,人工智能的应用广泛渗透到各行各业,也让数据科 ...

  7. python 干什么工作具有明显优势-科多大数据告诉你Python为什么这么牛?学习python有什么优势?...

    原标题:科多大数据告诉你Python为什么这么牛?学习python有什么优势? 选择要学习的技术和选择要上的大学一样重要,如果选错了,你将来不仅得不到自己喜欢的高薪工作,反而会弄得一堆麻烦.如果你打开 ...

  8. python写spark的效率问题_“大数据架构”Spark 3.0发布,重大变化,性能提升18倍...

    我们激动地宣布,作为Databricks运行时7.0的一部分,可以在Databricks上使用Apache SparkTM 3.0.0版本.3.0.0版本包含超过3400个补丁,是开源社区做出巨大贡献 ...

  9. 复旦大学python教程_安装python-复旦大学大数据学院.pdf

    安装python-复旦大学大数据学院 复旦大学大数据学院 Introduction to Python and NLTK School of Data Science, Fudan Universit ...

最新文章

  1. 平述factory reset ——从main system到重引导流程
  2. 大数据读书笔记(2)-流式计算
  3. Leaflet中使用Leaflet.draw插件实现图形交互绘制和编辑(修改图形坐标点)
  4. Java代码性能优化技巧
  5. js与设计模式----单例
  6. 《挖财编程题》水花仙数
  7. python使用redis_python应用中使用redis的几个思考
  8. 超全Linux备份工具集合,满足你的所有需要!
  9. docker 与宿主共享文件
  10. 计算机网络优化是啥,计算机网络优化是什么意思
  11. python读音播报-用Python写一个语音播放软件
  12. linux下升级php5.4到php5.6
  13. Leetcode 558.四叉树交集
  14. 数据分析之数据可视化
  15. 怎样做产品能甩同行一个时代?李彦宏说AI思维助你降维攻击
  16. xmind 拖拽_Xmind教程:思维导图原来这么简单实用!
  17. amap不同样式marker点_高德地图markers生成和点击
  18. OTN 设备基本组成介绍
  19. 【LSSVM回归预测】基于matlab人工蜂群算法优化最小二乘支持向量机LSSVM数据回归预测【含Matlab源码 2213期】
  20. 电磁阀安装和使用事项

热门文章

  1. java列表框_Java图形用户界面之列表框
  2. RTT的IPC机制篇——信号
  3. linux查看cpu缓存大小,如何在Linux中获取CPU Cache的大小
  4. C语言课后习题(57)
  5. 案例:ORA-04031 12.1.0.2 on exadata x7
  6. 实战经验:如何定位控制文件热点块,即读取延迟高的块所在的ASM磁盘
  7. 一篇搞懂MySQL 8.0 Clone技术在线搭建主从复制全过程
  8. 下载丨OGG实战项目总结
  9. 2019年9月数据库流行度排行:MySQL 强劲增长完成深 V 反转
  10. 谈判失败:Oracle杀死Java EE