这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加:
1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
非常全的网址,讲了各个库,还有github代码地址
2.http://blog.csdn.net/abcjennifer/article/details/23615947
Rachel Zhang的文章,运用的各种算法,可以测出准确率
3.http://www.ibm.com/developerworks/cn/data/library/bd-natural-language/
利用python、scikit和文本分析来实现行为分析
4.http://developer.51cto.com/art/201507/485276.htm
一个完整的介绍分词,从导入数据集到最后结果
5.http://www.tuicool.com/articles/U3uiiu
一个简单的例子,jieba分词
6.http://scikit-learn.org/stable/modules/feature_extraction.html
官网上对文本分析的介绍
7.http://ju.outofmemory.cn/entry/74958
scikit文本特征提取
8.http://blog.csdn.net/lsldd/article/details/41520953
一个博主写的,简单的分词
9.http://zhuanlan.zhihu.com/textmining-experience/19630762
知乎上的文本分析专栏
10.http://www.clips.ua.ac.be/pages/pattern-en#sentiment
pattern包得用法

【原】python中文文本挖掘资料集合相关推荐

  1. python的中文文本挖掘库snownlp进行购物评论文本情感分析实例

    昨晚上发现了snownlp这个库,很开心.先说说我开心的原因.我本科毕业设计做的是文本挖掘,用R语言做的,发现R语言对文本处理特别不友好,没有很多强大的库,特别是针对中文文本的,加上那时候还没有学机器 ...

  2. Python数据挖掘-NLTK文本分析+jieba中文文本挖掘

    一.NLTK介绍及安装 (注:更多资源及软件请W信关注"学娱汇聚门") 1.1 NLTK安装 NLTK的全称是natural language toolkit,是一套基于pytho ...

  3. python统计出现的中文标点_Python处理中文标点符号大集合

    中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏.以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: !?。"#$%& ...

  4. python替换所有标点符号 正则_Python处理中文标点符号大集合

    中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏.以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: !?。"#$%& ...

  5. python标点符号分中英文嘛_Python处理中文标点符号大集合

    中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏.以下为在下处理中文标点的时候使用的两种方法: 中文标点集合 比较常见标点有这些: !?。"#$%& ...

  6. python html 制作pdf,python将html转成PDF的实现代码(包含中文) -电脑资料

    前提: 安 html2pdf https://pypi.python.org/pypi/xhtml2pdf/ 下载字体:微软雅黑:给个地址:http://www.jb51.net/fonts/8481 ...

  7. Python机器学习入门资料整理

    在python基本语法入门之后,就要准备选一个研究方向了.Web是自己比较感兴趣的方向,可是,导师这边的数据处理肯定不能由我做主了.paper.peper.paper--真的挺愁人的 还有几个月就要进 ...

  8. 中文文本挖掘预处理流程总结

    在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结. 1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理 ...

  9. Python做文本挖掘的情感极性分析

    Python做文本挖掘的情感极性分析 数据挖掘入门与实战2017-03-23 21:25:41line阅读(27)评论(0) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本 ...

最新文章

  1. python中idx是什么意思_在python中滚动idxmax()?
  2. 可扩展性的builder模式的构建方法
  3. php基础知识手册,PHP基础知识(三)
  4. oracle 11g如何完全卸载
  5. HBase性能优化方法总结(一):表的设计
  6. Message popover
  7. 如何解决sqlserver 2005 备份的时候无法选择除系统盘外的其他盘符?
  8. C# WebBrowser准确判断网页最终装载完毕
  9. ai驱动数据安全治理_利用AI驱动的自动协调器实时停止有毒信息
  10. 《数字图像处理与机器视觉——Visual C++与Matlab实现》——0.1 数字图像
  11. 总结——达内视频(二)
  12. Putty和Psftp管理linux主机
  13. 将swf转成html5代码,一键把swf转为html5 canvas动画 Fanvas
  14. 测试用例的设计方法:等价类划分法
  15. Jprofiler激活码
  16. 什么是UV贴图和展开?游戏建模纯干货,UV的详细解释,不懂得赶紧看过来!
  17. 通达信缠论顶底分型选股公式(一笔优化版)
  18. Visual Studio Code插件
  19. 计算机基础(笔记)——计算机网络(链路层)
  20. Redis 一篇足以

热门文章

  1. 什么是区块链预言机(BlockChain Oracle)
  2. 复杂性思维中文第二版 附录 A、算法分析
  3. 一个在线编写前端代码的好玩的工具
  4. xtrabackup备份mysql“ib_logfile0 is of different”错误分析
  5. TODO-MVP-Loaders源码体验
  6. restful-api-design-references
  7. LoadRunner中进程运行和线程运行区别
  8. 游国色天香中国馆有感
  9. 关于Linux fontconfig 字体库的坑
  10. osi参考模型(开放系统互连参考模型)