数据挖掘 文本分类(二)搜集中文语料库与ICTCLAS分词
在上一篇博客中简单介绍了实验环境和流程,这一篇我们继续。
第一步,下载搜狗中文语料库。链接:http://www.sogou.com/labs/dl/c.html
我们下载24M大小的精简版(tar.gz格式)
下载完了,解压缩,放到做本次实验的目录里存好。(这不废话嘛!)
打开语料库看下,它一共是9类,每类由编号为10到1999大约1900篇txt文件构成。
手动将每一类的1900篇文章分开,分成两份,一份存为训练集,一份存为测试集。
我们点击上图中的分类编码对照表(txt格式)可以看每一类对应的中文分类。
第二步就是下载中科院张华平博士的汉语词法分析系统ICTCLAS了。链接:http://ictclas.nlpir.org/downloads
我们打开下载包,进入这个路径:20140926175340_ICTCLAS2014\ICTCLAS2014\sample\pythonsample
这时pythonsample目录下是这样的:
根据readme提示将data文件夹拷到pythonsample目录下:
然后我们就可以将pythonsample文件夹整个拷到我们做这个实验的目录中了。
第三步,尝试分词。
我们用python自带的IDLE打开pythonsample中的nipir.py文件。安装python环境参考廖雪峰老师的网站:http://www.liaoxuefeng.com
打开以后,发现示例文件的最下方分词举例是这样的:
也就是说,示例分词是要把"Big News: @解放日报 [最右]【呼市铁路局原副局长被判死缓 最头痛藏钱】2013年12月底,呼市铁路局原副局长马俊飞..."这段话做分词。我们跑下试试,看看分词效果。
调出命令行界面,进入pythonsample文件夹,运行nlpir.py。(我的pythonsample文件夹就在桌面上)。如图:
第一次尝试运行的时候,可能会报操作系统位数不匹配的错,如下:
我们大概知道,肯定是操作系统位数的问题,常用的windows系统就是32位或者64位,我们根据提示去看看nlpir.py文件第14行:
第14行是把libFile 指向nipir目录下的NLPIR64.dll,我们打开nlpir目录,发现里边既有NLPIR64.dll又有NLPIR32.dll。这样我们只需把第14行的64改为32,然后跑跑试试。
分词成功了,但是输出结果是乱码。python的编码问题困扰了很多人哈,因为我也是初学,对编码理解的也不深,不过这个问题我们可以先解决,编码问题以后有时间再深入研究。
解决办法:将下面两行代码贴到nlpir.py文件顶端。
import sys
type = sys.getfilesystemencoding()然后在文件最下方将print (s)改为print s.decode('utf-8').encode(type),如图:
然后,我们在去尝试运行nlpir.py。
OK! 成功啦!很开心有木有!!
数据挖掘 文本分类(二)搜集中文语料库与ICTCLAS分词相关推荐
- 数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取)
数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取) 爬虫目标 Scrapy框架介绍 Scrapy框架原理 [^1] Scrapy工作流程 [^2] 具体实现 安装Scrapy ...
- 文本分类(二) | (1) 项目介绍
完整项目 文本分类(二)专栏主要是对Github优秀文本分类项目的解析,该文本分类项目,主要基于深度学习模型,包括TextCNN.TextRNN.FastText.TextRCNN.BiLSTM_At ...
- 北邮数据挖掘文本分类实验
首先需要说明的是,这是北邮王晓茹老师的数据挖掘与数据仓库这门课的文本分类的实验.实验要求如下 实验一文本数据的分类与分析 [实验目的] 1.掌握数据预处理的方法,对训练集数据进行预处理: 2.掌握文本 ...
- 文本分类(二) | (2) 程序入口
完整项目 run.py是整个项目的入口,它包含两部分,一是使用argparse工具,配置相关参数:二是整个项目的流程框架,各个模块/函数的调用. 目录 1. 参数配置 2. 项目流程 1. 参数配置 ...
- java knn文本分类算法_使用KNN算法的文本分类.PDF
使用KNN算法的文本分类.PDF 第31 卷 第8 期 计 算 机 工 程 2005 年4 月 Vol.31 8 Computer Engineering April 2005 人工智能及识别技术 文 ...
- 中文文本分类的java包_java实现中文文本分类
基于libsvm 的中文文本分类原型支持向量机(Support Vector M... 基于SSPP-KELM多标签文本分类算法的实现_电子/电路_工程科技_专业资料.文本数据分类后,根据类标签的个数 ...
- 零基础入门天池NLP赛事之——新闻文本分类(5)
基于深度学习的文本分类 一.学习目标: 学习Word2Vec的使用和基础原理 学习使用TextCNN.TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 二.文本表示方法 Part3: 词 ...
- 文本分类step by step(二)
(注:如有转载请标明作者:finallyliuyu, 和出处:博客园) <文本分类 step by step(一)> 在<文本分类step by step(一)>中,我们从处理 ...
- python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析
#2018-04-06 13:52:30 April Friday the 14 week, the 096 day SZ SSMR python数据挖掘课程]二十一.朴素贝叶斯分类器详解及中文文本舆 ...
- 数据挖掘思维和实战24 实践 5:使用 fatText 进行新闻文本分类
你好,欢迎来到第 24 课时,这是我们的最后一节实践课,也是我们的数据挖掘思维与实战的最后一节正课.在这节课中,我将为你讲解数据挖掘在自然语言处理领域最典型的应用--文本分类,并带领你一步步解决文本分 ...
最新文章
- LeetCode简单题之键盘行
- Makefile的语法
- JAVA NIO之Direct Buffer 与 Heap Buffer的区别?
- LAMP:用yum安装
- Tomcat中的线程池(APR和ThreadPool)
- atitit.Sealink2000国际海运信息管理系统
- 创建集群版的Eureka注册中心
- Storm概念学习系列之并行度与如何提高storm的并行度
- puppet学习—默认WEBRick安装DashBoard
- PaddleOCR实现高精度车牌识别
- 编程数学读书笔记 -- 第二章逻辑
- 文本关键词的提取算法实验
- 苹果可以访问linux的smb,Samba For iOS让iPhone使用网上邻居使用体验教程
- 激光投影仪哪款好?坚果N1 Pro和海信Vidda C1和当贝X3测评
- 插值算法之:拉格朗日插值
- MySQL基本操作,个人总结。(WampServer小补充)
- CSS属性 – text-decoration(常用)
- 程序员如何提高自己的编程水平?
- java lea 是谁,LEA指令的目的是什么?
- 2019-2020“一带一路”国际滑雪系列赛-高山滑雪远东杯|滑雪计时设备|滑雪比赛计时