上一篇博文中实现了用ICTCLAS工具对本地txt文本文件做分词处理,并将分词结果保存到本地。

这次该把我们测试集中每一类的1000篇左右的文章全都分词并保存了,这个......应该叫做批处理吧?总感觉批处理是一个很高大上的过程,最起码得有一个专门的模块或者函数来实现,找了半天,也没找到,只能自己试着去写了.....

我们一共是9类文档,得有一个for循环来遍历这9类......

每类文档又有100篇左右的文档,然后又要一个for循环......

这就是学渣的思维吧,反正不管有多少东西我就一层一层的if...else下去...一层一层的for下去.....什么switch....什么while统统别来烦我.....

好了,贴下我当时做批处理的代码,水平实在有限,代码写得很烂,看到的同学不要笑哈,有什么好的建议欢迎留言。

if __name__ == "__main__":for j in range (1,10):for i in range (10,1000):f = open('/Users/yangshaoby/Desktop/%d/%d.txt' % (j,i), 'rb') p = f.read()print j,ifor t in Seg(p):s = '%s\t%s' % (t[0],t[1])#把一条分词结果赋给s。可以print s打印    b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a') b.write (s)b.close()b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a') b.write ('\n')b.close()

可能有些同学对Python不太熟悉,简单解释下,第二行range(1,10)就是按顺序产生1-9这九个整数啦,廖雪峰老师的教程里有详细的解释。 http://www.liaoxuefeng.com

然后open里的路径可以看出,这九类文本文件是以1-9这九个整数命名的,同样,每类里的txt文件也是由整数数字命名的。

写文件的过程就不多说了,桌面上新建一个result文件夹,里边新建9个以1-9这九个整数命名的文件夹就好。

每写入一次数据,写进去一个回车,这样保证每一行是一个词以及他的词性。

嗯嗯,这一篇就到这吧,博主由于知识实在有限,为了多凑几篇博文已经丧心病狂啦~~~~

数据挖掘 文本分类(四)批处理分词相关推荐

  1. 数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取)

    数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取) 爬虫目标 Scrapy框架介绍 Scrapy框架原理 [^1] Scrapy工作流程 [^2] 具体实现 安装Scrapy ...

  2. 北邮数据挖掘文本分类实验

    首先需要说明的是,这是北邮王晓茹老师的数据挖掘与数据仓库这门课的文本分类的实验.实验要求如下 实验一文本数据的分类与分析 [实验目的] 1.掌握数据预处理的方法,对训练集数据进行预处理: 2.掌握文本 ...

  3. ig信息增益 java_文本分类综述

    文本分类是一项系统的工程,所涉及的技术很多,按流程可以将文本分类分为:文本预处理阶段.训练阶段.分类阶段.评价四个阶段,其中预处理阶段要文本处理成计算机能识别的格式,首先对文本进行分词处理,中文文本和 ...

  4. 中文文本分类的java包_java实现中文文本分类

    基于libsvm 的中文文本分类原型支持向量机(Support Vector M... 基于SSPP-KELM多标签文本分类算法的实现_电子/电路_工程科技_专业资料.文本数据分类后,根据类标签的个数 ...

  5. 文本分类问题不需要ResNet?小夕解析DPCNN设计原理(上)

    历史回顾 回顾一下图像和文本的发展史,似乎这就是一场你追我赶的游戏.在上一阶段的斗争中,朴素贝叶斯.最大熵.条件随机场这些理论完备的统计机器学习模型使得文本分类.中文分词.NER等诸多自然语言处理问题 ...

  6. java knn文本分类算法_使用KNN算法的文本分类.PDF

    使用KNN算法的文本分类.PDF 第31 卷 第8 期 计 算 机 工 程 2005 年4 月 Vol.31 8 Computer Engineering April 2005 人工智能及识别技术 文 ...

  7. NLP学习笔记-FastText文本分类(四)

    分类的目的和分类的方法 1. 文本分类的目的 回顾之前的流程,我们可以发现文本分类的目的就是为了进行意图识别 在当前我们的项目的下,我们只有两种意图需要被识别出来,所以对应的是2分类的问题 可以想象, ...

  8. 数据挖掘思维和实战24 实践 5:使用 fatText 进行新闻文本分类

    你好,欢迎来到第 24 课时,这是我们的最后一节实践课,也是我们的数据挖掘思维与实战的最后一节正课.在这节课中,我将为你讲解数据挖掘在自然语言处理领域最典型的应用--文本分类,并带领你一步步解决文本分 ...

  9. 自然语言处理NLP之BERT、BERT是什么、智能问答、阅读理解、分词、词性标注、数据增强、文本分类、BERT的知识表示本质

    自然语言处理NLP之BERT.BERT是什么.智能问答.阅读理解.分词.词性标注.数据增强.文本分类.BERT的知识表示本质 目录

  10. 数据挖掘:基于朴素贝叶斯分类算法的文本分类实践

    前言: 如果你想对一个陌生的文本进行分类处理,例如新闻.游戏或是编程相关类别.那么贝叶斯分类算法应该正是你所要找的了.贝叶斯分类算法是统计学中的一种分类方法,它利用概率论中的贝叶斯公式进行扩展.所以, ...

最新文章

  1. Elasticsearch-6.7.0系列(六)ES设置集群密码
  2. 表单开发(二):获取单选按钮,多行文本框,下拉菜单,捆绑元素数据,用户注册
  3. hasattr判断是不是可迭代类型的方法
  4. 2_4 FacadeMode.cpp 外观模式
  5. php求链表中位数,先给伸手党的php链表遍历求和
  6. fanuc机器人刷机教程_发那科机器人的正确操作方法及步骤
  7. 手机浏览器网址_用电脑键盘给手机“隔空打字”的新招!帮你省了蓝牙键盘的钱啦...
  8. JavaScript 的call 与 apply
  9. 余额宝技术架构及演进
  10. 有一个测试微信删除软件叫wool,微信自动检测僵尸粉软件有哪些(这款软件我一直在用)...
  11. Visual SourceSafe如何支持并行开发
  12. js 中如何筛选处理符合条件的数据
  13. LeetCode #179 - Largest Number
  14. Xpoded模块开发教程
  15. HTML——表格的基本样式
  16. 中国蚁剑(antSword)加载不出来!
  17. Arduino智能小车设计(二)
  18. HTML(Basic) Chapter4(Pink) 综合案例小米商城产品模块
  19. 专业学习与职业发展之我见(二)
  20. 美图手机显示服务器异常怎么回事,美图手机的云服务器

热门文章

  1. 034-OpenCV HSV颜色识别图片
  2. Unity UGUI坐标与世界坐标转换
  3. 王者回归! Adobe Creative Cloud 打造云时代的创意体验
  4. 芯片和计算机专业的关系,cpu是芯片吗?芯片和cpu是什么关系?
  5. linux 修改文件类型
  6. BiCubic双三次插值算法进行上采样python与matlab代码实现
  7. stm32 SWD printf SWD调试输出
  8. 菲尔·席勒(Phil Schiller)卸任苹果全球营销高级副总裁,升任苹果研究员
  9. 计算机桌面不同步,电脑时间不同步怎么回事 电脑时间不能自动更新如何修复...
  10. 优化matlab运行速度的方案