2 使用说明

本语料采用词频矩阵的方式给出,其格式采用Han[1-2]定义的格式,Han数据格式包括三个文件,即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料,本人对它进行了扩充,增加了一个文件,x.mat.hlabel。这样就能描述多层语料,并能兼容单层语料。

x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档,具体格式为:词 词频,…,词 词频;x.mat.rlabel是类别文件,每行一个类别名,对应x.mat中每篇文档的类别,对多层而言,它表示文档的叶子节点类别;x.mat.clabel是词名,也就是字典。字典中每个词语的编号等于它所在行的行号;x.mat.hlabel描述每个类别的层次关系。

预处理采用分词工具ICTCLAS[3]对文档进行分词,并去掉数字与标点符号。

本人欢迎各位业界同行使用本分类语料,并希望用如下方式加以引用:

[1] 谭松波,王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面网址.

本语料可以作为三个分类语料集使用:

TanCorp-12:单层语料

TanCorp-60:单层语料

TanCorpHier:两层语料

特别声明:本语料仅作学术研究之用,不可用于任何商业用途!

若您有任何问题或建议,请直接跟我联系。

3 算法评测

为了验证语料的有效性,我们采用五种经典的文本分类算法进行评测,即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow;贝叶斯采用多项式模型;SVMTorch采用线性核函数。所有实验都采用三分交叉验证,即把数据集随机划分成三份,每次取其中两份进行训练,一份进行测试,然后把三次分类结果的平均结果作为最终结果。

实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点,这主要是因为TanCorp-60样本分布的严重不均衡性。

表2: 五种分类算法在TanCorp上的最好微平均比较

中心法

最近邻

Winnow

贝叶斯

SVMTorch

TanCorp-12

0.9053

0.9035

0.8645

0.9157

0.9483

TanCorp-60

0.8057

0.7847

0.7176

0.8069

0.7782

表3: 五种分类算法在TanCorp上的最好宏平均比较

中心法

最近邻

Winnow

贝叶斯

SVMTorch

TanCorp-12

0.8632

0.8478

0.7587

0.8688

0.9172

TanCorp-60

0.7562

0.7001

0.6684

0.7025

0.7493

matlab 文本分类,中文文本分类语料库-TanCorpV1.0相关推荐

  1. 中文文本分类语料库-TanCorpV1.0

    转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml 中文文本分类语料库-TanCorpV1.0 谭松波,王月粉 1 ...

  2. 电商评论文本情感分类(中文文本分类)(第二部分-Bert)

    电商评论文本情感分类(中文文本分类) 第二部分-Bert部分 第一部分:textcnn部分 本项目包含: 1.中文文本处理 2.中文词云图绘制(在第一部分) 3.中文词嵌入 4.基于textcnn的中 ...

  3. 基于word2vec+TextCNN 实现中文文本分类

    基于word2vec+TextCNN 作文本分类 一. 准备工作: 环境:python3.7+torch+GPU 数据集:网上下载的4分类中文文本,如下图: 模块使用: import os impor ...

  4. Pytorch TextCNN实现中文文本分类(附完整训练代码)

    Pytorch TextCNN实现中文文本分类(附完整训练代码) 目录 Pytorch TextCNN实现中文文本分类(附完整训练代码) 一.项目介绍 二.中文文本数据集 (1)THUCNews文本数 ...

  5. 【opencv图像处理】--2. 颜色空间,绘制图形,绘制(中文)文本

    "人群里敞着一扇门" 1. 颜色空间的基础知识 1.1 色彩空间转换 2. mat数据结构的深浅拷贝 ndarray的常见属性 3.颜色通道的分离和合并 4. 绘制图形 5. 绘制 ...

  6. Spark MLlib实现的中文文本分类–Naive Bayes

    2019独角兽企业重金招聘Python工程师标准>>> 中文分词 对于中文文本分类而言,需要先对文章进行分词,我使用的是IKAnalyzer中文分析工具,其中自己可以配置扩展词库来使 ...

  7. 中文文本情感分类(基于LSTM和textCNN)

    中文新闻数据集 负面文本: 正面文本: 数据文本都是用爬虫从网络上爬取的,由人工进行分类,在使用这些数据之前,需要先对文本进行预处理,预处理包括去除标点符号,停用词过滤和分词等,由于篇幅有限,这里就不 ...

  8. python 中文文本分类

    写这篇博文用了很多时间和精力,如果这篇博文对你有帮助,希望您可以打赏给博主相国大人.哪怕只捐1毛钱,也是一种心意.通过这样的方式,也可以培养整个行业的知识产权意识.我可以和您建立更多的联系,并且在相关 ...

  9. Topic Model 中文文本分类

    Topic Model 中文文本分类 LDA模型 LDA将文档表示为主题的集合,主题生成具有一定概率的单词. 文档按以下方式生成: 确定文档具有的单词数N(例如,根据Poisson分布). 选择文章的 ...

  10. 中文文本分类-朴素贝叶斯

    原创作品,出自 "晓风残月xj" 博客,欢迎转载,转载时请务必注明出处(http://blog.csdn.net/xiaofengcanyuexj). 由于各种原因,可能存在诸多不 ...

最新文章

  1. metrics-server最新版本有坑,慎用
  2. python适合零基础学习吗-Python适合不适合零基础学习呢?老男孩教育
  3. Python date,datetime,time等相关操作总结
  4. js一个大盒子中有三个小盒子_寒假预习:一万有多大,数一数估一估,亲身感觉一万有多大...
  5. Base64 四种方式的编码和解码
  6. CM3计算板安装硬件时钟DS3231
  7. 【匈牙利算法】【二分图匹配】【转载】趣写算法系列之--匈牙利算法
  8. Webpack实战(二):基础配置入门 - webpack-dev-server的介绍与用法
  9. php时间序列比对,常用在线序列比对工具
  10. 数字图像相关(Digital Image Correlation, DIC)中的非线性优化方法(FA-GN与IC-GN)
  11. origin matlab调用,origin与matlab使用教程
  12. 云计算十字真言及其在小博无线的实践
  13. 关于word中最后一个分节符导致的空白页删除问题
  14. 让Fireball CodeEditor控件禁止中文双倍输入
  15. html 中 超链接的写法,网页超链接样式的CSS写法
  16. 字节社招经历:5年Java开发经验,半月3次面试,成功拿到 Offer
  17. pandas--数据预处理
  18. screen显示窗口查看历史输出
  19. 合工大计算机学院导师詹曙,合肥工业大学计算机与信息学院导师教师师资介绍简介-△郭艳蓉...
  20. 我常用的网站制作工具

热门文章

  1. In library(package, lib.loc = lib.loc,character.only = TRUE, there is no package called ‘kknn’
  2. Nebula Graph - 集群模式部署
  3. dev-c++为什么使用调试时提示[error]ld returned 1 exit status?
  4. Android 获取当前地理位置信息
  5. java毕业设计——基于java+mysql+socket的即时通讯软件设计与实现(毕业论文+程序源码)——即时通讯软件
  6. Fruits类,简单水果价格系统----java
  7. 实现花瓣登陆静态页面
  8. 联想ThinkBook解锁FN键
  9. 语义分割标注工具Semantic Segmentation Editor 快速安装指南
  10. [转]现代密码学实践指南