文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!

嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。

分为以下几个过程:

  • 加载数据集
  • 提feature
  • 分类
    • Naive Bayes
    • KNN
    • SVM
  • 聚类
说明: scipy官网上有参考,但是看着有点乱,而且有bug。本文中我们分块来看。
Environment:Python 2.7 + Scipy (scikit-learn)
1.加载数据集
从20news-19997.tar.gz下载数据集,解压到scikit_learn_data文件夹下,加载数据,详见code注释。
[python] view plaincopy
  1. #first extract the 20 news_group dataset to /scikit_learn_data
  2. from sklearn.datasets import fetch_20newsgroups
  3. #all categories
  4. #newsgroup_train = fetch_20newsgroups(subset='train')
  5. #part categories
  6. categories = ['comp.graphics',
  7. 'comp.os.ms-windows.misc',
  8. 'comp.sys.ibm.pc.hardware',
  9. 'comp.sys.mac.hardware',
  10. 'comp.windows.x'];
  11. newsgroup_train = fetch_20newsgroups(subset = 'train',categories = categories);
可以检验是否load好了:
[python] view plaincopy
  1. #print category names
  2. from pprint import pprint
  3. pprint(list(newsgroup_train.target_names))

结果:

['comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x']
2. 提feature:
刚才load进来的newsgroup_train就是一篇篇document,我们要从中提取feature,即词频啊神马的,用fit_transform
Method 1. HashingVectorizer,规定feature个数
[python] view plaincopy
  1. #newsgroup_train.data is the original documents, but we need to extract the
  2. #feature vectors inorder to model the text data
  3. from sklearn.feature_extraction.text import HashingVectorizer
  4. vectorizer = HashingVectorizer(stop_words = 'english',non_negative = True,
  5. n_features = 10000)
  6. fea_train = vectorizer.fit_transform(newsgroup_train.data)
  7. fea_test = vectorizer.fit_transform(newsgroups_test.data);
  8. #return feature vector 'fea_train' [n_samples,n_features]
  9. print 'Size of fea_train:' + repr(fea_train.shape)
  10. print 'Size of fea_train:' + repr(fea_test.shape)
  11. #11314 documents, 130107 vectors for all categories
  12. print 'The average feature sparsity is {0:.3f}%'.format(
  13. fea_train.nnz/float(fea_train.shape[0]*fea_train.shape[1])*100);

结果:

Size of fea_train:(2936, 10000)
Size of fea_train:(1955, 10000)
The average feature sparsity is 1.002%
因为我们只取了10000个词,即10000维feature,稀疏度还不算低。而实际上用TfidfVectorizer统计可得到上万维的feature,我统计的全部样本是13w多维,就是一个相当稀疏的矩阵了。
**************************************************************************************************************************

上面代码注释说TF-IDF在train和test上提取的feature维度不同,那么怎么让它们相同呢?有两种方法:

Method 2. CountVectorizer+TfidfTransformer
让两个CountVectorizer共享vocabulary:
[python] view plaincopy
  1. #----------------------------------------------------
  2. #method 1:CountVectorizer+TfidfTransformer
  3. print '*************************\nCountVectorizer+TfidfTransformer\n*************************'
  4. from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
  5. count_v1= CountVectorizer(stop_words = 'english', max_df = 0.5);
  6. counts_train = count_v1.fit_transform(newsgroup_train.data);
  7. print "the shape of train is "+repr(counts_train.shape)
  8. count_v2 = CountVectorizer(vocabulary=count_v1.vocabulary_);
  9. counts_test = count_v2.fit_transform(newsgroups_test.data);
  10. print "the shape of test is "+repr(counts_test.shape)
  11. tfidftransformer = TfidfTransformer();
  12. tfidf_train = tfidftransformer.fit(counts_train).transform(counts_train);
  13. tfidf_test = tfidftransformer.fit(counts_test).transform(counts_test);
结果:
*************************
CountVectorizer+TfidfTransformer
*************************
the shape of train is (2936, 66433)
the shape of test is (1955, 66433)
Method 3. TfidfVectorizer
让两个TfidfVectorizer共享vocabulary:
[python] view plaincopy
  1. #method 2:TfidfVectorizer
  2. print '*************************\nTfidfVectorizer\n*************************'
  3. from sklearn.feature_extraction.text import TfidfVectorizer
  4. tv = TfidfVectorizer(sublinear_tf = True,
  5. max_df = 0.5,
  6. stop_words = 'english');
  7. tfidf_train_2 = tv.fit_transform(newsgroup_train.data);
  8. tv2 = TfidfVectorizer(vocabulary = tv.vocabulary_);
  9. tfidf_test_2 = tv2.fit_transform(newsgroups_test.data);
  10. print "the shape of train is "+repr(tfidf_train_2.shape)
  11. print "the shape of test is "+repr(tfidf_test_2.shape)
  12. analyze = tv.build_analyzer()
  13. tv.get_feature_names()#statistical features/terms
结果:

*************************
TfidfVectorizer
*************************
the shape of train is (2936, 66433)
the shape of test is (1955, 66433)

此外,还有sklearn里封装好的抓feature函数,fetch_20newsgroups_vectorized
Method 4. fetch_20newsgroups_vectorized

但是这种方法不能挑出几个类的feature,只能全部20个类的feature全部弄出来:

[python] view plaincopy
  1. print '*************************\nfetch_20newsgroups_vectorized\n*************************'
  2. from sklearn.datasets import fetch_20newsgroups_vectorized
  3. tfidf_train_3 = fetch_20newsgroups_vectorized(subset = 'train');
  4. tfidf_test_3 = fetch_20newsgroups_vectorized(subset = 'test');
  5. print "the shape of train is "+repr(tfidf_train_3.data.shape)
  6. print "the shape of test is "+repr(tfidf_test_3.data.shape)
结果:
*************************
fetch_20newsgroups_vectorized
*************************
the shape of train is (11314, 130107)
the shape of test is (7532, 130107)
3. 分类
3.1 Multinomial Naive Bayes Classifier
见代码&comment,不解释
[python] view plaincopy
  1. ######################################################
  2. #Multinomial Naive Bayes Classifier
  3. print '*************************\nNaive Bayes\n*************************'
  4. from sklearn.naive_bayes import MultinomialNB
  5. from sklearn import metrics
  6. newsgroups_test = fetch_20newsgroups(subset = 'test',
  7. categories = categories);
  8. fea_test = vectorizer.fit_transform(newsgroups_test.data);
  9. #create the Multinomial Naive Bayesian Classifier
  10. clf = MultinomialNB(alpha = 0.01)
  11. clf.fit(fea_train,newsgroup_train.target);
  12. pred = clf.predict(fea_test);
  13. calculate_result(newsgroups_test.target,pred);
  14. #notice here we can see that f1_score is not equal to 2*precision*recall/(precision+recall)
  15. #because the m_precision and m_recall we get is averaged, however, metrics.f1_score() calculates
  16. #weithed average, i.e., takes into the number of each class into consideration.

注意我最后的3行注释,为什么f1≠2*(准确率*召回率)/(准确率+召回率)

其中,函数calculate_result计算f1:

[python] view plaincopy
  1. def calculate_result(actual,pred):
  2. m_precision = metrics.precision_score(actual,pred);
  3. m_recall = metrics.recall_score(actual,pred);
  4. print 'predict info:'
  5. print 'precision:{0:.3f}'.format(m_precision)
  6. print 'recall:{0:0.3f}'.format(m_recall);
  7. print 'f1-score:{0:.3f}'.format(metrics.f1_score(actual,pred));

3.2 KNN:

[python] view plaincopy
  1. ######################################################
  2. #KNN Classifier
  3. from sklearn.neighbors import KNeighborsClassifier
  4. print '*************************\nKNN\n*************************'
  5. knnclf = KNeighborsClassifier()#default with k=5
  6. knnclf.fit(fea_train,newsgroup_train.target)
  7. pred = knnclf.predict(fea_test);
  8. calculate_result(newsgroups_test.target,pred);

3.3 SVM:

[cpp] view plaincopy
  1. ######################################################
  2. #SVM Classifier
  3. from sklearn.svm import SVC
  4. print '*************************\nSVM\n*************************'
  5. svclf = SVC(kernel = 'linear')#default with 'rbf'
  6. svclf.fit(fea_train,newsgroup_train.target)
  7. pred = svclf.predict(fea_test);
  8. calculate_result(newsgroups_test.target,pred);

结果:

*************************

Naive Bayes
*************************
predict info:
precision:0.764
recall:0.759
f1-score:0.760
*************************
KNN
*************************
predict info:
precision:0.642
recall:0.635
f1-score:0.636
*************************
SVM
*************************
predict info:
precision:0.777
recall:0.774
f1-score:0.774

4. 聚类

[cpp] view plaincopy
  1. ######################################################
  2. #KMeans Cluster
  3. from sklearn.cluster import KMeans
  4. print '*************************\nKMeans\n*************************'
  5. pred = KMeans(n_clusters=5)
  6. pred.fit(fea_test)
  7. calculate_result(newsgroups_test.target,pred.labels_);

结果:

*************************
KMeans
*************************
predict info:
precision:0.264
recall:0.226
f1-score:0.213

本文全部代码下载:在此

貌似准确率好低……那我们用全部特征吧……结果如下:

*************************
Naive Bayes
*************************
predict info:
precision:0.771
recall:0.770
f1-score:0.769
*************************
KNN
*************************
predict info:
precision:0.652
recall:0.645
f1-score:0.645
*************************
SVM
*************************
predict info:
precision:0.819
recall:0.816
f1-score:0.816
*************************
KMeans
*************************
predict info:
precision:0.289
recall:0.313
f1-score:0.266

python sklearn做文本分类相关推荐

  1. python sklearn svm_文本分类和预测 sklearn.svm.LinearSVC(1)

    参考代码manoveg/ML_with_python​github.com 数据来源https://github.com/gaussic/text-classification-cnn-rnn​git ...

  2. 手把手教你在Python中实现文本分类(附代码、数据集)

    作者: Shivam Bansal 翻译:申利彬 校对:丁楠雅 本文约2300字,建议阅读8分钟. 本文将详细介绍文本分类问题并用Python实现这个过程. 引言 文本分类是商业问题中常见的自然语言处 ...

  3. Python中实现文本分类(附代码、数据集)

    本文将详细介绍文本分类问题并用Python实现这个过程. 引言 文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个或多个已定义好的类别中.文本分类的一些例子如下: 分析社交媒体中 ...

  4. bert使用做文本分类_使用BERT进行深度学习的多类文本分类

    bert使用做文本分类 Most of the researchers submit their research papers to academic conference because its ...

  5. Word Averaging模型做文本分类 稳定效果好模型简单

    利用WORDAVG模型做文本分类   模型简单 效果号 简单思想就是  将每个词向量在 句子维度进行求平均  可以用avgpool来做平均池化 然后用平均后的向量作为句子向量 进行文本分类 后面我们还 ...

  6. 贝叶斯分类器做文本分类案例

    贝叶斯分类器做文本分类 文本分类是现代机器学习应用中的一大模块,更是自然语言处理的基础之一.我们可以通过将文字数据处理成数字数据,然后使用贝叶斯来帮助我们判断一段话,或者一篇文章中的主题分类,感情倾向 ...

  7. python文本分类_手把手教你在Python中实现文本分类.pdf

    手把手教你在Python 中实现文本分类(附代码.数 据集) 引言 文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个 或多个已定义好的类别中.文本分类的一些例子如下: • 分析 ...

  8. 使用CNN做文本分类——将图像2维卷积换成1维

    使用CNN做文本分类from __future__ importdivision, print_function, absolute_importimporttensorflow as tfimpor ...

  9. tf第十二讲:TextCNN做文本分类的实战代码

      大家好,我是爱编程的喵喵.双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中.从事机器学习以及相关的前后端开发工作.曾在阿里云.科大讯飞.CCF等比赛获得多次Top名次.现 ...

  10. bert模型可以做文本主题识别吗_GitHub - jkszw2014/TextClassify_with_BERT: 使用BERT模型做文本分类;面向工业用途...

    TextClassify_with_BERT 使用BERT模型做文本分类:面向工业用途 自己研究了当前开源的使用BERT做文本分类的许多存储库,各有各的缺点.通病就是面向学术,不考虑实际应用. 使用t ...

最新文章

  1. 使用Redis搭建电商秒杀系统
  2. 跟锦数学2017年04月
  3. MTK Read/Write IMEI from App
  4. 牛客小白月赛16 小石的签到题(博弈)
  5. 看完这13张图,不得不佩服还是外国人会玩人工智能
  6. Flash of Unstyled Content (FOUC)
  7. How to use wget to download mail archives?
  8. 今天谈谈用户故事地图,不是用户故事
  9. 面试中几个基本的重要问题总结
  10. idea新建一个springboot项目_SpringBoot(二):第一个Spring Boot项目
  11. PotPlayer LAV MadVR SVP4/BFRC播放器设置(极为详细,硬解,渲染,插帧按CPU性能评级)
  12. 世界上有没有正五面体?
  13. Bestcoder13 1003.Find Sequence(hdu 5064) 解题报告
  14. 笔耕不辍 elementUI el-tree实现懒加载和直接查询实现
  15. MMORPG传奇类手游《空空西游》完整源码(客户端cocos2d-js+服务端pomelo+cocosStudio工程+搭建教程)
  16. Ford-Fulkerson 标号法求网络最大流
  17. 微信小程序开发入门(连载)—— 开发前的准备工作
  18. ps制作双重曝光海报
  19. 强烈推荐一部电影《贫民窟的百万富翁》
  20. Java学习 day11 (继承与多态)接口、多态

热门文章

  1. Tomcat反射时报错java.lang.ClassNotFoundException
  2. java虚拟机内存_java虚拟机内存区域的划分以及作用详解
  3. python判断中文函数_如何判断(或如何编写)一个没有副作用的python函数?
  4. python实例方法不可以用类调用_为什么python静态/类方法不可调用?
  5. C# 从string变量中获取数字
  6. c++ primer plus 复合类型之数组
  7. 责任分配矩阵和raci的区别_数字音频处理器和调音台的区别是什么
  8. C语言-用指针实现内存动态分配
  9. 3-unit2 高级网络配置
  10. 《Excel数据可视化:一样的数据不一样的图表》——第 2 章 数理统计中的常见统计量 2.1 比平均值更稳定的中位数和众数...