Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略

目录

fetch_20newsgroups(20类新闻文本)数据集的简介

1、数据集信息

2、数据集标签20类别

3、数据集前三篇文章

fetch_20newsgroups(20类新闻文本)数据集的安装

fetch_20newsgroups(20类新闻文本)数据集的使用方法


fetch_20newsgroups(20类新闻文本)数据集的简介

20 newsgroups数据集18000多篇新闻文章,一共涉及到20种话题,所以称作20newsgroups text dataset,分为两部分:训练集和测试集,通常用来做文本分类,均匀分为20个不同主题的新闻组集合。20newsgroups数据集是被用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware),还有一些却完全不相关 (e.g misc.forsale /soc.religion.christian)。

1、数据集信息

数据集形状 (18846,)

=================   ==========
    Classes                     20
    Samples total            18846
    Dimensionality               1
    Features                  text
    =================   ==========

2、数据集标签20类别

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']

3、数据集前三篇文章

["From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>\nSubject: Pens fans reactions\nOrganization: Post Office, Carnegie Mellon, Pittsburgh, PA\nLines: 12\nNNTP-Posting-Host: po4.andrew.cmu.edu\n\n\n\nI am sure some bashers of Pens fans are pretty confused about the lack\nof any kind of posts about the recent Pens massacre of the Devils. Actually,\nI am  bit puzzled too and a bit relieved. However, I am going to put an end\nto non-PIttsburghers' relief with a bit of praise for the Pens. Man, they\nare killing those Devils worse than I thought. Jagr just showed you why\nhe is much better than his regular season stats. He is also a lot\nfo fun to watch in the playoffs. Bowman should let JAgr have a lot of\nfun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final\nregular season game.          PENS RULE!!!\n\n", 'From: mblawson@midway.ecn.uoknor.edu (Matthew B Lawson)\nSubject: Which high-performance VLB video card?\nSummary: Seek recommendations for VLB video card\nNntp-Posting-Host: midway.ecn.uoknor.edu\nOrganization: Engineering Computer Network, University of Oklahoma, Norman, OK, USA\nKeywords: orchid, stealth, vlb\nLines: 21\n\n  My brother is in the market for a high-performance video card that supports\nVESA local bus with 1-2MB RAM.  Does anyone have suggestions/ideas on:\n\n  - Diamond Stealth Pro Local Bus\n\n  - Orchid Farenheit 1280\n\n  - ATI Graphics Ultra Pro\n\n  - Any other high-performance VLB card\n\n\nPlease post or email.  Thank you!\n\n  - Matt\n\n-- \n    |  Matthew B. Lawson <------------> (mblawson@essex.ecn.uoknor.edu)  |   \n  --+-- "Now I, Nebuchadnezzar, praise and exalt and glorify the King  --+-- \n    |   of heaven, because everything he does is right and all his ways  |   \n    |   are just." - Nebuchadnezzar, king of Babylon, 562 B.C.           |   \n']

fetch_20newsgroups(20类新闻文本)数据集的安装

fetch_20newsgroups(data_home=None, # 文件下载的路径subset='train', # 加载那一部分数据集 train/testcategories=None, # 选取哪一类数据集[类别列表],默认20类shuffle=True,  # 将数据集随机排序random_state=42, # 随机数生成器remove=(), # ('headers','footers','quotes') 去除部分文本download_if_missing=True # 如果没有下载过,重新下载)news = fetch_20newsgroups(subset='all')

fetch_20newsgroups(20类新闻文本)数据集的使用方法

ML之LoR:利用pipeline对fetch_20newsgroups数据集(文本抽取TfidfVectorizer)采用SVC算法(GSCV)实现多分类
ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测、评估

Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略相关推荐

  1. ML之SVM:利用SVM算法(超参数组合进行多线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估

    ML之SVM:利用SVM算法(超参数组合进行多线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测.评估 目录 输出结果 设计思路 核心代码 输出结果 Fitting 3 folds for ...

  2. ML之SVM:利用SVM算法(超参数组合进行单线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估

    ML之SVM:利用SVM算法(超参数组合进行单线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测.评估 目录 输出结果 设计思路 核心代码 输出结果 Fitting 3 folds for ...

  3. NLP之词向量:利用word2vec对20类新闻文本数据集进行词向量训练、测试(某个单词的相关词汇)

    NLP之词向量:利用word2vec对20类新闻文本数据集进行词向量训练.测试(某个单词的相关词汇) 目录 输出结果 设计思路 核心代码 输出结果 寻找训练文本中与morning最相关的10个词汇: ...

  4. ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测、评估

    ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测.评估 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 class ...

  5. ML之NB:基于NB朴素贝叶斯算法训练20类新闻文本数据集进行多分类预测

    ML之NB:基于NB朴素贝叶斯算法训练20类新闻文本数据集进行多分类预测 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 vec = CountVectorizer() X_trai ...

  6. ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测、评估

    ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测.评估 目录 输出结果 设计思路 核心代码 ...

  7. Dataset:(公交车、恐龙、大象、花朵、骏马)六类图片数据集(AutoKeras测试)的简介、下载、使用方法之详细攻略

    Dataset:(公交车.恐龙.大象.花朵.骏马)六类图片数据集(AutoKeras测试)的简介.下载.使用方法之详细攻略 目录 数据集简介 数据集下载 数据集使用方法 数据集简介 图片数据集简介:其 ...

  8. Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

    Dataset之WebVision:WebVision数据集简介.下载.使用方法之详细攻略 目录 WebVision数据集简介 1.WebVision数据集挑战 WebVision数据集下载 WebV ...

  9. Dataset之Cityscapes:Cityscapes数据集的简介、安装、使用方法之详细攻略

    Dataset之Cityscapes:Cityscapes数据集的简介.安装.使用方法之详细攻略 目录 Cityscapes数据集的简介 1.Cityscapes数据集的特点 2.Cityscapes ...

最新文章

  1. 中科院冯洋| Prefix-to-Prefix生成:进展、挑战与展望
  2. 观点 | 朱靖波:辅助翻译技术需「以人为本」
  3. 控制台输出覆盖当前行显示
  4. 深度学习核心技术精讲100篇(四十二)-阿里妈妈深度树匹配技术演进:TDM->JTM->BSAT
  5. Socket系列3 Socket服务端开发 数据的接收和发送
  6. ArrayBlockingQueue原理分析-itrs.elementDequeued()
  7. sklearn自学指南(part42)--使用手册的目录
  8. RPA机器人来了, 你的饭碗还好吗?
  9. python用一行代码编写一个回声程序_Python源码分析2 - 一个简单的Python程序的执行...
  10. 无线网卡802.11n、 Intel 5100 AGN
  11. python 多分类 recall_sklearn多分类问题
  12. 微软Windows Hello曝漏洞!外接一个USB摄像头,分分钟破解你的电脑
  13. android课程设计闹钟,EDA课程设计---数字时钟(闹钟)
  14. solidworks2021安装教程,solidworks2021安装步骤
  15. Google Reader 推出简体中文版 Google(谷歌)阅读器
  16. androidStudio移动开发结课总结
  17. bae java mysql_在百度bae云平台中使用JAVA连接MySQL数据库
  18. 柳如是,当得奇女子。
  19. C语言 switch语句举例说明(类比坐电梯来理解)
  20. DAC8830+STM32驱动

热门文章

  1. OpenCV3特征提取与目标检测之HOG(二)——使用官方的行人分类器实现行人检测
  2. python 余数_python中两数相除取余数怎么运算
  3. android状态栏半透明灰色,Android7.0沉浸式状态栏蒙灰问题完美解决
  4. java工程师有什么要求_什么是java,java工程师应该具备哪些能力?
  5. Debian 光盘安装简易教程
  6. 作业32-完成评论功能
  7. 使用@functools.wraps的理由
  8. 什么是浏览器指纹识别?浏览器指纹识别如何预防
  9. 动态加载的js文件在Chrome进行调试时找不到
  10. dos拼接字符串以及截取字符串