我正在尝试使用Scikit学习来学习文本的多标签分类,我正在尝试调整Scikit附带的一个初始示例教程,用于使用wikipedia文章作为培训数据对语言进行分类。我试图在下面实现这一点,但代码仍然为每个返回一个标签,我希望最后一个预测返回fr,en

有谁能建议正确的方法来启用多标签分类。在import sys

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.datasets import make_multilabel_classification

from sklearn.preprocessing import LabelBinarizer

from sklearn.svm import LinearSVC

from sklearn.pipeline import Pipeline

from sklearn.datasets import load_files

from sklearn.cross_validation import train_test_split

from sklearn import metrics

from sklearn.multiclass import OneVsRestClassifier

#change model_selection to cross_validation

# The training data folder must be passed as first argument - This uses the example wiki language data files

languages_data_folder = sys.argv[1]

dataset = load_files(languages_data_folder)

# Split the dataset in training and test set:

docs_train, docs_test, y_train, y_test = train_test_split(

dataset.data, dataset.target, test_size=0.5)

#pipeline

clf = Pipeline([

('vectorizer', CountVectorizer(ngram_range=(1,2))),

('tfidf', TfidfTransformer()),

('clf', OneVsRestClassifier(LinearSVC())),

])

target_names=dataset.target_names

# TASK: Fit the pipeline on the training set

clf.fit(docs_train, y_train)

# TASK: Predict the outcome on the testing set in a variable named y_predicted

y_predicted = clf.predict(docs_test)

print target_names

# Predict the result on some short new sentences:

sentences = [

u'This is a language detection test.',

u'Ceci est un test de d\xe9tection de la langue.',

u'Dies ist ein Test, um die Sprache zu erkennen.',

u'Bonjour Mon ami. This is a language detection test.',

]

predicted = clf.predict(sentences)

for s, p in zip(sentences, predicted):

print(u'The language of "%s" is "%s"' % (s, target_names[p]))

返回-

“这是语言检测测试”的语言是“en”

“Ceci est un test de detection de la langue.”的语言是“fr”

“死在考验中,嗯,我是在考验。”是“德”

“你好,朋友”的语言。这是一个语言检测测试

文本多标签分类python_Scikitlearn多标签分类相关推荐

  1. 多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...

    原文: Label-Specific Document Representation for Multi-Label Text Classification(EMNLP 2019) 多标签文本分类 摘要: ...

  2. 如何用softmax和sigmoid来做多类分类和多标签分类

    首先,说下多类分类和多标签分类的区别 多标签分类: 一个样本可以属于多个类别(或标签),不同类之间是有关联的,比如一个文本被被划分成"人物"和"体育人物"两个标 ...

  3. 二分类、多分类和多标签分类

    1.基本概念 二分类:表示分类任务中有两个类别,比如我们想识别一幅图片是不是猫.也就是说,训练一个分类器,输入一幅图片,用特征向量x表示,输出是不是猫,用y=0或1表示.二类分类是假设每个样本都被设置 ...

  4. 分类家族:二分类、多分类、多标签分类、多输出分类

    分类家族:二分类.多分类.多标签分类.多输出分类 目录 分类家族:二分类.多分类.多标签分类.多输出分类 二分类

  5. 机器学习之单标签多分类及多标签多分类

    单标签二分类算法 Logistic算法 单标签多分类算法 Softmax算法 One-Versus-One(ovo):一对一 One-Versus-All / One-Versus-the-Rest( ...

  6. 多标签分类_多标签分类文献阅读(8)

    使用堆叠式自动编码器和极限学习机的级联进行多标签分类 摘要 本文介绍了用于多标签数据分类的一系列神经网络.两种类型的网络,即堆叠式自动编码器(SAE)和极限学习机(ELM)已被合并到建议的系统中.EL ...

  7. WordPress博客添加首页、文章页、页面、分类页、标签页的关键字和描述

    2019独角兽企业重金招聘Python工程师标准>>> 用编辑器打开主题的header.php,在<head>与</head>之间任意地方(一般加到</ ...

  8. 机器学习之深度学习 二分类、多分类、多标签分类、多任务分类

    多任务学习可以运用到许多的场景. 首先,多任务学习可以学到多个任务的共享表示,这个共享表示具有较强的抽象能力,能够适应多个不同但相关的目标,通常可以使主任务获取更好的泛化能力. 此外,由于使用了共享表 ...

  9. BBS(仿博客园系统)项目03(主页搭建、个人站点搭建(侧边栏分类展示、标签展示、日期归档)、文章详情页相关功能实现)...

    摘要: 主页面的搭建(导航条下面的区域) 个人站点 侧边栏分类展示 侧边栏标签展示 侧边栏日期归档 文章详情页 文章内容 文章点赞点踩 文章评论 一.主页面home.html的搭建(进一步完善) ho ...

最新文章

  1. 性能超越图神经网络,将标签传递和简单模型结合实现SOTA
  2. S8赛事落幕,阿里云边缘计算护航虎牙7000万低延时流畅直播
  3. 《曾国藩发迹史》--汪衍振
  4. 计算机控制直流电机闭环调速实验,最小拍控制系统及直流电机闭环调速控制系统设计和实现实验报告...
  5. 【BLE】TI CC2640R2F SDK结构以及一些概念解析
  6. Mybatis的高级查询(包含一对一,一对多,多对多,resultMap的继承,分页插件pagehelper知识点)详细
  7. 【Java从入门到天黑|05】JavaSE入门之面向对象(下)
  8. 配置u-boot的ip、网卡ip的命令
  9. VMware vSAN 6.7实战(六)配置vSAN存储策略
  10. xmind 切换图形结构 和 常用模板
  11. [EMQX-V3.4.6源码解析系列]-1-EMQX简介
  12. 用ansi语法美化你的winrar和win启动界面 【 抄袭至互联网 作者不明】
  13. 大学英语 unit 2 第五题
  14. pyecharts、plotly图表插入PPT中
  15. 华硕支持2003服务器主板,驱动天空 - 品牌主板 - 服务器主板 SERVER - 华硕服务器主板...
  16. Centrifugo(实时消息服务器)介绍+demo
  17. 计算机windows怎么开启,Win10怎么打开我的电脑_Win10正式版怎么打开我的电脑?-192路由网...
  18. 电脑端如何隐藏显示CAD图层内容
  19. 10005 内联函数
  20. 水面漂浮物垃圾识别检测系统 YOlOv7

热门文章

  1. EFLS开源 | 阿里妈妈联邦学习解决方案详解
  2. 该文章为递归寻找目录下目标文件(待完善,但是能用)
  3. PAT_B_1059_Java(14分)_C++(20分)
  4. linux把硬盘当内存,把内存当硬盘使,让你的linux程序运转如飞(在linux下用firefox在线写csdn的blog再也不卡了)...
  5. python plotly 弹出子图_python – 在plotly中添加组条形图作为子图
  6. android调用系统相册打开图片不显示,【报Bug】打开相册,不显示图片,选中图片后,app会崩溃...
  7. opencv java库_【OpenCV】java资源
  8. 学数据库还不会Select,SQL Select详解,单表查询完全解析?
  9. 环形均分纸牌问题(中位数)
  10. C++--浅谈开发系统的经验