本文由 「AI前线」原创,原文链接:手把手教你快速构建自定义分类器
作者|Shashank Gupta
译者|刘志勇
编辑|Emily

AI 前线导读:”对于数据挖掘来说,分类是一种非常重要的方法。分类器就是在已有数据的基础上学会一个分类函数或者构建出的一个分类模型。这个函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用数据预测。今天,AI 前线就给大家带来了由 Towards Data Science 的 Shashank Gupta 撰写的一篇文章,题为《介绍自定义分类器——在没有任何培训数据的情况下构建自己的文本分类模型 》(Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data)[1],给大家介绍了如何利用 ParallelDots 公司提供的 AI 驱动的 Web 服务,在没有任何训练数据的情况下,快速构建属于自己的文本分类器。”

介绍

机器学习最成功的范例之一是监督学习(supervised learning),它允许您通过从大量训练实例中学习来构建泛化模型。监督学习广泛应用于自然语言处理(Natural Language Processing,NLP),构建多类或多标签的文本分类器,用于解决垃圾邮件检测、情感分析、表情分析、客户意向分析等多种用例。任何熟悉构建文本分类模型过程的人都知道,它包含以下三个步骤:

准备训练数据:训练数据(也称为标记数据)是特定领域的语料库,它是用分类器预期分类的标签手工标注的。

训练文本分类模型:然后选择合适的机器学习算法来训练标记数据集上的模型。我们已经在之前的博文《Breakthrough Research Papers and Models for Sentiment Analysis》[2] 中介绍了构建情感分析模型的一些技巧。

测试和验证:标记的数据集的一部分被留出用于测试和验证已训练的模型以评估其泛化能力。

当我们没有足够的标记数据来训练可靠的模型时,传统的监督学习范式就会崩溃。现实世界中的文本分类项目常常面临最大的障碍,即访问大量数据并手动注释数据。结果,大多数实际项目都滞留在第一步。那些成功迈过第一步的人们经常发现他们的数据要么不够充分,要么偏向某些类,导致 AI 模型出现偏差。

什么是自定义分类器?

深度学习的许多研究都是为了从更少的数据中学习更好的表征,而一个令人兴奋的领域是零样本学习(Zero-shot learning)。引用 Ian Goodfellow 在 Quora 的回答:“即使没有收到任何训练案例,零样本学习也能解决任务。”换句话说,设想一下在不提供任何带有情感标签的推文的训练例子的情况下,预测推特表达的情绪。

ParallelDots 的内部研究团队提出了他们自己的“零样本学习”的文本分类模式,并发表了一篇研究论文《一次训练,随处测试:文本分类的零样本学习》(Train Once, Test Anywhere: Zero-shot Learning For Text Classification)[3]。

另外,我们要履行承诺,让人工智能触手可及。我们决定将这一激动人心的研究成果转化为商业应用,因此,我们推出了一个新的 API,使您能够利用零样本学习的全部功能,为您的文本分类提供用例。我们称之为自定义分类器,因为它可以让你在自定义类别上构建你的文本分类器。这是我们开发尖端 AI 解决方案的革命性的一步,让用户无需构建任何训练数据即可开发和集成自定义文本分类模型。

通过实例学习--构建示例文本分类模型

由于不需要训练数据,因此它也降低了建立文本分类模型所需的成本和时间。有了所有的背景知识,让我们尝试在操作中查看自定义分类器。在下图所示自定义分类器演示 [4] 屏幕截图中,我们选取了一个体育新闻标题并定义了五个类别,我们要把这个标题分为:世界政治、体育、宗教、娱乐、商业。

从结果中可以看出,体育类别的概率得分最高,因此也是我们输入文本最有可能的类别。请注意,我们在测试的时候定义了类别,而底层的 AI 模型并没有对它们进行明确的训练。接下来,我们试着进一步将体育类别分为足球、高尔夫等不同类别,看看我们的分类器是否可以理解它们。

我们再次看到,分类器在没有明确训练的情况下准确地识别了体育类别。我希望现在您已经开始了解这项技术的潜力。作为最后一步,我们试着进一步将我们的足球类别划分成全球各地的不同类型的联赛,看看我们的分类器是否能够正确地预测同样的情况。

确实不可思议!我们的分类器正确地挑出了联赛。

综上所述,“自定义分类器”可以让您对文本分类的未来有一个粗略的了解,在这种分类中,很少或没有必要的训练示例可以可靠地将一段文本分类为自定义的定义类别。这种能力将为无数休眠的文本分析项目打开了无限的可能性,并赋予它们新的生机,由于缺乏训练数据或训练资源,这一项目将永远不能见天日。

设置自定义分类器

设置自定义分类器非常简单,可以通过以下三个简单步骤来完成:

  1. 到 www.paralleldots.com/ 注册免费的 ParallelDots API 帐户并登录到控制面板。
  2. 导航到控制面板中的自定义分类器部分,提供示例文本并定义一些类别来分析文本。默认情况下,您将处于测试模式,您可以随意多次调整您的类别列表,而无需花费任何费用。
  3. 一旦您对分类准确性感到满意,请单击“Publish”按钮来部署分类器以供生产使用,并获取分类器 ID。一旦发布,您就可以通过 API 端点访问您的自定义分类器。

自定义分类器的 API 文档可以在 www.paralleldots.com/docs 找到。专门为 Microsoft Excel 提供的加载项功能即将推出。

在这篇博文中,我们介绍了文本分类中的一个新范例,希望我们的用户能够从中受益。我们已经看到一些激动人心的用例被我们的用户通过自定义分类器解决,比如招聘信息分类、新闻文章分类、处理开放式调查反馈等等。通常,分析原始数据的第一步就是将其分类到您关心的类别中,并随着时间的推移监控这些趋势以获取可行的见解。

自定义分类相较标准文本分类的优势

在分析客户语音等非结构化数据时,像情感分析这样的标准文本分类模型并不总是足以获得整体视图。另一方面,自定义分类器可以使您能够将这些数据分类为我们所关心的更细微的类别。例如,通过自定义分类器,快餐连锁店主可以通过社交媒体,将从她的顾客的反馈分类,包括价格、环境、员工行为、食品质量等类别,更好地了解她需要改进哪些方面的业务。使用简单的情绪分析,她可能知道自己的业务整体如何,但也可能会遗漏关键的趋势,比如员工的行为和客流量之间的关联。自定义分类器的潜力在于,将文本分类为情感标签(正面、负面或中性)[5],这样您不仅可以知道产品有多少负面的反馈,而且也可以了解到用户在那些负面评论中提到的内容。

我们相信自定义分类器可以让没有数据科学背景的用户构建、部署他们自己的分类器,并在他们的竞争者中获得优势。它还将帮助企业从根本上转变为数据驱动型组织,最终加速人工智能和机器学习的产业化进程。您也可以访问以下网址探索更多的文本分类博客。

blog.paralleldots.com/category/pr…

ParallelDots AI API 是由 ParallelDots 公司提供的深度学习驱动的 Web 服务,可以理解大量的非结构化文本和可视内容,从而为您的产品提供支持。

参考文本:

[1] Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data

towardsdatascience.com/introducing…

[2] Breakthrough Research Papers and Models for Sentiment Analysis

blog.paralleldots.com/data-scienc…

[3] TRAIN ONCE, TEST ANYWHERE: ZERO-SHOT LEARNING FOR TEXT CLASSIFICATION

paralleldots.xyz/Zero-Shot-L…

[4] Custom Classifier DEMO

paralleldots.xyz/Zero-Shot-L…

[5] Analyze the sentiment of content on social networks, customer feedbacks and surveys

www.paralleldots.com/sentiment-a…

更多干货内容,可关注AI前线,ID:ai-front,后台回复「AI」、「TF」、「大数据」可获得《AI前线》系列PDF迷你书和技能图谱。

手把手教你快速构建自定义分类器相关推荐

  1. 《从零构建前后分离的web项目》:前端完善 - 手把手教你快速构建网站布局

    添砖加瓦 - 手把手教你快速构建网站布局 项目地址 本章源码地址 文章地址 本文为方便讲述重构去除了 Element.vux 库,用了最近比较火的 bulma 轻量.快捷.易读. 项目截屏 Layou ...

  2. 手把手教大家快速构建自动回复机器人

    手把手教大家快速构建自动回复机器人 聊天机器人可以说在我们生活中的应用非常普遍了. 它们依托于互联网资源,回答用户的日常问题,或者主动提醒和推荐.比如,苹果的Siri,微软的Cortana这种的语音机 ...

  3. 手把手教你快速构建一份全国疫情分布地图

    本文基于百度地图API和fangkai提供的疫情数据API制作,是一份真实并实时的疫情场所分布地图,演示地址:https://rovertang.com/map/ncov/ 花絮 上次发表了如何制作一 ...

  4. 手把手教你快速构建一个企业自有“微信”

    超链接实验室,是融云策划推出的 IT 系列直播课,携手行业专家,一起聊聊 IT 国产化.协同办公通信.通信中台.企业数字化的那些事儿.关注[融云 RongCloud],了解协同办公平台更多干货. 后疫 ...

  5. 手把手教你快速入门知识图谱 - Neo4J教程

    手把手教你快速入门知识图谱 - Neo4J教程 前言 1. Neo4J简介 2. Neo4J安装 3. Neo4J使用 4. Cypher查询语言 5. Neo4J实战教程 1. 首先,我们删除数据库 ...

  6. 手把手教你快速搭建私服环境

    手把手教你快速搭建私服环境,简单实用,一看就懂 1.准备工作:先下载Nxus Nexus 是 Maven 仓库管理器, 通过 nexus 可以搭建 maven 仓库,同时 nexus 还提供强大的仓库 ...

  7. 测试手机新机软件,玩机小技巧 篇一:手把手教你快速验新机——写给剁手节买了新手机的值友...

    玩机小技巧 篇一:手把手教你快速验新机--写给剁手节买了新手机的值友 2020-12-10 17:39:14 29点赞 97收藏 11评论 创作立场声明:本文旨在分享购入新机器后如何检验手机完好的小技 ...

  8. 手把手教你快速搞定4个职场写作场景

    " [写作能力提升]系列文章: 为什么建议你一定要学会写作? 手把手教你快速搞定 4 个职场写作场景 5 种搭建⽂章架构的⽅法"免费赠送! " 一.前言 Hello,我是 ...

  9. 手把手教你快速搭建一个代码在线编辑预览工具

    简介 大家好,今天我跟大家分享的是一个代码在线编辑预览工具的实现教程,手把手教你完成这样一个项目. 目前这类工具使用很广泛,常见于各种文档网站及代码分享场景,相关工具也比较多,如codepen.jsr ...

  10. ajax无刷新kesion,手把手教你使用KesionCMS自定义SQL,轻松打造人才招聘系统

    科汛系统有着强大的自定义SQL标签,利用SQL标签,我们可以做出很多一般系统函数标签没办法实现的特殊效果. 今天我们接着"解密 V4.0自定义模型(手把手教你建企业招聘模块)"这篇 ...

最新文章

  1. 排序算法一:选择排序
  2. 用hundred造句子_6分以上的人句子长啥样?
  3. 浮点数正则表达式_正则表达式的邮箱,手机号,身份证号,密码
  4. CentOS6.5编译安装apache2.4--有软件包!
  5. 解决pip异常:No module named ‘pip‘
  6. 4-pycharm找不到模块问题
  7. TCP、UDP、HTTP
  8. 1011 A+B 和 C (15 分)—PAT (Basic Level) Practice (中文)
  9. JavaScript原型OOP——你上车了吗?
  10. bash快捷建-光标移到行首、行尾等
  11. android 锁屏显示消息格式,通知!在锁屏上显示Android通知 | MOS86
  12. 实时系统性能测试指标及方法
  13. 介绍一个Office画图工具--visio
  14. WinRAR密码破解(精)
  15. 自己想要什么 过什么样的生活
  16. 什么意思中文_中文十级考题,请解释这四句话是什么意思!
  17. 美团 SP 30K*15.5?如何看待老生常谈的薪资倒挂现象?
  18. PS制作黑暗墙面上的漂亮霓虹文字
  19. 基于微信小程序的学习记录与提醒应用设计与实现-计算机毕业设计源码+LW文档
  20. 苹果手机服务器找不到,电脑找不到苹果手机热点

热门文章

  1. selenium学习第一步(firefox安装firebug和firepath插件)
  2. 读书笔记1——《用户故事与敏捷方法》
  3. 计算机Excel运行环境,Excel Server Tutorial
  4. Office | Office365 离线安装包选择安装word、ppt、excel
  5. python库手册_Python 中文开发手册
  6. 3dm java32位_3DM游戏运行库合集安装包v2.3
  7. cad插入块_「AutoCAD之属性块」别怕难,从零做起,制作属性块只需6步走
  8. xamarin android 标签,Xamarin.Android使用教程:Android项目结构
  9. 华为交换机配置远程连接
  10. SpringBoot框架理解