编者按

EasyDL NLP内置文心·NLP大模型,业务冷启动阶段仅需少量数据即可获得产业级AI模型,助力业务快速落地。文心·NLP大模型面向语言理解、语言生成等场景具备超强语言理解能力以及对话生成、文学创作等能力,行业应用性及适配性好。本文将从文本分类任务开启,基于汽车资讯类网站信息分类案例,为大家讲解EasyDL NLP的典型应用场景~

资讯平台发展趋势

Feed流普及助力资讯类应用活跃增长

随着移动互联网的发展,尤其是Feed流这种阅读方式的普及,丰富了用户自生产信息的渠道,资讯信息应用的活跃度指数更是呈现一个指数级的增长。

那什么叫Feed流的普及应用?下图即是一种交互形势:

通过为用户自动并主动寻找其感兴趣的内容,把内容精准推送到符合这一标签的用户画像群体当中,这就是Feed流的一种信息阅读方式。

随着这种方式的普及,很多耳熟能详的资讯类的应用,如百度APP、腾讯新闻、今日头条、新浪、搜狐等新闻资讯网站及APP,逐渐使用Feed流助力平台整体扩大推广路径。

在这种背景下,资讯类平台每天接收及处理信息的数量也在飞速增长。以资讯类平台的信息从生产到发布的全流程来讲,可概括为三步骤。

第一步,信息生产。作为资讯类应用,资讯生产的来源是多种多样的,主要包括以下三个部分。

①网络爬取:比如,网上相关联的优质内容,我们可以通过自动化抓取策略,自动展示在资讯类应用网站的内容推送中;

②用户自生产:类似于抖音、小红书等,更多资讯内容来源于UGC内容输出构成;

③资讯类网站:有专业的运营/宣发团队进行内容信息处理。他们需要处理大量图片、语音、视频,文本信息。

第二步,信息审核。作为专业的资讯平台,需要多轮审核以确保UGC信息合规。审核的纬度包括:有无敏感词,爆恐词,违禁词,广告词等。之前通过人工方式来审核,以一条文本审核的效率为例:一位审核员一天最多情况下只能审核五千条的文本信息,而一个在线的UGC资讯网站,平均一小时接收的文本信息就可能超过百万条,如果还是用人工逐一筛检,效率非常低,这是在资讯平台信息处理中常见的痛点。

第三步,信息发布。以下图右侧案例:直播间用户发布弹幕文字信息为例。在这种发布情况下,对时效要求极其高,接近实时级审核,并完成推送。弹幕需要快速发布,才有直播互动的意义。

从上述信息发布的过程中,我们可以看到AI能够发挥作用的空间很多,尤其突出在内容分类、分析及内容审核三部分。本文将重点讲述资讯类平台是如何运用AI快速实现的标题/文章分类。

资讯类平台

如何利用AI实现信息自动分类

某汽车资讯平台在汽车业务、汽车采购、汽车车友组织等方面有多年的垂类行业经验积累,但在AI算法领域尚无技术积淀。但目前企业遇到实际业务问题是:面对大量汽车资讯类内容,部分来自用户UGC生产的内容、部分来自平台、自运营频道打造的专项精品的内容,也有来自定向合作伙伴网站抓取的内容。

作为这家汽车资讯平台,他们需要对以上所有内容进行快速分类、审核并推送到不同专栏下。

然而,作为汽车资讯专栏,常见内容多是涉及汽车的改装美容、自驾游记、新车作业、购车优惠等更加垂类的内容。而市场上针对这类文本的分类解决方案几乎没有。

汽车资讯平台标题分类

企业前期尝试通过组建算法团队满足业务需求,但评估下来发现投入的成本非常高。组建算法团队、匹配的机器资源,运维人员的到位,综合成本需达到百万级。而企业的核心诉求是希望能够降低前期的投入,利用AI赋能文本分类场景,提高文章发布的效率。而AI实现自动文本分类实践中会遇到以下几个问题:

以上业务问题,采用飞桨EasyDL零门槛AI开发平台迎刃而解。

成本控制:如何降低业务探索阶段的成本投入?没有算法基础是否也能利用AI解决业务问题?答案是肯定的。飞桨EasyDL零门槛AI开发平台就很够很好解决这一问题,用户可在公有云平台上进行AI模型训练,无需算法基础也可流畅体验。基于EasyDL节省了包括机器资源、人力、时间等在内的百万级成本。

数据处理:模型训练依赖数据,怎样可以高效地完成数据处理。如果是常规模式,需要依赖大量准确标注数据才有可能确保模型训练效果。而使用飞桨EasyDL,只需前期采集一千条以下的原始数据并完成标注,就可获得高精度产业应用模型。同时,EasyDL提供的高效率标注工具:智能标注,可以在只标注30%数据前提下,完成整体数据处理工作,大幅提升效率,节省70%的人力。

模型精度:如何确保模型精度?在EasyDL文本中内置百度的文心·NLP大模型,对于没有AI基础的用户来说,在业务冷启动阶段,训练数据不充足的情况下,可以确保少量数据(20余条)进行训练即可获得产业级的AI模型;此外,在模型核心的筛选指标部分,提供多种业务逻辑可选择,在召回率和准确率取得一个平衡的综合指标,既可保证模型的高精度,也可保证能够在一定的召回情况下,减少机器审核完毕后,人工再来复核的成本。

部署调用:模型训练完毕后去部署,需要形成可调用的服务且保证服务的稳定性。尤其作为一家汽车资讯类网站,用户来自天南海北,同时浏览资讯的高并发业务场景非常普遍。这需要非常安全稳定的服务部署机制,用以保证线上用户的稳定调用。通过飞桨EasyDL生成的公有云的API,它可以有效地解决以下两个问题:

①可以无缝集成到业务系统当中;提供已经封装好的HTTP的接口,直接就可以将接口运用到APP开发或者网页的开发中;

②灵活的扩缩容的机制;针对业务实际应用的场景,在不同的时间段匹配不同的机器资源,避免在资源紧张期资源不够用。同时,在业务需求并非高并发时段,通过灵活调整机器份额的方式,省去机器资源的耗费。

最终,在整个项目中仅用2-4周就完成AI文本模型开发及上线,比传统的开发成本整体降低90%+。

基于文心大模型底座

你也可以实现高精度AI模型诉求

该汽车资讯平台之所以能够利用EasyDL快速实现文本自动分类,背后依赖百度的文心·NLP大模型的技术加持。
通过内置百度的文心·NLP大模型底座的高精度算法,用户可以完成复杂场景的高精度模型训练,比如上述提到的

案例中网站标题繁多且语法不统一的问题,就可迎刃而解。
同时,无需准备大量数据集也可获得高精度的模型投入实际应用。

百度的文心·NLP大模型能够同时从大规模知识和海量多元数据中持续学习,如同站在巨人的肩膀上,训练效率和理解准确率都得到大幅提升。

百度的文心·NLP大模型的优势

内置百度的文心·NLP大模型的EasyDL零门槛AI开发平台,提供更加便捷的一站式AI开发能力,数据标注、模型训练、服务部署都可以在一个平台简单并连贯地实现。AI模型训练环节不需要编写代码,也不需要深度学习的算法背景,就能轻松完成。

4月12日晚20:00—21:00,AI快车道-评论观点抽取专场公开课,将深入探讨各行业网站运营趋势及痛点,剖析AI赋能下的平台智能化转型升级突破口。

直播中为大家准备了诸多飞桨EasyDL落地案例:新闻资讯平台、政务服务平台、电商平台的AI实践经验,或许从案例中你会收获更多灵感。

不止如此,我们还带来了3天实训打卡营,手把手带你快速启动自己的评论观点抽取AI模型。扫码立即报名,NLP业务应用时不我待~

飞桨EasyDL助力资讯网站实现信息自动分类相关推荐

  1. 百度飞桨EasyDL助力汽车零部件企业快速解锁AI应用

    数字化正以迅雷之势全面渗入汽车产业链上中下游,成为汽车行业炙手可热的关键词.AI.云计算.区块链等新技术与传统制造业的融合,正在重塑汽车及零部件企业技术架构.产品形态和服务模式,推动汽车产业全面创新. ...

  2. 使用百度飞桨EasyDL实现电商UGC图片自动分类

    项目说明 业务背景 运动潮牌鞋类越来越受年轻人欢迎,近几年运动鞋类销量也持续增高,也出现不少用户自主交易的电商平台.用户每天上传几万张鞋子照片,包括:鞋子外观.外盒或者鞋标,后台需要将鞋类照片进行分类 ...

  3. 直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类

    一个审核员一天只能审核5000条文本信息,而在线的UGC资讯网站往往平均一个小时接收的文本信息可能超过百万条.与此同时,还需要将杂乱的内容进行分类并发布到不同的专栏页面--信息爆炸的时代,海量信息的处 ...

  4. 本地一站式极速开发AI模型 百度飞桨EasyDL桌面版来了

    智能时代来临,企业利用人工智能进行智能化升级势在必行.但由于业务性质等客观因素,不少企业在应用AI时,受场景网络环境.本地算力限制等,迫切需要满足本地实现高效AI开发和部署的解决方案.这也将成为企业快 ...

  5. 飞桨EasyDL月刊:4月功能全新升级,模型训练步骤缩短63%

    亲爱的开发者: 近来以生成式 AI.多模态预训练大模型为代表的技术变革正席卷全球,与此相关的智能化工具和平台陆续发布.飞桨 EasyDL 和 BML 位于文心全景图的工具与平台层,提供大模型开发套件及 ...

  6. 百度飞桨EasyDL桌面版正式上线,没网也能训练AI

    智能时代来临,企业利用人工智能进行智能化升级势在必行.但由于业务性质等客观因素,不少企业在应用 AI 时,受场景网络环境.本地算力限制等,迫切需要满足本地实现高效 AI 开发和部署的解决方案.这也将成 ...

  7. 飞桨EasyDL图像分类:AI自动识别车辆类型

    项目说明 业务背景 随着城市化进程的不断推进,中国汽车的保有量一直保持上升态势,截止至2022年3月底,全国汽车保有量达3.07亿,汽车保有量的不断上升.不同车辆类型的分类在智能交通系统.公共安全等领 ...

  8. 百度飞桨EasyDL图像分类:收费口车辆类型自动识别

    项目说明 业务背景 随着城市化进程的不断推进,中国汽车的保有量一直保持上升态势,截止至2022年3月底,全国汽车保有量达3.07亿,汽车保有量的不断上升.不同车辆类型的分类在智能交通系统.公共安全等领 ...

  9. IT工程师造“飞机维修安全卫士”,百度飞桨EasyDL担当“算法团队”

    一架飞机要在天空中安全飞行,背后需要复杂而繁重的"地面工作".为了保障飞机安全,航线维修人员从凌晨四点就要开始早班,在每架飞机起飞前.降落后进行全面的检修,涵盖几十个检查项目.涉及 ...

最新文章

  1. 细看晶圆代工之争,纳米制程是什么
  2. java断点续传 框架_java实现断点续传
  3. 欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响
  4. (摘要)100个伟大的商业理念:理念34:企业社会责任
  5. 我们曾探讨过的微信功能
  6. 浅谈python的深浅拷贝
  7. 一、Java入门和环境安装
  8. MySQL索引的索引长度问题
  9. ios 自动缩小字体_如何避免iOS自动调整字体大小?
  10. asp.net 页面ajax访问被阻塞
  11. php md5 验证,怎么核对md5?
  12. 税控系统链接服务器失败,税控系统连接服务器安全地址
  13. eset杀毒软件隔离区在哪里
  14. oracle alter database,alter database操作
  15. layer 在标题中加点击监听事件
  16. 模电_安规X电容_Y电容-区别与作用-20190507
  17. 类似qvod的流媒体点播服务器架设建议
  18. 鸿蒙分期靠谱吗,花呗借呗“陷阱”正式被确认,这两个禁忌不要触碰,别说没提醒你...
  19. 【PAT甲级】1021 Deepest Root (25 分)(暴力,DFS)
  20. 大学学习的期望与目标

热门文章

  1. hdu4771 Stealing Harry Potter's Precious (状压+bfs)
  2. 实现 RadioButtonList 单选按钮组设置及横向布局
  3. XYplorer 21.50.0100多语言版,资源管理器件之一
  4. Verilog学习之求两个数的差值设计
  5. 1024程序员节是怎么来的?为什么设置程序员节?
  6. number of splits 划分的条件
  7. Rust REPL Jupyter notebook
  8. 黑马程序员—[Android就业薪资] Android31期,毕业18个工作日,就业率71.95%,薪资9946元
  9. 团体项目搜查令更新一
  10. 2020年遥感类期刊SCI期刊影响因子排名—遥感, 地理, 水文类