自然语言处理技术在各行业有着广泛的应用,然而长久以来,其落地并不是一帆风顺的。

针对这些棘手的问题,百度飞桨深耕产业界,选取NLP领域三大高频场景——检索、问答、情感分析,推出面向真实应用场景的系统功能,覆盖金融、电商零售、文娱、旅游、房地产、生活服务等多个行业,万方、荣耀、国美、驴妈妈旅游网、房天下、食行生鲜等均已基于相关方案成功完成业务上线。

语义检索系统

检索系统存在于人们日常使用的很多产品中,比如商品搜索、学术文献检索、通用搜索引擎等。传统方法匹配能力有限,只能捕捉字面匹配,而语义检索能够捕捉深层语义信息,达到更精准、更广泛地召回相似结果的目的。

图:基于字面的稀疏向量检索 vs 基于语义的稠密向量检索

PaddleNLP本次推出语义检索系统,流程图如下,其中左侧为召回环节,核心是语义向量抽取模型;右侧是排序环节,核心是排序模型

图:PaddleNLP Neural Search语义检索系统流程图

具备三大亮点:

  • 低门槛:数据+代码+模型全部开源,无需标注数据也能够轻松构建起检索系统,并且提供训练、预测、近似最近邻(ANN)搜索一站式能力。

  • 精度高:结合业界前沿模型和自有创新思路,推出适用多种数据情况、灵活的技术方案,精度超高。

表:不同技术方案下的Recall@K指标

  • 性能好:与开源向量数据库Milvus打通,结合Paddle Inference,实现高性能建库,并在千万级数据中做到毫秒级快速查询。

图:文献检索示例

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search

预训练时代的端到端问答 - RocketQA

问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题,问答系统广泛应用于搜索引擎、智能设备、智能客服等产品中。

图:问答系统应用示例

传统的问答系统通常由多个模块级联组成,而在预训练时代我们可以用一个端到端模型代替传统的复杂系统,实现更好的效果。然而,研发端到端问答模型需要大量的计算和数据资源,为了使更多开发者能方便地获取最先进的问答技术,我们推出了RocketQA开发工具,有三大亮点:

  • 领先:提供国际领先的端到端问答技术-RocketQA,效果远超传统问答系统,与国际知名公司的技术方案相比也有一定优势。

  • 中文:开源首个中文端到端问答模型,该模型基于知识增强的预训练模型ERNIE和百万量级的人工标注数据集DuReader训练得到,效果优异。

  • 易用:提供11种预置模型、2种安装方式和极简的开发接口, 基于神经搜索框架JINA和近似近邻检索库FAISS,2行命令即可搭建自己的问答系统。

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/RocketQA

情感分析系统 

情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。

依托百度领先的情感分析技术,食行生鲜自动生成菜品评论标签辅助用户购买,并指导运营采购部门调整选品和促销策略;房天下向购房者和开发商直观展示楼盘的用户口碑情况,并对好评楼盘置顶推荐;国美搭建服务智能化评分系统,客服运营成本减少40%,负面反馈处理率100%。

为了降低技术门槛,方便开发者共享效果领先的情感分析技术,PaddleNLP本次开源的情感分析系统,具备三大亮点:

  • 覆盖任务全:集成句子级情感分类、评论观点抽取、属性级情感分类等多种情感分析能力,并开源模型,且打通模型训练、评估、预测部署全流程。

图:PaddleNLP Sentiment Analysis核心能力展示

  • 效果领先:集成百度研发的基于情感知识增强的预训练模型SKEP,为各类情感分析任务提供统一且强大的情感语义表示能力。

  • 预测性能强:针对预训练模型预测效率低的问题,开源小模型PP-MiniLM,配套裁剪、量化优化策略,预测性能提速900%!

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis

如果您想了解详细技术方案和完整代码、下载开源数据和模型,欢迎关注GitHub Repo,也可在直播中与百度高工交流哦:

PaddleNLP: https://github.com/PaddlePaddle/PaddleNLP

RocketQA: https://github.com/PaddlePaddle/RocketQA

直播预告课

12.28~12.30日每晚20:15~21:30,百度高工将带来直播讲解,剖析行业痛点问题,深入解读系统方案,并带来手把手项目实战。阅读原文即可报名,或者扫码上车!我们直播间不见不散~

扫码报名直播课,加入技术交流群

更多精彩抢先看

安利几个优质NLP开源项目!搜索、问答、情感分析…相关推荐

  1. 安利几个优质nlp开源项目

    1.OpenNRE OpenNRE 是基于 Tensorflow 开发的,一个用于神经网络关系提取的工具包,由清华大学刘知远老师及其团队贡献的开源项目.在该项目中,关系提取会分为嵌入.编码器.选择器和 ...

  2. Go实现的5G核心网开源项目free5gc源码分析系列 | Gopher Daily (2021.01.08) ʕ◔ϖ◔ʔ

    每日一谚:"Abstractions should be discovered, not created." Go技术新闻 Go实现的5G核心网开源项目free5gc源码分析系列 ...

  3. BT开源项目Snark源码分析

    BT开源项目Snark源码分析 Snark是国外一个开源Java的项目,实现了BitTorrent协议,通过分析此项目的源程序,可以更利于我们更加深入的了解当前流行的BT软件的原理,进而可以指导我们的 ...

  4. linux开源项目github,GitHub 上的优质 Linux 开源项目,真滴牛逼!

    作为一名互联网人,提起 Linux 大家都不陌生,尤其是日常跟 Linux 操作系统打交道最多的,最熟悉不过了.互联网上关于 Linux 相关的教程和资料也非常的多,但是当你从中筛选出真正对自己有帮助 ...

  5. GitHub 上的优质 Linux 开源项目,真滴牛逼!

    作为一名互联网人,提起 Linux 大家都不陌生,尤其是日常跟 Linux 操作系统打交道最多的,最熟悉不过了.互联网上关于 Linux 相关的教程和资料也非常的多,但是当你从中筛选出真正对自己有帮助 ...

  6. Github搜索语法大全,超实用的开源项目搜索技巧

    写在前面 在每一个程序员眼中,GitHub作为全球最大同性交友网站,它上面的各类优质开源框架以及教程,无论在数量还是质量上,是当之无愧的世界第一,因此,如何高效的在GitHub上进行搜索就成为了每一位 ...

  7. micropython 人脸识别检测_Flask实战!从后台管理到人脸识别,六款优质Flask开源项目介绍...

    Flask 是一个微型的 Python 开发的 Web 框架,基于 Werkzeug WSGI 工具箱和 Jinja2 模板引擎. Flask 使用 BSD 授权. Flask 也被称为 " ...

  8. LDA︱基于LDA的Topic Model变形+一些NLP开源项目

    一.LDA的变形 转载于:转:基于LDA的Topic Model变形 Topic Model最适合的变种是加入先验信息: 我相信题主使用的是完全无监督的Topic Model,然而这实在是过于不wor ...

  9. Flask实战!从后台管理到人脸识别,六款优质Flask开源项目介绍

    Flask 是一个微型的 Python 开发的 Web 框架,基于 Werkzeug WSGI 工具箱和 Jinja2 模板引擎. Flask 使用 BSD 授权. Flask 也被称为 " ...

最新文章

  1. Go 源码里的这些 //go: 指令,go:linkname 你知道吗?
  2. java获取达梦数据库_Java连接达梦数据库驱动dm_jdbc
  3. Github 总结!「Java知识体系详细汇总2021版」开放下载了!
  4. linxu命令之cp 拷贝整个目录下的所有文件
  5. LibreOffice 3.6.6 修复了 50 个 Bug
  6. 用户和用户组的简单总结
  7. 浅谈缓存最终一致性的解决方案
  8. 如何删除JAVA集合中的元素
  9. linux 解决端口占用
  10. 从numpy里加载_PyTorch强化:01.PyTorch 数据加载和处理
  11. 算法题存档20190206
  12. 能力提升综合题单Part 8.9.3 费用流
  13. 学生优化--文本框限制
  14. Android实现NCM转MP3格式
  15. php 费率计算_如何计算您的小时费率
  16. jscc控制器说明书_JSCC精研调速器 精研SF90E数显调速器 90W精研马达面板控制器
  17. 抖音直播引流的最快方法是什么?就简单两招破500人!
  18. qpython3安卓接口_qpython3 读取安卓lastpass Cookies
  19. 华为云服务器安全组端口开放教程
  20. 深度解读AMBA、AHB、APB、AXI总线

热门文章

  1. Oracle 游标使用全解(摘抄)
  2. 启动列表的activity
  3. 工单更改历史记录(轉載)
  4. Android开发学习笔记-自定义组合控件
  5. Python核心教程(第二版)读书笔记(三)
  6. Linux下静态库和动态库的编译连接
  7. recovery模式下支持ADB连接和串口操作
  8. 嵌入式如何入门,要不要学习Python
  9. nrf51822添加UUID
  10. VMware 下Linux无法上网 新增支持WIFI方式 无线连接