安利几个优质NLP开源项目!搜索、问答、情感分析…
自然语言处理技术在各行业有着广泛的应用,然而长久以来,其落地并不是一帆风顺的。
针对这些棘手的问题,百度飞桨深耕产业界,选取NLP领域三大高频场景——检索、问答、情感分析,推出面向真实应用场景的系统功能,覆盖金融、电商零售、文娱、旅游、房地产、生活服务等多个行业,万方、荣耀、国美、驴妈妈旅游网、房天下、食行生鲜等均已基于相关方案成功完成业务上线。
语义检索系统
检索系统存在于人们日常使用的很多产品中,比如商品搜索、学术文献检索、通用搜索引擎等。传统方法匹配能力有限,只能捕捉字面匹配,而语义检索能够捕捉深层语义信息,达到更精准、更广泛地召回相似结果的目的。
图:基于字面的稀疏向量检索 vs 基于语义的稠密向量检索
PaddleNLP本次推出语义检索系统,流程图如下,其中左侧为召回环节,核心是语义向量抽取模型;右侧是排序环节,核心是排序模型。
图:PaddleNLP Neural Search语义检索系统流程图
具备三大亮点:
低门槛:数据+代码+模型全部开源,无需标注数据也能够轻松构建起检索系统,并且提供训练、预测、近似最近邻(ANN)搜索一站式能力。
精度高:结合业界前沿模型和自有创新思路,推出适用多种数据情况、灵活的技术方案,精度超高。
表:不同技术方案下的Recall@K指标
性能好:与开源向量数据库Milvus打通,结合Paddle Inference,实现高性能建库,并在千万级数据中做到毫秒级快速查询。
图:文献检索示例
前往GitHub获取开源代码和模型:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search
预训练时代的端到端问答 - RocketQA
问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题,问答系统广泛应用于搜索引擎、智能设备、智能客服等产品中。
图:问答系统应用示例
传统的问答系统通常由多个模块级联组成,而在预训练时代我们可以用一个端到端模型代替传统的复杂系统,实现更好的效果。然而,研发端到端问答模型需要大量的计算和数据资源,为了使更多开发者能方便地获取最先进的问答技术,我们推出了RocketQA开发工具,有三大亮点:
领先:提供国际领先的端到端问答技术-RocketQA,效果远超传统问答系统,与国际知名公司的技术方案相比也有一定优势。
中文:开源首个中文端到端问答模型,该模型基于知识增强的预训练模型ERNIE和百万量级的人工标注数据集DuReader训练得到,效果优异。
易用:提供11种预置模型、2种安装方式和极简的开发接口, 基于神经搜索框架JINA和近似近邻检索库FAISS,2行命令即可搭建自己的问答系统。
前往GitHub获取开源代码和模型:
https://github.com/PaddlePaddle/RocketQA
情感分析系统
情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。
依托百度领先的情感分析技术,食行生鲜自动生成菜品评论标签辅助用户购买,并指导运营采购部门调整选品和促销策略;房天下向购房者和开发商直观展示楼盘的用户口碑情况,并对好评楼盘置顶推荐;国美搭建服务智能化评分系统,客服运营成本减少40%,负面反馈处理率100%。
为了降低技术门槛,方便开发者共享效果领先的情感分析技术,PaddleNLP本次开源的情感分析系统,具备三大亮点:
覆盖任务全:集成句子级情感分类、评论观点抽取、属性级情感分类等多种情感分析能力,并开源模型,且打通模型训练、评估、预测部署全流程。
图:PaddleNLP Sentiment Analysis核心能力展示
效果领先:集成百度研发的基于情感知识增强的预训练模型SKEP,为各类情感分析任务提供统一且强大的情感语义表示能力。
预测性能强:针对预训练模型预测效率低的问题,开源小模型PP-MiniLM,配套裁剪、量化优化策略,预测性能提速900%!
前往GitHub获取开源代码和模型:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis
如果您想了解详细技术方案和完整代码、下载开源数据和模型,欢迎关注GitHub Repo,也可在直播中与百度高工交流哦:
PaddleNLP: https://github.com/PaddlePaddle/PaddleNLP
RocketQA: https://github.com/PaddlePaddle/RocketQA
直播预告课
12.28~12.30日每晚20:15~21:30,百度高工将带来直播讲解,剖析行业痛点问题,深入解读系统方案,并带来手把手项目实战。阅读原文即可报名,或者扫码上车!我们直播间不见不散~
扫码报名直播课,加入技术交流群
更多精彩抢先看
安利几个优质NLP开源项目!搜索、问答、情感分析…相关推荐
- 安利几个优质nlp开源项目
1.OpenNRE OpenNRE 是基于 Tensorflow 开发的,一个用于神经网络关系提取的工具包,由清华大学刘知远老师及其团队贡献的开源项目.在该项目中,关系提取会分为嵌入.编码器.选择器和 ...
- Go实现的5G核心网开源项目free5gc源码分析系列 | Gopher Daily (2021.01.08) ʕ◔ϖ◔ʔ
每日一谚:"Abstractions should be discovered, not created." Go技术新闻 Go实现的5G核心网开源项目free5gc源码分析系列 ...
- BT开源项目Snark源码分析
BT开源项目Snark源码分析 Snark是国外一个开源Java的项目,实现了BitTorrent协议,通过分析此项目的源程序,可以更利于我们更加深入的了解当前流行的BT软件的原理,进而可以指导我们的 ...
- linux开源项目github,GitHub 上的优质 Linux 开源项目,真滴牛逼!
作为一名互联网人,提起 Linux 大家都不陌生,尤其是日常跟 Linux 操作系统打交道最多的,最熟悉不过了.互联网上关于 Linux 相关的教程和资料也非常的多,但是当你从中筛选出真正对自己有帮助 ...
- GitHub 上的优质 Linux 开源项目,真滴牛逼!
作为一名互联网人,提起 Linux 大家都不陌生,尤其是日常跟 Linux 操作系统打交道最多的,最熟悉不过了.互联网上关于 Linux 相关的教程和资料也非常的多,但是当你从中筛选出真正对自己有帮助 ...
- Github搜索语法大全,超实用的开源项目搜索技巧
写在前面 在每一个程序员眼中,GitHub作为全球最大同性交友网站,它上面的各类优质开源框架以及教程,无论在数量还是质量上,是当之无愧的世界第一,因此,如何高效的在GitHub上进行搜索就成为了每一位 ...
- micropython 人脸识别检测_Flask实战!从后台管理到人脸识别,六款优质Flask开源项目介绍...
Flask 是一个微型的 Python 开发的 Web 框架,基于 Werkzeug WSGI 工具箱和 Jinja2 模板引擎. Flask 使用 BSD 授权. Flask 也被称为 " ...
- LDA︱基于LDA的Topic Model变形+一些NLP开源项目
一.LDA的变形 转载于:转:基于LDA的Topic Model变形 Topic Model最适合的变种是加入先验信息: 我相信题主使用的是完全无监督的Topic Model,然而这实在是过于不wor ...
- Flask实战!从后台管理到人脸识别,六款优质Flask开源项目介绍
Flask 是一个微型的 Python 开发的 Web 框架,基于 Werkzeug WSGI 工具箱和 Jinja2 模板引擎. Flask 使用 BSD 授权. Flask 也被称为 " ...
最新文章
- Go 源码里的这些 //go: 指令,go:linkname 你知道吗?
- java获取达梦数据库_Java连接达梦数据库驱动dm_jdbc
- Github 总结!「Java知识体系详细汇总2021版」开放下载了!
- linxu命令之cp 拷贝整个目录下的所有文件
- LibreOffice 3.6.6 修复了 50 个 Bug
- 用户和用户组的简单总结
- 浅谈缓存最终一致性的解决方案
- 如何删除JAVA集合中的元素
- linux 解决端口占用
- 从numpy里加载_PyTorch强化:01.PyTorch 数据加载和处理
- 算法题存档20190206
- 能力提升综合题单Part 8.9.3 费用流
- 学生优化--文本框限制
- Android实现NCM转MP3格式
- php 费率计算_如何计算您的小时费率
- jscc控制器说明书_JSCC精研调速器 精研SF90E数显调速器 90W精研马达面板控制器
- 抖音直播引流的最快方法是什么?就简单两招破500人!
- qpython3安卓接口_qpython3 读取安卓lastpass Cookies
- 华为云服务器安全组端口开放教程
- 深度解读AMBA、AHB、APB、AXI总线