【Paddle】2020CCF-千言:多技能对话baseline手把手使用教程

摘要:包含了本机和AI Studio两种实操Plato方法

下载官网数据集

2020CCF-千言:多技能对话比赛地址
注意将子文件内的压缩包一一解压

本地教程

强烈不推荐!!!
对于windows玩家,paddle的环境设置等太麻烦了,不如直接薅羊毛去官网用AI Studio跑

指定一个文件内,使用git命令,从github上下载Knover

git clone https://github.com/PaddlePaddle/Knover
cd Knover
git checkout luge-dialogue


之后,将luge-dialogue/config文件复制粘贴到该文件夹内,如上图所示

其次,下载预训练模型,均可通过链接下载,下载好压缩包后将其解压至12L.pretrain,同样复制该文件夹命名为12L(与之后的config文件对应),最终效果如上图所示

# 大规模数据预训练模型
wget "https://dialogue.bj.bcebos.com/luge/12L.pretrain.tar"
tar -xvf ./12L.pretrain.tar

如果你不想修改代码,对于paddle进行数据token化的代码请参见\Knover\luge-dialogue\tools\convert_data_to_numerical.py文件,从下述代码中可以修改或匹配路径格式

注意不修改代码,就要将数据集移到\Knover\data\luge-dialogue下,如下图所示

然后,在Knover目录下,进行数据转换,将数据集转换为Plato所需的数据格式

python ./luge-dialogue/tools/convert_data_to_numerical.py ./luge-dialogue/config/spm.model

大约2小时左右后,六个不同领域的数据集便被转化为train、test、valid三个标准数据集,可以得到如下这样

倒数第二步,修改两个文件

  • 12L_train.conf
    对于本地,注意batch_size的大小,可能OOM

  • train.sh
    此处是针对本机的GPU数量进行修改

    一、二、三等等块GPU…的本机设置

    最后一步,训练模型
    在Knover文件夹内git bush here

笔者用的是anaconda环境
故先激活环境

source activate paddle

模型训练

./scripts/local/train.sh ./config/12L_train.conf

AI Studio教程

AI Studio官网链接

在此推荐两个优秀的简要教程:

  • jupyter notebook版:2020 CCF BDCI: 千言对话baseline

  • 脚本运行版:千言开放域对话比赛

笔者将使用jupyter notebook版,详细版如下
将本地处理好的数据集train/test/valid.txt已上传:本人所用数据集

在此数据集上,新建项目,注意!! paddle版本要选1.8.4,不要选2.0.0

终端

在终端处依次输入

git clone https://github.com/PaddlePaddle/Knover
cd Knover
git checkout luge-dialogueln  -s ./luge-dialogue/config ./configwget "https://dialogue.bj.bcebos.com/luge/12L.pretrain.tar"
tar -xvf ./12L.pretrain.tarln -snf 12L.pretrain 12L

之后,修改config文件中的12L_train.conf,如下图所示

最后,在终端运行

./scripts/local/train.sh ./config/12L_train.conf

在Knover/log/文件内可以看到模型的运行过程

【Paddle】2020CCF-千言:多技能对话baseline使用教程相关推荐

  1. 11月千言最新评测推荐,覆盖中文对话、视频语义理解、可信AI等前沿方向

    千言数据集是百度联合中国计算机学会.中国中文信息学会共同发起的数据共建计划,千言针对每个自然语言处理问题,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式,帮助加速模型的研发.截至目前, ...

  2. 『2021语言与智能技术竞赛』-多技能对话任务基线系统 Fork 325 喜欢 7

    2021语言与智能技术竞赛:多技能对话 多技能对话系统旨在建立一个开放域的多轮对话系统,能自然地融合多个对话技能,比如知识对话.推荐对话等,使得机器可以流畅自然地与人进行语言交互,从而有效地提升用户体 ...

  3. “千言”开源数据集项目全面升级:数据驱动AI技术进步

    "千言"是由百度联合中国计算机学会.中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步.近日,在2021年12月12日的 WAVE SUMM ...

  4. 聚焦可信AI与产业应用,百度联合发起千言计划实现情感分析2.0升级

    数据集是推动自然语言处理技术进步的基石.为应对自然语言处理技术应用中面临的多领域.多场景等诸多挑战,百度联合中国计算机学会.中国中文信息学会,于2020年8月共同发起中文自然语言处理数据共建计划--& ...

  5. 百度NLP“十年十人”重磅亮相,推出全球最大中文NLP数据共建计划“千言”

    自然语言理解(NLP)素有"人工智能皇冠上的明珠"盛誉,这也意味着语言与知识等认知层面的技术突破将进一步促进AI深入发展. 8月25日,以"掌握知识.理解语言.拥有智能& ...

  6. 前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[2] | ...

  7. 容联云AI问鼎“千言数据集—实体链指评测“,持续打造知识语义计算能力

    容联云研发并积累了面向业务知识图谱敏捷构建与应用的核心算法能力,可快速响应业务需求,并利用"知识"增强现有的语义理解技术,解决用户的知识查询等问题. 近日,容联云知识及语义计算技术 ...

  8. 梅开二度!容联云AI荣登“千言数据集-语义解析”权威测评榜首

    近日,容联云AI研究院自主研发的表格问答技术在中文"千言数据集:语义解析"行业测评中击败多支劲旅,荣登榜首.此前容联云已荣获"千言数据集:实体链指"评测冠军. ...

  9. 让AI用事实说话,千言第二届面向事实一致性的生成评测比赛启动

    火遍全网的ChatGPT让人惊叹全球热点技术AIGC(AI Generated Content,人工智能内容生成)的迅速发展,它似乎能够理解和产生复杂的想法,可以回复各种问题,进行有逻辑的对话,可以创 ...

最新文章

  1. 让网管暴寒的网络故障(一笑了之)
  2. [book]道法自然
  3. KindEditor编辑器, 利用ajax动态切换编辑器内容
  4. 自定义_如何自定义协议
  5. 安全之心:一文读懂可信计算
  6. jQuery——入门(四)JQuery 事件
  7. Java 8实战 第一章笔记
  8. java 变量与常量_java的变量和常量
  9. AD——修改域用户的密码
  10. 2021哈工程计算机考研科目,2021考研大纲:哈尔滨工程大学计算机专业基础综合2021年硕士研究生自命题考试大纲...
  11. Android 扫码枪 读取(外接键盘读取)
  12. 用python 制作视频播放器
  13. 《西部世界》会成真吗? 人类如何避免被机器人干掉的未来?
  14. (github附源码)毕设微信小程序二手书交易后台PHP微擎
  15. win10此计算机无法创建家庭组,教你Win10专业版无法创建家庭组怎么办?
  16. 计算机之魂计算机软件系统教学设计,大连理工版信息技术八上《计算机之魂——计算机软件系统》教案1.doc...
  17. 2005高考作文题目汇总
  18. Python课堂程序之猜单词游戏
  19. obj[key],ojb['key']和obj.key
  20. X3850 X5安装ESXI6.0U3需要手动加载LPe11000驱动

热门文章

  1. 工业物联网案例:智能工厂设备无人值守系统方案
  2. 人民币符号在html的显示方法
  3. LaTex-资源分享-包括各种LaTex模板,如书籍 PPT 论文 简历, 国科大学位论文模板等
  4. Kali Linux Web 渗透测试秘籍 第十章 OWASP Top 10 的预防
  5. 计算机主机硬件拆卸及安装步骤,怎样快速拆卸电脑主机
  6. 【数据转换】ascii文件转换为tif文件的函数
  7. OCR技术简介——人工智能爆发前的技术
  8. 独立站SEO推广的正确打开方式
  9. 第十二届蓝桥杯大赛软件赛省赛 C/C++ 大学 B 组 填空题
  10. 基于FPGA开发板使用Verilog设计PWM呼吸灯实验