上周为了娱乐,写了一篇《一行Python代码实现夸夸聊天机器人》,虽然只有几十条人工整理的通用夸夸语料,但是貌似也能应付一些简单需求。不过这篇文章在微博、AINLP微信公众号、知乎专栏推送后,还是有很多同学强烈建议丰富语料库。这个建议其实是很不错的,所以周末认真调研了一番,决定从豆瓣上的夸夸小组入手,这里面有很多现成的语料,至于混进微信、QQ夸夸群,收集语料,我觉得不太现实。

豆瓣上有很多夸夸小组,貌似最大的莫过于“相互表扬小组”,最近因为这股夸夸风,据说这个小组已经开始限制加入新人了,我针对这个小组写了一个小爬虫,爬了一份夸夸语料,总计2万6千多个帖子,采集了标题、内容和回复的相关信息,保存为json格式,1个帖子1条,大概是这样的:

{"title": "因为没有男朋友,求夸", "url": "https://www.douban.com/group/topic/135844056/", "author": "71277500", "last_reply_time": "03-17 16:40", "content": "笨人原本一个人好好的,都单了两三年了,一直觉得挺开心的。最近不知道抽了什么风,突然特别想找个男朋友。但是但是,偏偏找不到靠谱的男朋友!现在一个人睡不着,没想明白这事,求夸。\n", "replies_num": "14", "replies": [{"content": "你这么可爱肯定会有一个很好很好的人在等你!", "post_id": "135844056", "comment_id": "1834208628", "user_id": "189783421", "pub_time": "2019-03-16 01:08:38"}, {"content": "最好的肯定要晚点出现哦", "post_id": "135844056", "comment_id": "1834208775", "user_id": "189783421", "pub_time": "2019-03-16 01:08:52"}, {"content": "“笨人”,刚看到开头就笑了", "post_id": "135844056", "comment_id": "1834282396", "user_id": "192799520", "pub_time": "2019-03-16 07:50:50"}, {"content": "一个好可耐的宝宝", "post_id": "135844056", "comment_id": "1834282931", "user_id": "192799520", "pub_time": "2019-03-16 07:52:24"}, {"content": "也许明天就出现了", "post_id": "135844056", "comment_id": "1834290527", "user_id": "185989534", "pub_time": "2019-03-16 08:11:38"}, {"content": "你知道有一个适合你的那个在等你吧", "post_id": "135844056", "comment_id": "1834308924", "user_id": "192597621", "pub_time": "2019-03-16 08:46:23"}, {"content": "如果没有男朋友,肯定是你太优秀", "post_id": "135844056", "comment_id": "1834313229", "user_id": "171520899", "pub_time": "2019-03-16 08:53:19"}, {"content": "没有男朋友多好,省钱", "post_id": "135844056", "comment_id": "1834320533", "user_id": "130379006", "pub_time": "2019-03-16 09:03:42"}, {"content": "哈哈,谢谢好可爱的你呀!", "post_id": "135844056", "comment_id": "1835717925", "user_id": "71277500", "pub_time": "2019-03-17 16:16:58"}, {"content": "有道理", "post_id": "135844056", "comment_id": "1835718260", "user_id": "71277500", "pub_time": "2019-03-17 16:17:22"}, {"content": "也许吧,哈哈哈", "post_id": "135844056", "comment_id": "1835718395", "user_id": "71277500", "pub_time": "2019-03-17 16:17:32"}, {"content": "原本想写本人,一不小心错别字,看样子还是很符合的", "post_id": "135844056", "comment_id": "1835719069", "user_id": "71277500", "pub_time": "2019-03-17 16:18:17"}, {"content": "没有,只是单纯地觉得很可爱,很符合你写一段话的文风

用python写问答机器人_问答机器人相关推荐

  1. python可以做机器人吗_零基础如何用Python写一个简单的WeChat机器人?(内附代码)...

    (bing图片) python这两年热火朝天,依托其众多类库,基于python的应用层出不穷,也大大降低了非计算机专业人员的入门门槛,WeChat机器人自然不在话下!-- 聪明的瓦肯人 苦于有时候总是 ...

  2. 用Python写了一个微信聊天机器人(打团了让它来陪女友聊天)

    在我们的生活和工作当中,很多时候我们并不能及时地回复消息,尤其是业务比较多的人,客户给我们发消息我们不回又不好,但又没有那么多精力时时回复,这个时候智能机器人就能帮助我们解决很多问题. 像电商类的客服 ...

  3. python自然语言处理与方言聊天机器人_聊天机器人Python实现案例 | 老炮儿聊机器语音...

    点击上方蓝色字体,关注:九三智能控 世界上最早的聊天机器人诞生于20世纪80年代,名为"阿尔贝特",用BASIC语言编写而成.目前,聊天机器人从功能和技术的角度,可以分为两类,一类 ...

  4. 星界边境 机器人_星界边境机器人制造台怎么做 | 手游网游页游攻略大全

    发布时间:2018-02-21 星界边境制造捕获舱站方法. 问:如何制造捕获舱站,需要触发什么吗? 答:升级了星图以后,制造台会多一个捕获仓站,造出来(需要钛)然后只能挂在墙上,里面有诱饵可以造. 标 ...

  5. 用python写计算机专业_自学open cv,用Python写的,本人是一名学生党,因为我本专业不是搞计算机的_cc霜_学生党_教育_教育其他...

    自学open cv,用Python写的,本人是一名学生党,因为我本专业不是搞计算机的,所以一切从0开始,自己学习的时候就整理一些笔记,以防忘记了.

  6. python写魔兽世界脚本_用python bat写软件安装脚本 + HM NIS Edit自动生成软件安装脚本...

    2019-03-11更新:原来NSIS脚本也可以禁用64位文件操作重定向的! 1.在安装脚本的开始处定义 LIBRARY_X64. !include "MUI.nsh" !incl ...

  7. 得力助手 消防员的 消防机器人_消防机器人:消防员的“得力助手”(科技大观)...

    近日,巴黎圣母院突发大火,其标志性的塔尖倒塌,令全球惋惜.据法国内政部门消息,当时消防部门紧急派遣一台名为"巨人"的消防机器人参与救援,在熊熊大火中进入建筑内部作业,与大约400名 ...

  8. 如何用python写串口通信软件_如何用python写个串口通信的程序?

    展开全部 打开串口后启动一个线程来监听串口数据的进入,有数据时,就做数据的处理. 用python写串口通信e68a84e8a2ad32313133353236313431303231363533313 ...

  9. 得力助手 消防员的 消防机器人_消防机器人:消防员的“得力助手”

    作者:浦天龙 近日,巴黎圣母院突发大火,其标志性的塔尖倒塌,令全球惋惜.据法国内政部门消息,当时消防部门紧急派遣一台名为"巨人"的消防机器人参与救援,在熊熊大火中进入建筑内部作业, ...

  10. python写mysql脚本_使用python写一个监控mysql的脚本,在zabbix web上加上模板

    使用python写一个监控mysql的脚本,在zabbix web上加上模板: ##先使用MySQLdb的接口关联数据库. [root@cml python]# cat check_Mysql_cus ...

最新文章

  1. android gravity和layout_gravity区别
  2. 计算机的五大主要应用领域是电大,电大计算机应用基础考答案
  3. 使用VC++6.0创建MFC对话框程序
  4. 【arduino】初测ESP32的DAC生成AV视频模拟信号项目:ESP32CompositeVideo
  5. sscanf fscanf函数格式化输入遇到\n问题
  6. 图像处理:灰度(级)和分辨率
  7. WindowsAPI-------获取系统的相关信息
  8. 最近和很多创业者和中小企业老板沟通
  9. linux基础命令---bzip2
  10. 过滤DataTable中的指定字段重复的行
  11. winform适应不同的分辨率_C# Winform的自适应分辨率的类-阿里云开发者社区
  12. JAVA设计模式之模板方法模式-场景、例子、深入
  13. VLC帮助文档-中文详细版(vlc-2.2.6)
  14. 无人机倾斜摄影三维建模过程及方案
  15. python判断excel某单元格是否为空
  16. JS 把数组按倒序排列
  17. 笔记本连不上路由器WiFi,可以连接手机热点,手机可以连接WiFi
  18. 陀螺产业区块链第九季 | 如何用区块链搭建营销激励模型?
  19. c盘扩容提示簇被标记_技能+ | C盘空间满了怎么办?无需格式化、不用重装系统,教你如何轻松搞定扩容...
  20. 【误差】方差、标准差、均方误差和均方根误差的区别总结

热门文章

  1. 国际化地区语言码对照表(i18n)
  2. 软件项目管理实验一补充
  3. arctanx麦克劳林公式推导过程_高中数学三角函数公式大全,竞赛高考都适用(含公式推导)...
  4. 飞书信终极外贸自建站系统带分销拼团社交裂变自动售后机器人
  5. 中国最美的一千个汉字 : 千字文
  6. python复数类型的虚部通过_Python 复数数据类型详解(complex)[学习 Python 必备基础知识][看此一篇就够了...
  7. STREAM内存带宽测试工具介绍及其内部实现
  8. TapTap推广统计逻辑
  9. 微信8.0来了,iOS更新及Android内测版来啦(内含内测版下载连接)
  10. Windows系统中Word文档在插入公式时,公式按钮是灰色的(无法插入公式)的解决办法