数据集地址:

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

数据集介绍

这个公开的资源被很多和自然语言处理NLP相关的开源代码和论文提到,

所以仔细阅读了readme,并记录相关要点

所有文件以" +++$+++ "分隔符

- movie_titles_metadata.txt
    - 包含每部电影标题信息
    - fields:
        - movieID,
        - movie title,
        - movie year,
           - IMDB rating,
        - no. IMDB votes,
         - genres in the format ['genre1','genre2',?'genreN']

- movie_characters_metadata.txt
    - 包含每部电影角色信息
    - fields:
        - characterID
        - character name
        - movieID
        - movie title
        - gender ("?" for unlabeled cases)
        - position in credits ("?" for unlabeled cases)

关键是下面两个文件,一个包含了所有文本,一个包含了文本之间的关系

- movie_lines.txt
    - 包含每个表达(utterance)的实际文本
    - fields:
        - lineID
        - characterID (who uttered this phrase)
        - movieID
        - character name
        - text of the utterance

前面5个样本:

L1045 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ They do not!
L1044 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ They do to!
L985 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ I hope so.
L984 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ She okay?
L925 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ Let's go.

- movie_conversations.txt
    - 对话的结构-
    - fields
        - characterID of the first character involved in the conversation 对话中的第一个角色的ID

- characterID of the second character involved in the conversation 对话中的第二个角色的ID

- movieID of the movie in which the conversation occurred  对话所属电影的ID

- list of the utterances that make the conversation, in chronological
            order: ['lineID1','lineID2',?'lineIDN']
            has to be matched with movie_lines.txt to reconstruct the actual content

对话中以时间顺序的各个表达的列表,

order: ['lineID1','lineID2',?'lineIDN']必须和movie_lines.txt匹配以便于重构实际内容

前面5个样本:

u0 +++$+++ u2 +++$+++ m0 +++$+++ ['L194', 'L195', 'L196', 'L197']
u0 +++$+++ u2 +++$+++ m0 +++$+++ ['L198', 'L199']
u0 +++$+++ u2 +++$+++ m0 +++$+++ ['L200', 'L201', 'L202', 'L203']
u0 +++$+++ u2 +++$+++ m0 +++$+++ ['L204', 'L205', 'L206']
u0 +++$+++ u2 +++$+++ m0 +++$+++ ['L207', 'L208']

- raw_script_urls.txt
    -原始来源的url( the urls from which the raw sources were retrieved)

========================================================================================

英文版:

Cornell Movie-Dialogs Corpus

Distributed together with:

"Chameleons in imagined conversations: A new approach to understanding coordination of linguistic style in dialogs"
Cristian Danescu-Niculescu-Mizil and Lillian Lee
Proceedings of the Workshop on Cognitive Modeling and Computational Linguistics, ACL 2011.

(this paper is included in this zip file)

NOTE: If you have results to report on these corpora, please send email to cristian@cs.cornell.edu or llee@cs.cornell.edu so we can add you to our list of people using this data.  Thanks!

Contents of this README:

A) Brief description
    B) Files description
    C) Details on the collection procedure
    D) Contact

A) Brief description:

This corpus contains a metadata-rich collection of fictional conversations extracted from raw movie scripts:

- 220,579 conversational exchanges between 10,292 pairs of movie characters
- involves 9,035 characters from 617 movies
- in total 304,713 utterances
- movie metadata included:
    - genres
    - release year
    - IMDB rating
    - number of IMDB votes
    - IMDB rating
- character metadata included:
    - gender (for 3,774 characters)
    - position on movie credits (3,321 characters)

B) Files description:

In all files the field separator is " +++$+++ "

- movie_titles_metadata.txt
    - contains information about each movie title
    - fields: 
        - movieID, 
        - movie title,
        - movie year, 
           - IMDB rating,
        - no. IMDB votes,
         - genres in the format ['genre1','genre2',É,'genreN']

- movie_characters_metadata.txt
    - contains information about each movie character
    - fields:
        - characterID
        - character name
        - movieID
        - movie title
        - gender ("?" for unlabeled cases)
        - position in credits ("?" for unlabeled cases)

- movie_lines.txt
    - contains the actual text of each utterance
    - fields:
        - lineID
        - characterID (who uttered this phrase)
        - movieID
        - character name
        - text of the utterance

- movie_conversations.txt
    - the structure of the conversations
    - fields
        - characterID of the first character involved in the conversation
        - characterID of the second character involved in the conversation
        - movieID of the movie in which the conversation occurred
        - list of the utterances that make the conversation, in chronological 
            order: ['lineID1','lineID2',É,'lineIDN']
            has to be matched with movie_lines.txt to reconstruct the actual content

- raw_script_urls.txt
    - the urls from which the raw sources were retrieved

C) Details on the collection procedure:

We started from raw publicly available movie scripts (sources acknowledged in 
raw_script_urls.txt).  In order to collect the metadata necessary for this study 
and to distinguish between two script versions of the same movie, we automatically
 matched each script with an entry in movie database provided by IMDB (The Internet
 Movie Database; data interfaces available at http://www.imdb.com/interfaces). Some
 amount of manual correction was also involved. When  more than one movie with the same
 title was found in IMBD, the match was made with the most popular title 
(the one that received most IMDB votes)

After discarding all movies that could not be matched or that had less than 5 IMDB 
votes, we were left with 617 unique titles with metadata including genre, release 
year, IMDB rating and no. of IMDB votes and cast distribution.  We then identified 
the pairs of characters that interact and separated their conversations automatically 
using simple data processing heuristics. After discarding all pairs that exchanged 
less than 5 conversational exchanges there were 10,292 left, exchanging 220,579 
conversational exchanges (304,713 utterances).  After automatically matching the names 
of the 9,035 involved characters to the list of cast distribution, we used the 
gender of each interpreting actor to infer the fictional gender of a subset of 
3,321 movie characters (we raised the number of gendered 3,774 characters through
 manual annotation). Similarly, we collected the end credit position of a subset 
of 3,321 characters as a proxy for their status.

D) Contact:

Please email any questions to: cristian@cs.cornell.edu (Cristian Danescu-Niculescu-Mizil)

cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载 可用于dialog,chatbot相关推荐

  1. 康奈尔大学计算机科学与工程,康奈尔大学的计算机专业介绍

    原标题:康奈尔大学的计算机专业介绍 今天,质朴留学的Rob老师为我们带来康奈尔大学的计算机专业的介绍. 1.计算机科学系 Department of Computer Science 所属学校:康奈尔 ...

  2. 康奈尔大学计算机生物学是,康奈尔大学生物统计硕士介绍

    康奈尔大学生物统计硕士介绍 时间:2020-11-30 栏目:留学资讯 关注度:96 生物统计学是在用统计学的原理和方法研究生物学的客观现象及问题的过程中形成的,生物学中的问题又促使生物统计学中大部分 ...

  3. 从事计算机科学的要求,申请康奈尔大学计算机科学专业有什么要求?

    如今伴随着计算机的普及,使得计算机行业迅速兴起,很多人都纷纷从事于这个行业,这也使得计算机相关专业成为了目前出国留学学生中的专业.然而值得一提的是,美国康奈尔大学中的计算机科学专业是非常热门的.每年都 ...

  4. 康奈尔大学计算机科学研究生,康奈尔大学计算机科学研究生怎么样?好不好

    对于打算去康奈尔大学读研究生的学生来讲,康奈尔大学研究生申请要求及康奈尔大学研究生专业介绍是学生最关心的问题.本文介绍康奈尔大学研究生申请要求及康奈尔大学研究生的专业介绍,帮助更多的学生更好的了解康奈 ...

  5. cornell grasp data 康奈尔大学抓取数据集 百度云

    国内下载较慢,康奈尔大学抓取数据集分享,给有用的人.科研之路道阻且长,互行方便. 康奈尔大学抓取数据集是基于深度学习方法实现机器人自主抓取的必备数据集, 直接推动了机器人自主抓取的发展.目前先进的基于 ...

  6. 不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 这,或许是现在跟Siri交流最潮的方式了-- 只需要动动嘴皮子,就能让它under你的control. 没错,就是不需要出任何声音的那种. 这就是 ...

  7. 康奈尔大学统计学数据科学与计算机学院,美国康奈尔大学统计学专业.pdf

    留学监理服务网 康奈尔大学 统计学 - Statistical science 基本信息 计算机信息科学学院 - 统计学 所属学校 康奈尔大学 - Cornell University 所在院系 系 ...

  8. 康奈尔本科学计算机要什么条件,康奈尔大学计算机专业申请条件详细解读

    1. 研究情况 康奈尔大学的计算机系是计算机与信息科学学院的分支,而且是最核心的部分.该计算机系具备了计算机领域的所以研究方向的世界级水平,被大家公认为全美五强计算机系之一. 康纳尔大学计算机系迄今为 ...

  9. 康奈尔计算机硕士学费,美国康奈尔大学研究生学费多少?申请条件有哪些?

    原标题:美国康奈尔大学研究生学费多少?申请条件有哪些? 康奈尔大学(Cornell University)是一所私立研究型宗教信仰自由的大学,康奈尔一直致力于做"最好的本科教育". ...

  10. 2019软科计算机科学与工程,2019上海软科世界一流学科排名计算机科学与工程专业排名康奈尔大学排名第14...

    2019上海软科世界一流学科排名计算机科学与工程专业排名指标 首先计算大学在每项指标上的得分,具体为大学在一项指标上的数值除以该项指标的最大值(开根号)再乘以100.然后各指标得分除以100再乘以相应 ...

最新文章

  1. 数据结构练习 00-自测1. 打印沙漏(20)
  2. 用javascript伪造太阳系模型系统
  3. 科普 | Shell中傻傻分不清楚的TOP3
  4. 网站遭遇CC及DDOS攻击紧急处理方案
  5. combobox异步加载 easyui_如何解决多条数据加载easyui-combobox样式反应慢的问题
  6. HDU-神、上帝以及老天爷
  7. T4生成实体,单张表和多张表
  8. 评分模型前奏:启发式评分模型开发
  9. 判断手机号邮箱号和车牌号是否合法的方法
  10. ajax 调用asp.net后台方法
  11. 打开计算机不显示百度云管家,百度云管家怎么打不开电脑上的百度云管家打不开的解决方法...
  12. 泛型编程 - 学习/实践
  13. html 动态文本框的值,HTML Javascript动态添加和删除文本框
  14. JPA Specification 自定义查询
  15. 2022面试必刷461道大厂架构面试真题汇总+面经+简历模板
  16. html中collapse代码怎么写,如何使用CSS中的border-collapse属性
  17. 【Alpha阶段】第五次scrum meeting
  18. Mybatis配置注意事项
  19. 4月5号-4月11号
  20. 免费报名 | 汇聚HBase大数据最前沿 Apache HBaseConAsia2019盛会火热来袭

热门文章

  1. sketch怎么把psd导出为HTML,如何巧妙将sketch文档完美转换成PSD
  2. MySQL 索引原理 图文讲解
  3. 程序和算法之间,主要有什么关系?
  4. 在阿里云建网站体验123
  5. file open error: [Errno 2] No such file or directory: '\xe6\xb5\x8b\xe8\xaf\x95.txt'
  6. u盘数据丢失了怎么恢复?u盘数据恢复,2个方案完成
  7. IT 接口对接:足迹第十二步接口对接的定义(接口对接分三种:中间库方式的接口对接,Rest格式URL对接和HTTP格式URL对接;)
  8. C语言实现简单 词法分析程序(编译原理)
  9. delphi阿里云短信(支持SendSms短信发送、SendBatchSms短信批量发送、QuerySendDetails查询短信发送记录),D7~XE10可用
  10. Ubuntu 重置用户密码