安然电子邮件数据集包含大约50万封来自约150位用户的电子邮件。

The Enron E-mail data set contains about 500,000 e-mails from about 150 users.

项目思路:

你能对电子邮件的文本进行分类以确定是谁发送的吗?

  • Can you classify the text of an e-mail message to decide who sent it?

该数据集是由CALO项目(一个学习和组织的认知助手)收集和准备的。

This dataset was collected and prepared by the CALO Project (A Cognitive Assistant that Learns and Organizes).

它包含大约150位用户的数据,大部分是安然公司的高级管理层,这些用户被组织存储到文件夹中。

It contains data from about 150 users, mostly senior management of Enron, organized into folders.

该数据集总共包含约50万条消息。

The corpus contains a total of about 0.5M messages.

这些数据最初由联邦能源监管委员会在调查期间公布并发布到网络上。

This data was originally made public, and posted to the web, by the Federal Energy Regulatory Commission during its investigation.

该电子邮件数据集后来由麻省理工学院的Leslie Kaelbling购买,结果发现它存在一些完整性问题。

The email dataset was later purchased by Leslie Kaelbling at MIT, and turned out to have a number of integrity problems.

SRI的一些研究者,特别是Melinda Gervasio,努力纠正这些存在的问题,正是由于他们的不懈努力,数据集才可用于有效的分析。

A number of folks at SRI, notably Melinda Gervasio, worked hard to correct these problems, and it is thanks to them (not me) that the dataset is available.

这些公开的数据集不包括附件,并且某些敏感消息已被删除,“因为受相关员工的请求,作为编辑整理工作的一部分”。

The dataset here does not include attachments, and some messages have been deleted “as part of a redaction effort due to requests from affected employees”.

数据集下载网址:

http://www.cs.cmu.edu/~enron/

更多精彩文章请关注微信号:

【机器学习开放项目】安然公司电子邮件数据集相关推荐

  1. 【机器学习开放项目】KDD Cup 2010竞赛题目与数据集

    KDD杯是一项年度性数据挖掘和知识发现竞赛,其中一些世界上最好的数据挖掘团队竞争解决一个具有一定重要性的实际数据挖掘问题. The KDD Cup is the annual Data Mining ...

  2. 【机器学习开放项目】NBA统计数据分析

    本数据包括2004 - 2005 NBA和ABA统计数据: This download contains 2004-2005 NBA and ABA stats for: -球员常规赛数据 -Play ...

  3. 项目:机器学习+FLD分类+python图像处理mnist数据集

    机器学习+FLD分类+python图像处理mnist数据集 ** 以mnist数据集实现Fisher Linear Discriminant(FLD)的分类以及降维功能 任务一如下所示 以下任务是te ...

  4. 机器学习的 50 个最佳免费数据集

    转载以保存,来源:https://gengo.ai/datasets/the-50-best-free-datasets-for-machine-learning-zh/ 用于机器学习的开放数据集有哪 ...

  5. 23 个机器学习开源项目,附源码

    本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验. 我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗? 这篇教程中,涵盖面向初学者,中级专家和专 ...

  6. 24个提高你的知识和技能极限的数据科学(机器学习)项目(免费)

    作者|ANALYTICS VIDHYA 编译|Flin 来源|analyticsvidhya 介绍 数据科学(机器学习)项目为你提供了一种有前途的方式来启动你在该领域的职业.你不仅可以通过应用它来学习 ...

  7. 数据挖掘机器学习[六]---项目实战金融风控之贷款违约预测

    相关文章: 特征工程详解及实战项目[参考] 数据挖掘---汽车车交易价格预测[一](测评指标:EDA) 数据挖掘机器学习---汽车交易价格预测详细版本[二]{EDA-数据探索性分析} 数据挖掘机器学习 ...

  8. 9月机器学习开源项目Top10

    作者 | Mybridge 译者 | 王天宇 整理 | Jane 出品 | AI科技大本营 [导读]我们从过去一个月近 250 个有关机器学习的开源项目中,精心挑选出了最热门的 10 个.在挑选过程中 ...

  9. 推荐 | 机器学习开源项目 Top 10

    编译 | AI科技大本营(公众号ID:rgznai100) 一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:机器学习领域开源项目Top 10,AI科技大本营做了简要编译. ( ...

  10. Python 机器学习之项目实践

    机器学习是一项经验技能,经验越多越好.在项目建立的过程中,实践是掌握机器学习的最佳手段.在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的. 预测模型项目模板 不 ...

最新文章

  1. POJ 2104 K-th Number 划分树
  2. 七种在BIM实施过程中减少浪费的方法
  3. php选择符和举例子,关于CSS3中选择符的实例详解
  4. 【数字图像处理】七.MFC图像增强之图像普通平滑、高斯平滑、Laplacian、Sobel、Prewitt锐化详解
  5. 为什么要用MyBatis-Spring JDBC
  6. Java规范请求中的数字
  7. SQL - 18.触发器
  8. activity启动流程_以AMS视角看Activity启动过程
  9. java 高级网络编程_java高级网络编程—客户端与服务器
  10. 谷歌Chrome浏览器开发者工具教程—JS调试篇
  11. [mstsc]解决win8 win10 平板无法被mstsc连接的问题
  12. 基础矩阵,本质矩阵,单应性矩阵讲解,在ORB-SLAM相机的位姿初始化的应用
  13. python save保存图片到本地_python保存网页图片到本地的方法
  14. EXCEL 代码大全
  15. 等式约束二次规划——变量消除法和KKT法
  16. linux自带python3.5_linux上安装python3, 保留python2
  17. 无线射频专题《IEEE 802.11协议讲解1@路由高级配置项,Beacon周期、RTS阈值、DTIM》
  18. 印章-公司印章制作生成器
  19. 中国电子学会2022年python六级考试真题大题 类与对象练习题
  20. kony移动开发平台源码github地址

热门文章

  1. royal tsx连接闪退_Royal TSX for Mac(最强远程管理软件)
  2. 数据分析报告这样写,才算真正读懂了数据
  3. MATLAB - 旋度可视化
  4. matlab系统频域分析,基于MATLAB的系统频域分析的实现
  5. JAVA 16方格排序游戏
  6. 用JavaScript实现字体大小屏幕自适应
  7. MATLAB-真彩色图像RGB直方图绘制
  8. python 函数基础以及lambda使用
  9. 一款仿古文本编辑器---edit.exe
  10. Unit 2, TCP header recap