MORE DATA>FINE-TUNED ALGORITHM

更多的数据集要比经过精密调整的算法可以提供更好的结果,使用更多的数据几乎总能帮助算法取得更好的效果

数据类型:

值数据:基本特征就是数值(薪水信息)

分类数据(categorical):类别变量,监督分类较多,包括有限数量的离散值(职位——有限的工作种类)

时序数据:时间变量(邮件中的时间戳、金融)

文字数据:词袋模型(邮件内容)

其他

import pickleenron_data = pickle.load(open("../final_project/final_project_dataset.pkl", "r"))
#数据集有多少数据点(人)
print(len(enron_data))
#每个人有多少个特征可用
print(len(enron_data['METTS MARK']))
#数据集中有多少poi=True
print(len(dict((key, values) for key, values in enron_data.items() if values['poi'] == True)))
#总共有多少 POI?
with open('../final_project/poi_names.txt','r') as t:poi_file = t.readlines()print(len(poi_file[2:]))
#James Prentice 名下的股票总值是多少?
print(enron_data['PRENTICE JAMES']['total_stock_value'])
#有多少来自 Wesley Colwell 的发给嫌疑人的电子邮件?
print(enron_data['COLWELL WESLEY']['from_this_person_to_poi'])
#Jeffrey Skilling 行使的股票期权价值是多少?
print(enron_data['SKILLING JEFFREY K']['exercised_stock_options'])
#(Lay、Skilling 和 Fastow)当中,谁拿回家的钱最多(“total_payments”特征的最大值)?这个人得到了多少钱?
people=["LAY KENNETH L","SKILLING JEFFREY K","FASTOW ANDREW S"]
money = 0
who = ""
for i in people:if money < enron_data[i]["total_payments"]:money = enron_data[i]["total_payments"]who = i
print(money,who)
#数据集中有多少雇员有量化的工资?已知的邮箱地址是否可用?
count_salary,count_email=0,0
for i in enron_data.keys():if enron_data[i]['salary']!='NaN':count_salary += 1if enron_data[i]['email_address']!='NaN':count_email += 1
print('count_salary:',count_salary)
print('count_email:',count_email)#(当前的)E+F 数据集中有多少人的薪酬总额被设置了“NaN”?数据集中这些人的比例占多少?
count_NaN_total_payments = 0
for i in enron_data.keys():if enron_data[i]['total_payments'] =='NaN':count_NaN_total_payments += 1
print(count_NaN_total_payments,count_NaN_total_payments/float(len(enron_data)))#E+F 数据集中有多少 POI 的薪酬总额被设置了“NaN”?这些 POI 占多少比例?
count_POI_NaN_total_payments = 0
count_POI_NaN_total_stock_value = 0
poi_num = 0
for i in enron_data.keys():if enron_data[i]['poi']==True:poi_num += 1if enron_data[i]['total_payments']=='NaN':count_POI_NaN_total_payments += 1if enron_data[i]['total_stock_value']=='NaN':count_POI_NaN_total_stock_value += 1print(count_POI_NaN_total_payments,count_POI_NaN_total_payments/float(poi_num))
print(count_POI_NaN_total_stock_value)

Udacity机器学习入门笔记——数据集与问题相关推荐

  1. 机器学习入门笔记(五):决策树

    文章目录 一.决策树模型与学习 1.1 决策树模型 1.2 决策树与 if-then 规则 1.3 决策树与条件概率分布 1.4 决策树的学习 二.特征选择 2.1 信息增益 2.2 例题:利用信息增 ...

  2. 机器学习入门笔记(四):朴素贝叶斯分类

    文章目录 一.朴素贝叶斯法 1.1 实现原理 1.2 后验概率最大化 二.朴素贝叶斯法的参数估计 2.1 极大似然估计 2.2 学习与分类算法 2.3 朴素贝叶斯分类器例题 2.4 贝叶斯估计 推荐文 ...

  3. 机器学习入门笔记(三):K近邻算法

    文章目录 一.K近邻算法的基本概念 1.1 K近邻算法实现 二.K近邻分类三要素 2.1 距离度量 2.2 K值的选择 2.2.1 基于m-fold cross validation的 K值选择 2. ...

  4. 机器学习入门笔记(二):线性模型

    文章目录 一.基本形式 二.线性回归 2.1 离散属性连续化 2.2 最小二乘法 2.3 多元线性回归 2.4 广义线性模型 三.对数几率回归(逻辑回归) 3.1 最大似然估计 四.线性判别分析(LD ...

  5. 机器学习入门笔记(一):模型性能评价与选择

    文章目录 一.训练误差与测试误差 1.1 基本概念 1.2 训练误差 1.3 泛化误差(测试误差) 1.4 过拟合 二.模型评估方法 2.1 留出法(hold-out) 2.2 正则化 2.3 交叉验 ...

  6. 机器学习入门 笔记(二) 机器学习基础概念

    第二章 机器学习基础概念 1.机器的数据 2.机器学习的主要任务 3.监督学习和非监督学习 4.批量.在线学习.参数.非参数学习 5.哲学思考 6.环境的搭建 1.机器的数据 我们以鸢尾花的数据为例. ...

  7. 机器学习入门笔记 人工智能 黑马程序员

    机器学习入门笔记 前言 这个是根据"黑马程序员"的一套机器学习课程编写的博客.这篇博客上的案例均为课程里面的,但并没有包含所有案例,只是记录了部分. B站视频地址 文章目录 机器学 ...

  8. 十年公务员转行IT,自学AI三年,他淬炼出746页机器学习入门笔记

    整理 | Jane 编辑 | Just 出品 | AI科技大本营(ID:rgznai100) 近期,梁劲传来该笔记重大更新的消息.<机器学习--从入门到放弃>这本笔记的更新没有停止,在基于 ...

  9. 机器学习入门笔记总目录

    机器学习入门笔记是我参考周志华老师的<机器学习>西瓜书.李杭老师的<统计学习方法>第二版以及课程教材等资料写的. 该目录主要记录关于机器学习和算法基本概念的博客链接. ---- ...

  10. 机器学习入门笔记(七):聚类

    文章目录 一.聚类的基本概念 1.1 相似度或距离 1.2 类或簇 1.3 类与类之间的距离 二.层次聚类 2.1 基本概念 2.1 算法描述 2.3 例题 三.K均值聚类 3.1 模型 3.2 策略 ...

最新文章

  1. 软件测试培训教程:pytest与unittest区别
  2. 两个月的打卡活动圆满结束,今天公布兑奖详情
  3. layer.open回显数据select选择默认值
  4. 选股方法-陶博士-月线反方法的思路来源
  5. Java集合继承关系图
  6. 使用FlashCS6制作cocos2d-x动作脚本的思路整理
  7. 以太网MAC协议--CSMA/CD协议
  8. linux中apache无法启动,Apache无法启动
  9. ARM Cortex 详解
  10. Excel文件导出,前端导出或者后端导出
  11. Objective-C runtime机制(5)——iOS 内存管理
  12. 【spring】spring异步执行的使用与源码分析
  13. 响应式织梦模板智能安防监控类网站
  14. MySQL 数据库下载(windows)
  15. centos6.0 64位挂载ntfs分区
  16. Java零基础学习全套视频笔记
  17. list 字典 元组及常用字符串方法
  18. PHP 版 帕斯卡三角形
  19. 18. SPI协议,spi转can,MCP2515裸机驱动详解
  20. 前端程序员常用构建工具

热门文章

  1. qt安装报错:下载“http://download.qt.io/online/xxxxx/_meta.7z“server replied: Bad Gateway出现网络错误
  2. 23种常见设计模式详解
  3. docker attach退出容器,容器会停止运行的解决方法
  4. 导出Excel:合并单元格
  5. 数据分析报告编写规范
  6. Maven resources compiler: Maven project configuration required for module ‘XXX‘ isn‘t available.
  7. springMvc中的校验框架@valid和@validated
  8. PHP根据年月获取月初月末时间
  9. 什么是尾递归?javascript 尾递归优化
  10. Encoded password does not look like bcrypt