Sklearn–(1)

原创不易,如需转载,请标明出处。
首先通过官网的图片简单了解Sklearn:

可以看到他的主要作用有:分类,回归,聚类,降维,模型选择,预处理。
今天我将利用Adult数据集进行演示。

Adult
该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50k/year。该数据集类变量为年收入是否超过50k,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征: 多变量
记录数: 48842
领域: 社会
属性特征: 类别型,整数 (各自有不同的处理方法)
属性数目: 14
捐赠日期 1996-05-01
相关应用: 分类
缺失值:有 (会有相关函数)
数据查看地址:

首先下载数据

#下载数据
from urllib.request import urlretrieve
#编辑下载函数
def load_data(download=True):# 数据下载地址: http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.dataif download:data_path, _ = urlretrieve("http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data", "D://ML//Data//adult.csv")print("数据已下载到 D://ML//Data//adult.csv")
load_data()
#下载成功即可显示,进入文件夹查看,3.79M数据,可通过Excel打开检验,没有问题。
数据已下载到 D://ML//Data//adult.csv

以上下载部分属于Python的网络部分,可以了解一下,另外如果对爬虫感兴趣,也可以深入学习,相当有意思。以后有机会,也会做一些有趣的例子分享出来。

其次根据特征进行显示

由于下载好的文件本身没有列名,所以我们通过pandas的col_names参数进行赋值:

#读取并显示部分数据
import pandas as pd
col_names = ["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "result"]
data = pd.read_csv("D://ML//Data//adult.csv", names=col_names)
print(data[:10])

利用Pandas和Numpy是机器学习和数据分析的基本操作,希望大家能熟练掌握。
显示如下:

 age          workclass  fnlwgt   education  education-num  \
0   39          State-gov   77516   Bachelors             13
1   50   Self-emp-not-inc   83311   Bachelors             13
2   38            Private  215646     HS-grad              9
3   53            Private  234721        11th              7
4   28            Private  338409   Bachelors             13
5   37            Private  284582     Masters             14
6   49            Private  160187         9th              5
7   52   Self-emp-not-inc  209642     HS-grad              9
8   31            Private   45781     Masters             14
9   42            Private  159449   Bachelors             13   marital-status          occupation    relationship    race  \
0           Never-married        Adm-clerical   Not-in-family   White
1      Married-civ-spouse     Exec-managerial         Husband   White
2                Divorced   Handlers-cleaners   Not-in-family   White
3      Married-civ-spouse   Handlers-cleaners         Husband   Black
4      Married-civ-spouse      Prof-specialty            Wife   Black
5      Married-civ-spouse     Exec-managerial            Wife   White
6   Married-spouse-absent       Other-service   Not-in-family   Black
7      Married-civ-spouse     Exec-managerial         Husband   White
8           Never-married      Prof-specialty   Not-in-family   White
9      Married-civ-spouse     Exec-managerial         Husband   White   sex  capital-gain  capital-loss  hours-per-week  native-country  result
0     Male          2174             0              40   United-States   <=50K
1     Male             0             0              13   United-States   <=50K
2     Male             0             0              40   United-States   <=50K
3     Male             0             0              40   United-States   <=50K
4   Female             0             0              40            Cuba   <=50K
5   Female             0             0              40   United-States   <=50K
6   Female             0             0              16         Jamaica   <=50K
7     Male             0             0              45   United-States    >50K
8   Female         14084             0              50   United-States    >50K
9     Male          5178             0              40   United-States    >50K

所以下一节我们的目标就是将下载的数据进行清洗和标准化,然后分成训练组和测试组(大概比例按照7:3),分别利用SVM,Logistics Rregression, Linear SVM, Naive Bayes等方法进行训练和对比,期待。

接下来是重头戏

如果觉得本文写的还不错的伙伴,可以给个关注一起交流进步,如果有在找工作且对阿里感兴趣的伙伴,也可以发简历给我进行内推:

机器学习实例----美国人口收入分析相关推荐

  1. pandas 实例操作:美国人口案例分析

    pandas 案例分析:美国人口案例分析 ''' 需求:导入文件,查看原始数据将人口数据和各州简称数据进行合并将合并的数据中重复的abbreviation列进行删除查看存在缺失数据的列找到有哪些sta ...

  2. 机器学习实例--预测美国人口收入状况

    一.     问题描述 每个人都希望自己能获得更高的收入,而影响收入高低的因素有很多,能否通过大数据分析来找出对收入影响相对较大的因素? 二.     研究意义 如果我们知道对收入高低起决定性的作用, ...

  3. 美国人口普查年收入比赛_训练网络对收入进行分类:成人普查收入数据集

    美国人口普查年收入比赛 We have all heard that data science is the 'sexiest job of the 21st century'. Hence, it ...

  4. 美国人口普查数据预测收入sklearn算法汇总3之ROC: KNN,LogisticRegression,RandomForest,NaiveBayes,StochasticGradientDece

    接<美国人口普查数据预测收入sklearn算法汇总1: 了解数据以及数据预处理> <美国人口普查数据预测收入sklearn算法汇总2: 特征编码, 特征选择, 降维, 递归特征消除& ...

  5. 机器学习实战-65:主成因分析降维算法(Principal Component Analysis)

    机器学习实战-65:主成因分析降维算法(PCA) 深度学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读! 机器学习分为监督学习.无监督学习和半监督学习(强化学习).无监督学习最常应用的场景是 ...

  6. 邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston

    目录 1.绪论 1.1.概述 1.2 机器学习简史 1.3 机器学习改变世界:基于GPU的机器学习实例 1.3.1 基于深度神经网络的视觉识别 1.3.2 AlphaGO 1.3.3 IBM Wast ...

  7. Google Earth Engine(GEE)——在线统计美国人口和住房数据(以ee.Reducer.sum().repeat().group列表形式呈现)

    你可以在一个每个区域获得的统计数据Image或者 FeatureCollection通过使用reducer.group()到组reduce的输出由指定的输入值.例如,为了计算每个州的总人口和住房单元数 ...

  8. 【数据可视化】案例一:美国人口与种族变迁史

    实验介绍 作为一个移民国家,美国的种族和人口问题全方位地影响着美国各州的政治.经济.文化和司法,本实验通过对美国人口普查局与美国国家卫生统计中心自 1990 以来调查获得的长达 29 年的美国人口和种 ...

  9. python数据分析可视化实例_Python数据分析及可视化实例之基于Kmean分析RFM进行用户关怀...

    系列文章总目录:Python数据分析及可视化实例目录 数据集下载 Python数据分析及可视化实例之全国各城市房价分析(含数据采集) Python数据分析及可视化实例之帝都房价预测 Python数据分 ...

  10. 通过实例理解 Go 逃逸分析

    本文转载自白明老师,这是中文社区里面最好.最全面的一篇关于逃逸分析的文章,写得非常好.既有理论.又有实践,引经据典,精彩至及. 翻看了一下自己的Go文章归档[1],发现自己从未专门写过有关Go逃逸分析 ...

最新文章

  1. EDA电子设计技术与应用
  2. 认识Linux 、安装虚拟机 、 安装centos7
  3. 原生node写一个静态资源服务器
  4. CSS的Padding, Margin, Border 的区别
  5. js基础 之 引用类型
  6. scala读写linux上的文件,一起学Scala 文件 I/O
  7. mysql删除索引_MySQL 索引详解
  8. 新塘单片机烧写器_NuMicro ICP Programming Tool-ICP Programming Tool(新唐单片机烧录工具)下载 v3.00.6909官方版--pc6下载站...
  9. 斐讯k2路由虚拟服务器,斐讯K2P不死uboot分享带dhcp server功能
  10. 华为机试:VLAN资源池
  11. 谈谈刚结束的全国大学生电子设计竞赛
  12. java 支付宝 验证签名失败,关于支付宝签名校验失败的问题排解
  13. 前端培训丁鹿学堂:css伪类选择器(一)
  14. 使用 psycopg2 时遇到的两个坑
  15. 从零开始的unity2d写游戏1#
  16. 干货满满!25种绝佳VSCode扩展,体验便捷高效的生活
  17. PHP在线ps照片图片处理网站源码 photoshop网页版
  18. Root你的设备(二)
  19. 爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二)
  20. 药房药品管理信息系统

热门文章

  1. Oracle EBS Workflow简介和客制之后的感想
  2. oracle一次性说清楚,多种分隔符的一个字段拆分多行,再多行多列多种分隔符拆多行,最终处理超亿亿。。亿级别数据量
  3. .db-shm和.db-wal文件
  4. SeedLab5: The Mitnick Attack Lab
  5. Linux使用技巧5--格式化U盘
  6. HDU - 5510 Bazinga
  7. prisma 风格设置_Prisma中的身份验证-第1部分:设置
  8. arm-linux内存页表创建
  9. 变量名和变量地址之间的关系
  10. Word中如何修改脚注的编号方式