Machine Learning | 机器学习简介

Machine Learning | (1) Scikit-learn与特征工程

Machine Learning | (2) sklearn数据集与机器学习组成

Machine Learning | (3) Scikit-learn的分类器算法-k-近邻

Machine Learning | (4) Scikit-learn的分类器算法-逻辑回归

Machine Learning | (5) Scikit-learn的分类器算法-朴素贝叶斯

Machine Learning | (6) Scikit-learn的分类器算法-性能评估

Machine Learning | (7) Scikit-learn的分类器算法-决策树(Decision Tree)

Machine Learning | (8) Scikit-learn的分类器算法-随机森林(Random Forest)

Machine Learning | (9) 回归算法-线性回归

Machine Learning | (10) 回归算法-岭回归

Machine Learning | (11) 回归性能评估与欠拟合、过拟合


非监督学习之k-means

K-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。

  • 1.首先,随机设K个特征空间内的点作为初始的聚类中心。
  • 2.然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为这个聚类中心。
  • 3.接着,在所有的数据都被标记过聚类中心之后,根据这些数据新分配的类簇,通过取分配给每个先前质心的所有样本的平均值来创建新的质心重,新对K个聚类中心做计算。
  • 4.最后,计算旧和新质心之间的差异,如果所有的数据点从属的聚类中心与上一次的分配的类簇没有变化,那么迭代就可以停止,否则回到步骤2继续循环。

K均值等于具有小的全对称协方差矩阵的期望最大化算法

sklearn.cluster.KMeans

class sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto')""":param n_clusters:要形成的聚类数以及生成的质心数:param init:初始化方法,默认为'k-means ++',以智能方式选择k-均值聚类的初始聚类中心,以加速收敛;random,从初始质心数据中随机选择k个观察值(行:param n_init:int,默认值:10使用不同质心种子运行k-means算法的时间。最终结果将是n_init连续运行在惯性方面的最佳输出。:param n_jobs:int用于计算的作业数量。这可以通过并行计算每个运行的n_init。如果-1使用所有CPU。如果给出1,则不使用任何并行计算代码,这对调试很有用。对于-1以下的n_jobs,使用(n_cpus + 1 + n_jobs)。因此,对于n_jobs = -2,所有CPU都使用一个。:param random_state:随机数种子,默认为全局numpy随机数生成器"""
from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],[4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0)

方法

fit(X,y=None)

使用X作为训练数据拟合模型

kmeans.fit(X)

predict(X)

预测新的数据所在的类别

kmeans.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)

属性

clustercenters

集群中心的点坐标

kmeans.cluster_centers_
array([[ 1.,  2.],[ 4.,  2.]])

labels_

每个点的类别

kmeans.labels_

k-means ++


k-means案例分析

手写数字数据上K-Means聚类的演示

from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeansdef kmeans():"""手写数字聚类过程:return: None"""# 加载数据ld = load_digits()print(ld.target[:20])# 聚类km = KMeans(n_clusters=810)km.fit_transform(ld.data)print(km.labels_[:20])print(silhouette_score(ld.data,km.labels_))return Noneif __name__=="__main__":kmeans()

Machine Learning | (12) 非监督学习-k-means相关推荐

  1. 【Machine Learning 一】监督学习与无监督学习

    机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等. 在这里,主要理解一下监督学习和无监督学习. 监督学习:   (supervised learning) 给定一 ...

  2. 【Machine Learning】TensorFlow实现K近邻算法预测房屋价格

    1前言 机器学习KNN算法(K近邻算法)的总体理论很简单不在这里赘述了. 这篇文章主要问题在于如果利用tensorflow深度学习框架来实现KNN完成预测问题,而不是分类问题,这篇文章中涉及很多维度和 ...

  3. 机器学习概要(MACHINE LEARNING SUMMARY)

    机器学习概要(MACHINE LEARNING SUMMARY) 监督学习 回归分析与线性回归 1.例如营业额预测,传统算法必须知道计算公式,机器学习可以帮你找到核心的函数关系式,利用它推算未来预测结 ...

  4. 机器学习、监督学习、非监督学习、强化学习、深度学习、迁移学习

    机器学习.监督学习.非监督学习.强化学习.深度学习.迁移学习 机器学习(machine learning) 监督学习(supervised learning) 非监督学习(unsupervised l ...

  5. 机器学习、监督学习、非监督学习、强化学习传统机器学习、深度学习、迁移学习基本概念

    文章目录 机器学习(machine learning) 监督学习(supervised learning) 非监督学习(unsupervised learning) 强化学习(reinforcemen ...

  6. 机器学习与物理科学(一)(Machine learning and the physical sciences)

    Machine learning and the physical sciences 摘要 Ⅰ.引言(INTRODUCTION) A. 机器学习相关概念( Concepts in machine le ...

  7. Neural Networks for Machine Learning by Geoffrey Hinton (1~2)

    机器学习能良好解决的问题 识别模式 识别异常 预測 大脑工作模式 人类有个神经元,每一个包括个权重,带宽要远好于工作站. 神经元的不同类型 Linear (线性)神经元  Binary thresho ...

  8. 机器学习_监督学习、非监督学习、半监督学习以及强化学习概念介绍

    机器学习中通常根据数据是否有标签可以分为监督学习(supervised learning).非监督学习(unsupervised learning) 和半监督学习(semi-supervised le ...

  9. 吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习

    作者 | Peter 编辑 | AI有道 0. 引言 吴恩达(Andrew Ng),毫无疑问,是全球人工智能(AI)领域的大 IP!然而,吴恩达从最早的 CS229,到后来的 deeplearning ...

最新文章

  1. Asp.net团队疯了(同时发布WebMatrix, Razor, MVC3和Orchard)
  2. 支付宝分库分表中间件--zdal简介
  3. 教育谋定应用型高校 经济和信息化研究共建成都工业学院
  4. Java8 ReentrantLock 源码分析
  5. 《测试驱动开发》学习笔记
  6. python解析apk文件_Python获取apk文件URL地址实例
  7. [转]一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
  8. Android笔记 android 7.0 动态申请权限
  9. dbstart $oracle_home,使用dbstart和dbshut命令启动和关闭数据库
  10. 深度学习试题_深度学习理论类常见面试题(二)
  11. 阿里巴巴CTO程立:CTO就是要给CEO扫清障碍和风险
  12. 基于51单片机的多点8路温度采集系统 proteus仿真程序原理图设计
  13. BZOJ5118: Fib数列2
  14. python 拼音搜索中文_汉语转拼音工具、新华字典API——两个支持Python的中文资源...
  15. 【第三方互联】4、分享至腾讯QQ、新浪微博(sina)
  16. html背景图片半透明遮罩,BufferedImage在图片添加半透明遮罩层
  17. Chrome浏览器获取Google搜索结果批量URL
  18. 常见的NoSQL数据库有哪些
  19. 习题4-5 换硬币 (20分)
  20. Nginx 面试40问

热门文章

  1. 不会这些搜索技巧,真别说你懂 GitHub!
  2. 程序员抱怨老婆追王一博入魔,长期被冷落想离婚
  3. 图解Istio原理和实践--云平台技术栈18
  4. 阿里某员工哀叹:头条的文档太混乱!阿里的文档读起来舒服!
  5. 程序员做到这20条,成为人生赢家!
  6. 存储的瓶颈--大型网站技术演进思考
  7. 面试官最讨厌的三种求职者
  8. 如何在Leangoo中创建企业
  9. 用什么软件可以开在线会议啊?
  10. 轻雀世界知名体育用品零售商D的交流与思考