文章目录

  • K-Means 一维数据计算示例 数据样本 及 初始值
  • K-Means 一维数据 距离计算方式
  • K-Means 算法 步骤
  • 第一次迭代 : 步骤 ( 1 ) 计算距离
  • 第一次迭代 : 步骤 ( 2 ) 聚类分组
  • 第一次迭代 : 步骤 ( 3 ) 计算中心值
  • 第二次迭代 : 步骤 ( 1 ) 计算距离
  • 第二次迭代 : 步骤 ( 2 ) 聚类分组
  • 第二次迭代 : 步骤 ( 3 ) 计算中心值
  • 第三次迭代 : 步骤 ( 1 ) 计算距离
  • 第三次迭代 : 步骤 ( 2 ) 聚类分组
  • 第三次迭代 : 步骤 ( 3 ) 计算中心值
  • 第四次迭代 : 步骤 ( 1 ) 计算距离
  • 第四次迭代 : 步骤 ( 2 ) 聚类分组

K-Means 一维数据计算示例 数据样本 及 初始值


1 . 数据集样本 : 141414 个人 , 根据其年龄 , 将数据集分成 333 组 ;

2 . 选定初始的中心值 : 111 , 202020 , 404040 ;

K-Means 一维数据 距离计算方式


1 . 距离公式选择 : 一维数据 直接使用 曼哈顿距离 计算即可 , 二维数据 需要使用 欧几里得距离 计算 ;

2 . 曼哈顿距离 : 这里直接使用曼哈顿距离 , 即样本值 , 直接相减得到的值取绝对值 , 就是曼哈顿距离 ;

K-Means 算法 步骤


K-Means 算法 步骤 : 给定数据集 XXX , 该数据集有 nnn 个样本 , 将其分成 KKK 个聚类 ;

① 中心点初始化 : 为 KKK 个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

② 计算距离 : 计算 nnn 个对象与 KKK 个中心点 的距离 ; ( 共计算 n×Kn \times Kn×K 次 )

③ 聚类分组 : 每个对象与 KKK 个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;

④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;

⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点 和 分组 经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;

第一次迭代 : 步骤 ( 1 ) 计算距离


计算 141414 个样本 与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1​ 与 C1C_1C1​ 对应的表格位置值是 P1P_1P1​ 样本 与 C1C_1C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 PiP_iPi​ 与 CjC_jCj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;

③ 计算示例 : 如 P3P_3P3​ 样本 与 C2C_2C2​ 中心点的距离计算 , P3P_3P3​ 样本的年龄属性值是 555 , C2C_2C2​ 中心点值为 202020 ; d(P3,C2)d(P_3, C_2)d(P3​,C2​) 表示两个点之间的距离 ;

d(P3,C2)=∣5−20∣=15d(P_3, C_2) = |5 - 20| = 15d(P3​,C2​)=∣5−20∣=15

下表中的 P3P_3P3​ 行 C2C_2C2​ 列对应的值是 151515 , 即上面计算出来的距离值 ;

年龄
聚类 C1C_1C1​ C2C_2C2​ C3C_3C3​
中心值 111 202020 404040
P1P_{1}P1​ 111 000 191919 393939
P2P_2P2​ 333 222 171717 373737
P3P_3P3​ 555 444 151515 353535
P4P_4P4​ 888 777 121212 323232
P5P_5P5​ 999 888 111111 313131
P6P_6P6​ 111111 101010 999 292929
P7P_7P7​ 121212 111111 888 282828
P8P_8P8​ 131313 121212 777 272727
P9P_9P9​ 373737 363636 171717 333
P10P_{10}P10​ 434343 424242 232323 333
P11P_{11}P11​ 454545 444444 252525 555
P12P_{12}P12​ 494949 484848 292929 999
P13P_{13}P13​ 515151 505050 313131 111111
P14P_{14}P14​ 656565 646464 454545 252525

第一次迭代 : 步骤 ( 2 ) 聚类分组


1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1​,P2​,⋯,P14​} 这 141414 个样本分组 :

P1P_{1}P1​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 000 , P1P_1P1​ 样本 分组到 K1K_1K1​ 组 ;
P2P_{2}P2​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 222 , P2P_2P2​ 样本 分组到 K1K_1K1​ 组 ;
P3P_{3}P3​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 444 , P3P_3P3​ 样本 分组到 K1K_1K1​ 组 ;
P4P_{4}P4​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 777 , P4P_4P4​ 样本 分组到 K1K_1K1​ 组 ;
P5P_{5}P5​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 888 , P5P_5P5​ 样本 分组到 K1K_1K1​ 组 ;

P6P_{6}P6​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 999 , P6P_6P6​ 样本 分组到 K2K_2K2​ 组 ;
P7P_{7}P7​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 888 , P7P_7P7​ 样本 分组到 K2K_2K2​ 组 ;
P8P_{8}P8​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 777 , P8P_8P8​ 样本 分组到 K2K_2K2​ 组 ;

P9P_{9}P9​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P9P_9P9​ 样本 分组到 K3K_3K3​ 组 ;
P10P_{10}P10​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P10P_{10}P10​ 样本 分组到 K3K_3K3​ 组 ;
P11P_{11}P11​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 555 , P11P_{11}P11​ 样本 分组到 K3K_3K3​ 组 ;
P12P_{12}P12​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 999 , P12P_{12}P12​ 样本 分组到 K3K_3K3​ 组 ;
P13P_{13}P13​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 111111 , P13P_{13}P13​ 样本 分组到 K3K_3K3​ 组 ;
P14P_{14}P14​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 252525 , P14P_{14}P14​ 样本 分组到 K3K_3K3​ 组 ;

2 . 当前分组依据的中心点 : {1,20,40}\{1 , 20 , 40\}{1,20,40}

3 . 当前分组结果 :

K1={P1,P2,P3,P4,P5}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}K1​={P1​,P2​,P3​,P4​,P5​}

K2={P6,P7,P8}K_2 = \{ P_{6} , P_{7} , P_{8} \}K2​={P6​,P7​,P8​}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3​={P9​,P10​,P11​,P12​,P13​,P14​}

第一次迭代 : 步骤 ( 3 ) 计算中心值


根据新的聚类分组计算新的中心值 :

① 计算 K1K_1K1​ 分组的中心值 : K1={P1,P2,P3,P4,P5}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}K1​={P1​,P2​,P3​,P4​,P5​} , 计算过程如下 :

C1=1+3+5+8+95=5C_1 = \frac{1 + 3 + 5 + 8 + 9 }{5} = 5C1​=51+3+5+8+9​=5

② 计算 K2K_2K2​ 分组的中心值 : K2={P6,P7,P8}K_2 = \{ P_{6} , P_{7} , P_{8} \}K2​={P6​,P7​,P8​} , 计算过程如下 :

C2=11+12+133=12C_2 = \frac{11 + 12 + 13}{3} = 12C2​=311+12+13​=12

③ 计算 K3K_3K3​ 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3​={P9​,P10​,P11​,P12​,P13​,P14​} , 计算过程如下 :

C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3​=637+43+45+49+51+65​=48

最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1​,C2​,C3​ 中心点是 {5,12,48}\{5 , 12 , 48\}{5,12,48}

第二次迭代 : 步骤 ( 1 ) 计算距离


计算 141414 个样本 与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1​ 与 C1C_1C1​ 对应的表格位置值是 P1P_1P1​ 样本 与 C1C_1C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 PiP_iPi​ 与 CjC_jCj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;

③ 计算示例 : 如 P3P_3P3​ 样本 与 C2C_2C2​ 中心点的距离计算 , P3P_3P3​ 样本的年龄属性值是 555 , C2C_2C2​ 中心点值为 121212 ; d(P3,C2)d(P_3, C_2)d(P3​,C2​) 表示两个点之间的距离 ;

d(P3,C2)=∣5−12∣=7d(P_3, C_2) = |5 - 12| = 7d(P3​,C2​)=∣5−12∣=7

下表中的 P3P_3P3​ 行 C2C_2C2​ 列对应的值是 777 , 即上面计算出来的距离值 ;

年龄
聚类 C1C_1C1​ C2C_2C2​ C3C_3C3​
中心值 555 121212 484848
P1P_{1}P1​ 111 444 111111 474747
P2P_2P2​ 333 222 999 454545
P3P_3P3​ 555 000 777 434343
P4P_4P4​ 888 333 444 404040
P5P_5P5​ 999 444 333 393939
P6P_6P6​ 111111 666 111 373737
P7P_7P7​ 121212 777 000 363636
P8P_8P8​ 131313 888 111 353535
P9P_9P9​ 373737 252525 171717 111111
P10P_{10}P10​ 434343 383838 313131 555
P11P_{11}P11​ 454545 404040 333333 333
P12P_{12}P12​ 494949 444444 373737 111
P13P_{13}P13​ 515151 464646 393939 333
P14P_{14}P14​ 656565 606060 535353 171717

第二次迭代 : 步骤 ( 2 ) 聚类分组


1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1​,P2​,⋯,P14​} 这 141414 个样本分组 :

P1P_{1}P1​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 444 , P1P_1P1​ 样本 分组到 K1K_1K1​ 组 ;
P2P_{2}P2​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 222 , P2P_2P2​ 样本 分组到 K1K_1K1​ 组 ;
P3P_{3}P3​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 000 , P3P_3P3​ 样本 分组到 K1K_1K1​ 组 ;
P4P_{4}P4​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 333 , P4P_4P4​ 样本 分组到 K1K_1K1​ 组 ;

P5P_{5}P5​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 333 , P5P_5P5​ 样本 分组到 K1K_1K1​ 组 ;
P6P_{6}P6​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 111 , P6P_6P6​ 样本 分组到 K2K_2K2​ 组 ;
P7P_{7}P7​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 000 , P7P_7P7​ 样本 分组到 K2K_2K2​ 组 ;
P8P_{8}P8​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 111 , P8P_8P8​ 样本 分组到 K2K_2K2​ 组 ;

P9P_{9}P9​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 111111 , P9P_9P9​ 样本 分组到 K3K_3K3​ 组 ;
P10P_{10}P10​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 555 , P10P_{10}P10​ 样本 分组到 K3K_3K3​ 组 ;
P11P_{11}P11​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P11P_{11}P11​ 样本 分组到 K3K_3K3​ 组 ;
P12P_{12}P12​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 111 , P12P_{12}P12​ 样本 分组到 K3K_3K3​ 组 ;
P13P_{13}P13​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P13P_{13}P13​ 样本 分组到 K3K_3K3​ 组 ;
P14P_{14}P14​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 171717 , P14P_{14}P14​ 样本 分组到 K3K_3K3​ 组 ;

2 . 当前分组依据的中心点 : {5,12,48}\{5 , 12 , 48\}{5,12,48}

3 . 当前分组结果 :

K1={P1,P2,P3,P4}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}K1​={P1​,P2​,P3​,P4​}

K2={P5,P6,P7,P8}K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}K2​={P5​,P6​,P7​,P8​}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3​={P9​,P10​,P11​,P12​,P13​,P14​}

第二次迭代 : 步骤 ( 3 ) 计算中心值


根据新的聚类分组计算新的中心值 :

① 计算 K1K_1K1​ 分组的中心值 : K1={P1,P2,P3,P4}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}K1​={P1​,P2​,P3​,P4​} , 计算过程如下 :

C1=1+3+5+84=4C_1 = \frac{1 + 3 + 5 + 8 }{4} = 4C1​=41+3+5+8​=4

② 计算 K2K_2K2​ 分组的中心值 : K2={P5,P6,P7,P8}K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}K2​={P5​,P6​,P7​,P8​}, 计算过程如下 :

C2=9+11+12+134=11C_2 = \frac{9 + 11 + 12 + 13}{4} = 11C2​=49+11+12+13​=11

③ 计算 K3K_3K3​ 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3​={P9​,P10​,P11​,P12​,P13​,P14​} , 计算过程如下 : ( 与上次对比没有变化 )

C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3​=637+43+45+49+51+65​=48

最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1​,C2​,C3​ 中心点是 {4,11,48}\{4 , 11 , 48\}{4,11,48}

第三次迭代 : 步骤 ( 1 ) 计算距离


计算 141414 个样本 与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1​ 与 C1C_1C1​ 对应的表格位置值是 P1P_1P1​ 样本 与 C1C_1C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 PiP_iPi​ 与 CjC_jCj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;

③ 计算示例 : 如 P3P_3P3​ 样本 与 C2C_2C2​ 中心点的距离计算 , P3P_3P3​ 样本的年龄属性值是 555 , C2C_2C2​ 中心点值为 111111 ; d(P3,C2)d(P_3, C_2)d(P3​,C2​) 表示两个点之间的距离 ;

d(P3,C2)=∣5−11∣=6d(P_3, C_2) = |5 - 11| = 6d(P3​,C2​)=∣5−11∣=6

下表中的 P3P_3P3​ 行 C2C_2C2​ 列对应的值是 666 , 即上面计算出来的距离值 ;

年龄
聚类 C1C_1C1​ C2C_2C2​ C3C_3C3​
中心值 444 111111 484848
P1P_{1}P1​ 111 333 101010 474747
P2P_2P2​ 333 111 888 454545
P3P_3P3​ 555 111 666 434343
P4P_4P4​ 888 444 333 404040
P5P_5P5​ 999 555 222 393939
P6P_6P6​ 111111 777 000 373737
P7P_7P7​ 121212 888 111 363636
P8P_8P8​ 131313 999 222 353535
P9P_9P9​ 373737 333333 262626 111111
P10P_{10}P10​ 434343 393939 323232 555
P11P_{11}P11​ 454545 414141 343434 333
P12P_{12}P12​ 494949 454545 383838 111
P13P_{13}P13​ 515151 474747 404040 333
P14P_{14}P14​ 656565 616161 545454 171717

第三次迭代 : 步骤 ( 2 ) 聚类分组


1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1​,P2​,⋯,P14​} 这 141414 个样本分组 :

P1P_{1}P1​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 333 , P1P_1P1​ 样本 分组到 K1K_1K1​ 组 ;
P2P_{2}P2​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 111 , P2P_2P2​ 样本 分组到 K1K_1K1​ 组 ;
P3P_{3}P3​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 111 , P3P_3P3​ 样本 分组到 K1K_1K1​ 组 ;

P4P_{4}P4​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 333 , P4P_4P4​ 样本 分组到 K1K_1K1​ 组 ;
P5P_{5}P5​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 222 , P5P_5P5​ 样本 分组到 K1K_1K1​ 组 ;
P6P_{6}P6​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 000 , P6P_6P6​ 样本 分组到 K2K_2K2​ 组 ;
P7P_{7}P7​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 111 , P7P_7P7​ 样本 分组到 K2K_2K2​ 组 ;
P8P_{8}P8​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 222 , P8P_8P8​ 样本 分组到 K2K_2K2​ 组 ;

P9P_{9}P9​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 111111 , P9P_9P9​ 样本 分组到 K3K_3K3​ 组 ;
P10P_{10}P10​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 555 , P10P_{10}P10​ 样本 分组到 K3K_3K3​ 组 ;
P11P_{11}P11​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P11P_{11}P11​ 样本 分组到 K3K_3K3​ 组 ;
P12P_{12}P12​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 111 , P12P_{12}P12​ 样本 分组到 K3K_3K3​ 组 ;
P13P_{13}P13​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P13P_{13}P13​ 样本 分组到 K3K_3K3​ 组 ;
P14P_{14}P14​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 171717 , P14P_{14}P14​ 样本 分组到 K3K_3K3​ 组 ;

2 . 当前分组依据的中心点 : {4,11,48}\{4 , 11 , 48\}{4,11,48}

3 . 当前分组结果 :

K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1​={P1​,P2​,P3​}

K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2​={P4​,P5​,P6​,P7​,P8​}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3​={P9​,P10​,P11​,P12​,P13​,P14​}

第三次迭代 : 步骤 ( 3 ) 计算中心值


根据新的聚类分组计算新的中心值 :

① 计算 K1K_1K1​ 分组的中心值 : K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1​={P1​,P2​,P3​} , 计算过程如下 :

C1=1+3+53=3C_1 = \frac{1 + 3 + 5 }{3} = 3C1​=31+3+5​=3

② 计算 K2K_2K2​ 分组的中心值 : K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2​={P4​,P5​,P6​,P7​,P8​}, 计算过程如下 :

C2=8+9+11+12+135=10C_2 = \frac{8 + 9 + 11 + 12 + 13}{5} = 10C2​=58+9+11+12+13​=10

③ 计算 K3K_3K3​ 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3​={P9​,P10​,P11​,P12​,P13​,P14​} , 计算过程如下 : ( 与上次对比没有变化 )

C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3​=637+43+45+49+51+65​=48

最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1​,C2​,C3​ 中心点是 {3,10,48}\{3 , 10 , 48\}{3,10,48}

第四次迭代 : 步骤 ( 1 ) 计算距离


计算 141414 个样本 与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1​ 与 C1C_1C1​ 对应的表格位置值是 P1P_1P1​ 样本 与 C1C_1C1​ 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 PiP_iPi​ 与 CjC_jCj​ 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;

③ 计算示例 : 如 P3P_3P3​ 样本 与 C2C_2C2​ 中心点的距离计算 , P3P_3P3​ 样本的年龄属性值是 555 , C2C_2C2​ 中心点值为 101010 ; d(P3,C2)d(P_3, C_2)d(P3​,C2​) 表示两个点之间的距离 ;

d(P2,C3)=∣5−10∣=5d(P_2, C_3) = |5 - 10| = 5d(P2​,C3​)=∣5−10∣=5

下表中的 P3P_3P3​ 行 C2C_2C2​ 列对应的值是 555 , 即上面计算出来的距离值 ;

年龄
聚类 C1C_1C1​ C2C_2C2​ C3C_3C3​
中心值 333 101010 484848
P1P_{1}P1​ 111 222 999 474747
P2P_2P2​ 333 000 777 454545
P3P_3P3​ 555 222 555 434343
P4P_4P4​ 888 555 222 404040
P5P_5P5​ 999 666 111 393939
P6P_6P6​ 111111 888 111 373737
P7P_7P7​ 121212 999 222 363636
P8P_8P8​ 131313 101010 333 353535
P9P_9P9​ 373737 343434 272727 111111
P10P_{10}P10​ 434343 404040 333333 555
P11P_{11}P11​ 454545 424242 353535 333
P12P_{12}P12​ 494949 464646 393939 111
P13P_{13}P13​ 515151 484848 414141 333
P14P_{14}P14​ 656565 626262 555555 171717

第四次迭代 : 步骤 ( 2 ) 聚类分组


1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1​,P2​,⋯,P14​} 这 141414 个样本分组 :

P1P_{1}P1​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 222 , P1P_1P1​ 样本 分组到 K1K_1K1​ 组 ;
P2P_{2}P2​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 000 , P2P_2P2​ 样本 分组到 K1K_1K1​ 组 ;
P3P_{3}P3​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C1C_1C1​ 距离最近 , 距离是 222 , P3P_3P3​ 样本 分组到 K1K_1K1​ 组 ;

P4P_{4}P4​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 222 , P4P_4P4​ 样本 分组到 K1K_1K1​ 组 ;
P5P_{5}P5​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 111 , P5P_5P5​ 样本 分组到 K1K_1K1​ 组 ;
P6P_{6}P6​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 111 , P6P_6P6​ 样本 分组到 K2K_2K2​ 组 ;
P7P_{7}P7​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 222 , P7P_7P7​ 样本 分组到 K2K_2K2​ 组 ;
P8P_{8}P8​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C2C_2C2​ 距离最近 , 距离是 333 , P8P_8P8​ 样本 分组到 K2K_2K2​ 组 ;

P9P_{9}P9​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 111111 , P9P_9P9​ 样本 分组到 K3K_3K3​ 组 ;
P10P_{10}P10​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 555 , P10P_{10}P10​ 样本 分组到 K3K_3K3​ 组 ;
P11P_{11}P11​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P11P_{11}P11​ 样本 分组到 K3K_3K3​ 组 ;
P12P_{12}P12​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 111 , P12P_{12}P12​ 样本 分组到 K3K_3K3​ 组 ;
P13P_{13}P13​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 333 , P13P_{13}P13​ 样本 分组到 K3K_3K3​ 组 ;
P14P_{14}P14​ 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1​,C2​,C3​} 三个中心点中的 C3C_3C3​ 距离最近 , 距离是 171717 , P14P_{14}P14​ 样本 分组到 K3K_3K3​ 组 ;

2 . 当前分组依据的中心点 : {3,10,48}\{3 , 10 , 48\}{3,10,48}

3 . 当前分组结果 :

K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1​={P1​,P2​,P3​}

K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2​={P4​,P5​,P6​,P7​,P8​}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3​={P9​,P10​,P11​,P12​,P13​,P14​}

本次分组与上一次分组没有变化 , 说明聚类算法已经收敛 , 该结果就是聚类最终结果 ;

【数据挖掘】K-Means 一维数据聚类分析示例相关推荐

  1. 【数据挖掘】K-Means 二维数据聚类分析 ( K-Means 迭代总结 | K-Means 初始中心点选择方案 | K-Means 算法优缺点 | K-Means 算法变种 )

    文章目录 K-Means 二维数据 聚类分析 数据样本及聚类要求 二维数据曼哈顿距离计算 K-Means 算法 步骤 第一次迭代 : 步骤 ( 1 ) 中心点初始化 第一次迭代 : 步骤 ( 2 ) ...

  2. OpenCV的k - means聚类 -对图片进行颜色量化

    OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...

  3. kmeans改进 matlab,基于距离函数的改进k―means 算法

    摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...

  4. 数据挖掘时功能和一个聚类分析应用案例

    数据挖掘时功能和一个聚类分析应用案例 数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科).当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整.除此以外,笔者尝试学习了SMAR ...

  5. 将一维数据(序列)转化为二维数据(图像)的方法汇总GAFS, MTF, Recurrence plot,STFT

    将一维序列数据转化为二维图像数据的方法汇总 详细 全面 一.背景 二.方法介绍 格拉米角场 GAFs 原理 实现步骤 调用示例 马尔可夫变迁场 MTF 原理 实现步骤 调用示例 递归图 Recurre ...

  6. k均值聚类算法(K Means)及其实战案例

    算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...

  7. 稳定同位素标记谱图可作为另一维数据

    稳定同位素标记谱图可作为另一维数据 准确的质量分析是确定分子式的关键.目前,质谱仪准确度有了显著提高,使得质量准确度可达0.1mDa:但是要确定未知代谢物的分子式,仅靠准确度是不够的.在m/z不超过1 ...

  8. OpenCV官方文档 理解k - means聚类

    理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...

  9. python处理pdf提取指定数据_python从PDF中提取数据的示例

    01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...

  10. python从字符串中提取数字并转换为相应数据类型_python从PDF中提取数据的示例

    01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...

最新文章

  1. 声场噪音测试软件,粉红噪声:测试声场频率的标准信号源(转载)
  2. DrawIcon 和 DrawIconEx都失真
  3. ITK:轮廓空间对象
  4. 【双100%提交】剑指 Offer 09. 用两个栈实现队列
  5. JavaScript DOM编程艺术第二版学习(1/4)
  6. 编程语言对比 执行文件
  7. ECSHOP首页调用指定分类下的商品
  8. 软件天才都是训练出来的
  9. ffmpeg对H.264进行rtp打包
  10. accept - 指示打印系统接受发往指定目标打印机的打印 任务
  11. 全国计算机第55次,全国第55次一级Ms Office试题
  12. .net core使用ef 6
  13. 用Kali进行ARP断网攻击
  14. 睡眠时间 数据_享受真正的安心睡眠 华米助眠耳塞Amazfit ZenBuds体验
  15. BasicRF学习心得
  16. Type-C保温杯取电方案
  17. 百度闪电算法什么时间开始
  18. 补码加减运算及判断溢出方法
  19. 致敬司徒!avalon例子学习
  20. vanish高速反向代理服务器配置

热门文章

  1. 从零搭建个人资讯系统1
  2. 5.android系统裁剪
  3. pycocotools安装,简单易懂
  4. 服务器租用多少钱一年呢?
  5. 老毛桃发帖子 去广告
  6. 无线电波的波段划分和应用
  7. JS·经典·炫彩菜单(动画效果) for jquery
  8. 新建文本文档出现错误怎么办
  9. 4.名词性从句的起源与本质
  10. HBuilder打包