【数据挖掘】K-Means 一维数据聚类分析示例

文章目录

K-Means 一维数据计算示例数据样本及初始值
K-Means 一维数据距离计算方式
K-Means 算法步骤
第一次迭代 : 步骤 ( 1 ) 计算距离
第一次迭代 : 步骤 ( 2 ) 聚类分组
第一次迭代 : 步骤 ( 3 ) 计算中心值
第二次迭代 : 步骤 ( 1 ) 计算距离
第二次迭代 : 步骤 ( 2 ) 聚类分组
第二次迭代 : 步骤 ( 3 ) 计算中心值
第三次迭代 : 步骤 ( 1 ) 计算距离
第三次迭代 : 步骤 ( 2 ) 聚类分组
第三次迭代 : 步骤 ( 3 ) 计算中心值
第四次迭代 : 步骤 ( 1 ) 计算距离
第四次迭代 : 步骤 ( 2 ) 聚类分组

K-Means 一维数据计算示例数据样本及初始值

1 . 数据集样本 : 141414 个人 , 根据其年龄 , 将数据集分成 333 组 ;

2 . 选定初始的中心值 : 111 , 202020 , 404040 ;

K-Means 一维数据距离计算方式

1 . 距离公式选择 : 一维数据 直接使用 曼哈顿距离 计算即可 , 二维数据 需要使用 欧几里得距离 计算 ;

2 . 曼哈顿距离 : 这里直接使用曼哈顿距离 , 即样本值 , 直接相减得到的值取绝对值 , 就是曼哈顿距离 ;

K-Means 算法步骤

K-Means 算法步骤 : 给定数据集 XXX , 该数据集有 nnn 个样本 , 将其分成 KKK 个聚类 ;

① 中心点初始化 : 为 KKK 个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

② 计算距离 : 计算 nnn 个对象与 KKK 个中心点的距离 ; ( 共计算 n×Kn \times Kn×K 次 )

③ 聚类分组 : 每个对象与 KKK 个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;

④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;

⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点和分组经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;

第一次迭代 : 步骤 ( 1 ) 计算距离

计算 141414 个样本与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本与 C1C_1C1 中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

② 计算方式 : 计算 PiP_iPi 与 CjC_jCj 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;

③ 计算示例 : 如 P3P_3P3 样本与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 202020 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;

d(P3,C2)=∣5−20∣=15d(P_3, C_2) = |5 - 20| = 15d(P3,C2)=∣5−20∣=15

下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 151515 , 即上面计算出来的距离值 ;

	年龄
聚类		C1C_1C1	C2C_2C2	C3C_3C3
中心值		111	202020	404040
P1P_{1}P1	111	000	191919	393939
P2P_2P2	333	222	171717	373737
P3P_3P3	555	444	151515	353535
P4P_4P4	888	777	121212	323232
P5P_5P5	999	888	111111	313131
P6P_6P6	111111	101010	999	292929
P7P_7P7	121212	111111	888	282828
P8P_8P8	131313	121212	777	272727
P9P_9P9	373737	363636	171717	333
P10P_{10}P10	434343	424242	232323	333
P11P_{11}P11	454545	444444	252525	555
P12P_{12}P12	494949	484848	292929	999
P13P_{13}P13	515151	505050	313131	111111
P14P_{14}P14	656565	646464	454545	252525

第一次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :

P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 000 , P1P_1P1 样本分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P2P_2P2 样本分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 444 , P3P_3P3 样本分组到 K1K_1K1 组 ;
P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 777 , P4P_4P4 样本分组到 K1K_1K1 组 ;
P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 888 , P5P_5P5 样本分组到 K1K_1K1 组 ;

P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 999 , P6P_6P6 样本分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 888 , P7P_7P7 样本分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 777 , P8P_8P8 样本分组到 K2K_2K2 组 ;

P9P_{9}P9 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P9P_9P9 样本分组到 K3K_3K3 组 ;
P10P_{10}P10 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P10P_{10}P10 样本分组到 K3K_3K3 组 ;
P11P_{11}P11 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 555 , P11P_{11}P11 样本分组到 K3K_3K3 组 ;
P12P_{12}P12 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 999 , P12P_{12}P12 样本分组到 K3K_3K3 组 ;
P13P_{13}P13 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111111 , P13P_{13}P13 样本分组到 K3K_3K3 组 ;
P14P_{14}P14 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 252525 , P14P_{14}P14 样本分组到 K3K_3K3 组 ;

2 . 当前分组依据的中心点 : {1,20,40}\{1 , 20 , 40\}{1,20,40}

3 . 当前分组结果 :

K1={P1,P2,P3,P4,P5}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}K1={P1,P2,P3,P4,P5}

K2={P6,P7,P8}K_2 = \{ P_{6} , P_{7} , P_{8} \}K2={P6,P7,P8}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}

第一次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算 K1K_1K1 分组的中心值 : K1={P1,P2,P3,P4,P5}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}K1={P1,P2,P3,P4,P5} , 计算过程如下 :

C1=1+3+5+8+95=5C_1 = \frac{1 + 3 + 5 + 8 + 9 }{5} = 5C1=51+3+5+8+9=5

② 计算 K2K_2K2 分组的中心值 : K2={P6,P7,P8}K_2 = \{ P_{6} , P_{7} , P_{8} \}K2={P6,P7,P8} , 计算过程如下 :

C2=11+12+133=12C_2 = \frac{11 + 12 + 13}{3} = 12C2=311+12+13=12

③ 计算 K3K_3K3 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 :

C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3=637+43+45+49+51+65=48

最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1,C2,C3 中心点是 {5,12,48}\{5 , 12 , 48\}{5,12,48}

第二次迭代 : 步骤 ( 1 ) 计算距离

计算 141414 个样本与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本与 C1C_1C1 中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

③ 计算示例 : 如 P3P_3P3 样本与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 121212 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;

d(P3,C2)=∣5−12∣=7d(P_3, C_2) = |5 - 12| = 7d(P3,C2)=∣5−12∣=7

下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 777 , 即上面计算出来的距离值 ;

	年龄
聚类		C1C_1C1	C2C_2C2	C3C_3C3
中心值		555	121212	484848
P1P_{1}P1	111	444	111111	474747
P2P_2P2	333	222	999	454545
P3P_3P3	555	000	777	434343
P4P_4P4	888	333	444	404040
P5P_5P5	999	444	333	393939
P6P_6P6	111111	666	111	373737
P7P_7P7	121212	777	000	363636
P8P_8P8	131313	888	111	353535
P9P_9P9	373737	252525	171717	111111
P10P_{10}P10	434343	383838	313131	555
P11P_{11}P11	454545	404040	333333	333
P12P_{12}P12	494949	444444	373737	111
P13P_{13}P13	515151	464646	393939	333
P14P_{14}P14	656565	606060	535353	171717

第二次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :

P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 444 , P1P_1P1 样本分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P2P_2P2 样本分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 000 , P3P_3P3 样本分组到 K1K_1K1 组 ;
P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 333 , P4P_4P4 样本分组到 K1K_1K1 组 ;

P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 333 , P5P_5P5 样本分组到 K1K_1K1 组 ;
P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P6P_6P6 样本分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 000 , P7P_7P7 样本分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P8P_8P8 样本分组到 K2K_2K2 组 ;

P9P_{9}P9 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111111 , P9P_9P9 样本分组到 K3K_3K3 组 ;
P10P_{10}P10 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 555 , P10P_{10}P10 样本分组到 K3K_3K3 组 ;
P11P_{11}P11 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P11P_{11}P11 样本分组到 K3K_3K3 组 ;
P12P_{12}P12 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111 , P12P_{12}P12 样本分组到 K3K_3K3 组 ;
P13P_{13}P13 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P13P_{13}P13 样本分组到 K3K_3K3 组 ;
P14P_{14}P14 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 171717 , P14P_{14}P14 样本分组到 K3K_3K3 组 ;

2 . 当前分组依据的中心点 : {5,12,48}\{5 , 12 , 48\}{5,12,48}

3 . 当前分组结果 :

K1={P1,P2,P3,P4}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}K1={P1,P2,P3,P4}

K2={P5,P6,P7,P8}K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}K2={P5,P6,P7,P8}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}

第二次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算 K1K_1K1 分组的中心值 : K1={P1,P2,P3,P4}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}K1={P1,P2,P3,P4} , 计算过程如下 :

C1=1+3+5+84=4C_1 = \frac{1 + 3 + 5 + 8 }{4} = 4C1=41+3+5+8=4

② 计算 K2K_2K2 分组的中心值 : K2={P5,P6,P7,P8}K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}K2={P5,P6,P7,P8}, 计算过程如下 :

C2=9+11+12+134=11C_2 = \frac{9 + 11 + 12 + 13}{4} = 11C2=49+11+12+13=11

③ 计算 K3K_3K3 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 : ( 与上次对比没有变化 )

C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3=637+43+45+49+51+65=48

最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1,C2,C3 中心点是 {4,11,48}\{4 , 11 , 48\}{4,11,48}

第三次迭代 : 步骤 ( 1 ) 计算距离

计算 141414 个样本与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本与 C1C_1C1 中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

③ 计算示例 : 如 P3P_3P3 样本与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 111111 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;

d(P3,C2)=∣5−11∣=6d(P_3, C_2) = |5 - 11| = 6d(P3,C2)=∣5−11∣=6

下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 666 , 即上面计算出来的距离值 ;

	年龄
聚类		C1C_1C1	C2C_2C2	C3C_3C3
中心值		444	111111	484848
P1P_{1}P1	111	333	101010	474747
P2P_2P2	333	111	888	454545
P3P_3P3	555	111	666	434343
P4P_4P4	888	444	333	404040
P5P_5P5	999	555	222	393939
P6P_6P6	111111	777	000	373737
P7P_7P7	121212	888	111	363636
P8P_8P8	131313	999	222	353535
P9P_9P9	373737	333333	262626	111111
P10P_{10}P10	434343	393939	323232	555
P11P_{11}P11	454545	414141	343434	333
P12P_{12}P12	494949	454545	383838	111
P13P_{13}P13	515151	474747	404040	333
P14P_{14}P14	656565	616161	545454	171717

第三次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :

P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 333 , P1P_1P1 样本分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 111 , P2P_2P2 样本分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 111 , P3P_3P3 样本分组到 K1K_1K1 组 ;

P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 333 , P4P_4P4 样本分组到 K1K_1K1 组 ;
P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P5P_5P5 样本分组到 K1K_1K1 组 ;
P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 000 , P6P_6P6 样本分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P7P_7P7 样本分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P8P_8P8 样本分组到 K2K_2K2 组 ;

2 . 当前分组依据的中心点 : {4,11,48}\{4 , 11 , 48\}{4,11,48}

3 . 当前分组结果 :

K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1={P1,P2,P3}

K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2={P4,P5,P6,P7,P8}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}

第三次迭代 : 步骤 ( 3 ) 计算中心值

根据新的聚类分组计算新的中心值 :

① 计算 K1K_1K1 分组的中心值 : K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1={P1,P2,P3} , 计算过程如下 :

C1=1+3+53=3C_1 = \frac{1 + 3 + 5 }{3} = 3C1=31+3+5=3

② 计算 K2K_2K2 分组的中心值 : K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2={P4,P5,P6,P7,P8}, 计算过程如下 :

C2=8+9+11+12+135=10C_2 = \frac{8 + 9 + 11 + 12 + 13}{5} = 10C2=58+9+11+12+13=10

C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3=637+43+45+49+51+65=48

最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1,C2,C3 中心点是 {3,10,48}\{3 , 10 , 48\}{3,10,48}

第四次迭代 : 步骤 ( 1 ) 计算距离

计算 141414 个样本与 333 个中心点的距离 :

① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本与 C1C_1C1 中心点的曼哈顿距离 , 即两个值相减取绝对值 ;

③ 计算示例 : 如 P3P_3P3 样本与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 101010 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;

d(P2,C3)=∣5−10∣=5d(P_2, C_3) = |5 - 10| = 5d(P2,C3)=∣5−10∣=5

下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 555 , 即上面计算出来的距离值 ;

	年龄
聚类		C1C_1C1	C2C_2C2	C3C_3C3
中心值		333	101010	484848
P1P_{1}P1	111	222	999	474747
P2P_2P2	333	000	777	454545
P3P_3P3	555	222	555	434343
P4P_4P4	888	555	222	404040
P5P_5P5	999	666	111	393939
P6P_6P6	111111	888	111	373737
P7P_7P7	121212	999	222	363636
P8P_8P8	131313	101010	333	353535
P9P_9P9	373737	343434	272727	111111
P10P_{10}P10	434343	404040	333333	555
P11P_{11}P11	454545	424242	353535	333
P12P_{12}P12	494949	464646	393939	111
P13P_{13}P13	515151	484848	414141	333
P14P_{14}P14	656565	626262	555555	171717

第四次迭代 : 步骤 ( 2 ) 聚类分组

1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :

P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P1P_1P1 样本分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 000 , P2P_2P2 样本分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P3P_3P3 样本分组到 K1K_1K1 组 ;

P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P4P_4P4 样本分组到 K1K_1K1 组 ;
P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P5P_5P5 样本分组到 K1K_1K1 组 ;
P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P6P_6P6 样本分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P7P_7P7 样本分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 333 , P8P_8P8 样本分组到 K2K_2K2 组 ;

2 . 当前分组依据的中心点 : {3,10,48}\{3 , 10 , 48\}{3,10,48}

3 . 当前分组结果 :

K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1={P1,P2,P3}

K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2={P4,P5,P6,P7,P8}

K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}

本次分组与上一次分组没有变化 , 说明聚类算法已经收敛 , 该结果就是聚类最终结果 ;