【数据挖掘】K-Means 一维数据聚类分析示例
文章目录
- K-Means 一维数据计算示例 数据样本 及 初始值
- K-Means 一维数据 距离计算方式
- K-Means 算法 步骤
- 第一次迭代 : 步骤 ( 1 ) 计算距离
- 第一次迭代 : 步骤 ( 2 ) 聚类分组
- 第一次迭代 : 步骤 ( 3 ) 计算中心值
- 第二次迭代 : 步骤 ( 1 ) 计算距离
- 第二次迭代 : 步骤 ( 2 ) 聚类分组
- 第二次迭代 : 步骤 ( 3 ) 计算中心值
- 第三次迭代 : 步骤 ( 1 ) 计算距离
- 第三次迭代 : 步骤 ( 2 ) 聚类分组
- 第三次迭代 : 步骤 ( 3 ) 计算中心值
- 第四次迭代 : 步骤 ( 1 ) 计算距离
- 第四次迭代 : 步骤 ( 2 ) 聚类分组
K-Means 一维数据计算示例 数据样本 及 初始值
1 . 数据集样本 : 141414 个人 , 根据其年龄 , 将数据集分成 333 组 ;
2 . 选定初始的中心值 : 111 , 202020 , 404040 ;
K-Means 一维数据 距离计算方式
1 . 距离公式选择 : 一维数据 直接使用 曼哈顿距离 计算即可 , 二维数据 需要使用 欧几里得距离 计算 ;
2 . 曼哈顿距离 : 这里直接使用曼哈顿距离 , 即样本值 , 直接相减得到的值取绝对值 , 就是曼哈顿距离 ;
K-Means 算法 步骤
K-Means 算法 步骤 : 给定数据集 XXX , 该数据集有 nnn 个样本 , 将其分成 KKK 个聚类 ;
① 中心点初始化 : 为 KKK 个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;
② 计算距离 : 计算 nnn 个对象与 KKK 个中心点 的距离 ; ( 共计算 n×Kn \times Kn×K 次 )
③ 聚类分组 : 每个对象与 KKK 个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;
④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;
⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点 和 分组 经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;
第一次迭代 : 步骤 ( 1 ) 计算距离
计算 141414 个样本 与 333 个中心点的距离 :
① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本 与 C1C_1C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 PiP_iPi 与 CjC_jCj 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;
③ 计算示例 : 如 P3P_3P3 样本 与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 202020 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;
d(P3,C2)=∣5−20∣=15d(P_3, C_2) = |5 - 20| = 15d(P3,C2)=∣5−20∣=15
下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 151515 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C1C_1C1 | C2C_2C2 | C3C_3C3 | |
中心值 | 111 | 202020 | 404040 | |
P1P_{1}P1 | 111 | 000 | 191919 | 393939 |
P2P_2P2 | 333 | 222 | 171717 | 373737 |
P3P_3P3 | 555 | 444 | 151515 | 353535 |
P4P_4P4 | 888 | 777 | 121212 | 323232 |
P5P_5P5 | 999 | 888 | 111111 | 313131 |
P6P_6P6 | 111111 | 101010 | 999 | 292929 |
P7P_7P7 | 121212 | 111111 | 888 | 282828 |
P8P_8P8 | 131313 | 121212 | 777 | 272727 |
P9P_9P9 | 373737 | 363636 | 171717 | 333 |
P10P_{10}P10 | 434343 | 424242 | 232323 | 333 |
P11P_{11}P11 | 454545 | 444444 | 252525 | 555 |
P12P_{12}P12 | 494949 | 484848 | 292929 | 999 |
P13P_{13}P13 | 515151 | 505050 | 313131 | 111111 |
P14P_{14}P14 | 656565 | 646464 | 454545 | 252525 |
第一次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :
P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 000 , P1P_1P1 样本 分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P2P_2P2 样本 分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 444 , P3P_3P3 样本 分组到 K1K_1K1 组 ;
P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 777 , P4P_4P4 样本 分组到 K1K_1K1 组 ;
P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 888 , P5P_5P5 样本 分组到 K1K_1K1 组 ;
P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 999 , P6P_6P6 样本 分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 888 , P7P_7P7 样本 分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 777 , P8P_8P8 样本 分组到 K2K_2K2 组 ;
P9P_{9}P9 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P9P_9P9 样本 分组到 K3K_3K3 组 ;
P10P_{10}P10 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P10P_{10}P10 样本 分组到 K3K_3K3 组 ;
P11P_{11}P11 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 555 , P11P_{11}P11 样本 分组到 K3K_3K3 组 ;
P12P_{12}P12 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 999 , P12P_{12}P12 样本 分组到 K3K_3K3 组 ;
P13P_{13}P13 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111111 , P13P_{13}P13 样本 分组到 K3K_3K3 组 ;
P14P_{14}P14 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 252525 , P14P_{14}P14 样本 分组到 K3K_3K3 组 ;
2 . 当前分组依据的中心点 : {1,20,40}\{1 , 20 , 40\}{1,20,40}
3 . 当前分组结果 :
K1={P1,P2,P3,P4,P5}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}K1={P1,P2,P3,P4,P5}
K2={P6,P7,P8}K_2 = \{ P_{6} , P_{7} , P_{8} \}K2={P6,P7,P8}
K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}
第一次迭代 : 步骤 ( 3 ) 计算中心值
根据新的聚类分组计算新的中心值 :
① 计算 K1K_1K1 分组的中心值 : K1={P1,P2,P3,P4,P5}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \}K1={P1,P2,P3,P4,P5} , 计算过程如下 :
C1=1+3+5+8+95=5C_1 = \frac{1 + 3 + 5 + 8 + 9 }{5} = 5C1=51+3+5+8+9=5
② 计算 K2K_2K2 分组的中心值 : K2={P6,P7,P8}K_2 = \{ P_{6} , P_{7} , P_{8} \}K2={P6,P7,P8} , 计算过程如下 :
C2=11+12+133=12C_2 = \frac{11 + 12 + 13}{3} = 12C2=311+12+13=12
③ 计算 K3K_3K3 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 :
C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3=637+43+45+49+51+65=48
最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1,C2,C3 中心点是 {5,12,48}\{5 , 12 , 48\}{5,12,48}
第二次迭代 : 步骤 ( 1 ) 计算距离
计算 141414 个样本 与 333 个中心点的距离 :
① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本 与 C1C_1C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 PiP_iPi 与 CjC_jCj 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;
③ 计算示例 : 如 P3P_3P3 样本 与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 121212 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;
d(P3,C2)=∣5−12∣=7d(P_3, C_2) = |5 - 12| = 7d(P3,C2)=∣5−12∣=7
下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 777 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C1C_1C1 | C2C_2C2 | C3C_3C3 | |
中心值 | 555 | 121212 | 484848 | |
P1P_{1}P1 | 111 | 444 | 111111 | 474747 |
P2P_2P2 | 333 | 222 | 999 | 454545 |
P3P_3P3 | 555 | 000 | 777 | 434343 |
P4P_4P4 | 888 | 333 | 444 | 404040 |
P5P_5P5 | 999 | 444 | 333 | 393939 |
P6P_6P6 | 111111 | 666 | 111 | 373737 |
P7P_7P7 | 121212 | 777 | 000 | 363636 |
P8P_8P8 | 131313 | 888 | 111 | 353535 |
P9P_9P9 | 373737 | 252525 | 171717 | 111111 |
P10P_{10}P10 | 434343 | 383838 | 313131 | 555 |
P11P_{11}P11 | 454545 | 404040 | 333333 | 333 |
P12P_{12}P12 | 494949 | 444444 | 373737 | 111 |
P13P_{13}P13 | 515151 | 464646 | 393939 | 333 |
P14P_{14}P14 | 656565 | 606060 | 535353 | 171717 |
第二次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :
P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 444 , P1P_1P1 样本 分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P2P_2P2 样本 分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 000 , P3P_3P3 样本 分组到 K1K_1K1 组 ;
P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 333 , P4P_4P4 样本 分组到 K1K_1K1 组 ;
P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 333 , P5P_5P5 样本 分组到 K1K_1K1 组 ;
P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P6P_6P6 样本 分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 000 , P7P_7P7 样本 分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P8P_8P8 样本 分组到 K2K_2K2 组 ;
P9P_{9}P9 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111111 , P9P_9P9 样本 分组到 K3K_3K3 组 ;
P10P_{10}P10 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 555 , P10P_{10}P10 样本 分组到 K3K_3K3 组 ;
P11P_{11}P11 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P11P_{11}P11 样本 分组到 K3K_3K3 组 ;
P12P_{12}P12 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111 , P12P_{12}P12 样本 分组到 K3K_3K3 组 ;
P13P_{13}P13 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P13P_{13}P13 样本 分组到 K3K_3K3 组 ;
P14P_{14}P14 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 171717 , P14P_{14}P14 样本 分组到 K3K_3K3 组 ;
2 . 当前分组依据的中心点 : {5,12,48}\{5 , 12 , 48\}{5,12,48}
3 . 当前分组结果 :
K1={P1,P2,P3,P4}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}K1={P1,P2,P3,P4}
K2={P5,P6,P7,P8}K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}K2={P5,P6,P7,P8}
K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}
第二次迭代 : 步骤 ( 3 ) 计算中心值
根据新的聚类分组计算新的中心值 :
① 计算 K1K_1K1 分组的中心值 : K1={P1,P2,P3,P4}K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \}K1={P1,P2,P3,P4} , 计算过程如下 :
C1=1+3+5+84=4C_1 = \frac{1 + 3 + 5 + 8 }{4} = 4C1=41+3+5+8=4
② 计算 K2K_2K2 分组的中心值 : K2={P5,P6,P7,P8}K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \}K2={P5,P6,P7,P8}, 计算过程如下 :
C2=9+11+12+134=11C_2 = \frac{9 + 11 + 12 + 13}{4} = 11C2=49+11+12+13=11
③ 计算 K3K_3K3 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 : ( 与上次对比没有变化 )
C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3=637+43+45+49+51+65=48
最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1,C2,C3 中心点是 {4,11,48}\{4 , 11 , 48\}{4,11,48}
第三次迭代 : 步骤 ( 1 ) 计算距离
计算 141414 个样本 与 333 个中心点的距离 :
① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本 与 C1C_1C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 PiP_iPi 与 CjC_jCj 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;
③ 计算示例 : 如 P3P_3P3 样本 与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 111111 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;
d(P3,C2)=∣5−11∣=6d(P_3, C_2) = |5 - 11| = 6d(P3,C2)=∣5−11∣=6
下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 666 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C1C_1C1 | C2C_2C2 | C3C_3C3 | |
中心值 | 444 | 111111 | 484848 | |
P1P_{1}P1 | 111 | 333 | 101010 | 474747 |
P2P_2P2 | 333 | 111 | 888 | 454545 |
P3P_3P3 | 555 | 111 | 666 | 434343 |
P4P_4P4 | 888 | 444 | 333 | 404040 |
P5P_5P5 | 999 | 555 | 222 | 393939 |
P6P_6P6 | 111111 | 777 | 000 | 373737 |
P7P_7P7 | 121212 | 888 | 111 | 363636 |
P8P_8P8 | 131313 | 999 | 222 | 353535 |
P9P_9P9 | 373737 | 333333 | 262626 | 111111 |
P10P_{10}P10 | 434343 | 393939 | 323232 | 555 |
P11P_{11}P11 | 454545 | 414141 | 343434 | 333 |
P12P_{12}P12 | 494949 | 454545 | 383838 | 111 |
P13P_{13}P13 | 515151 | 474747 | 404040 | 333 |
P14P_{14}P14 | 656565 | 616161 | 545454 | 171717 |
第三次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :
P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 333 , P1P_1P1 样本 分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 111 , P2P_2P2 样本 分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 111 , P3P_3P3 样本 分组到 K1K_1K1 组 ;
P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 333 , P4P_4P4 样本 分组到 K1K_1K1 组 ;
P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P5P_5P5 样本 分组到 K1K_1K1 组 ;
P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 000 , P6P_6P6 样本 分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P7P_7P7 样本 分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P8P_8P8 样本 分组到 K2K_2K2 组 ;
P9P_{9}P9 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111111 , P9P_9P9 样本 分组到 K3K_3K3 组 ;
P10P_{10}P10 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 555 , P10P_{10}P10 样本 分组到 K3K_3K3 组 ;
P11P_{11}P11 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P11P_{11}P11 样本 分组到 K3K_3K3 组 ;
P12P_{12}P12 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111 , P12P_{12}P12 样本 分组到 K3K_3K3 组 ;
P13P_{13}P13 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P13P_{13}P13 样本 分组到 K3K_3K3 组 ;
P14P_{14}P14 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 171717 , P14P_{14}P14 样本 分组到 K3K_3K3 组 ;
2 . 当前分组依据的中心点 : {4,11,48}\{4 , 11 , 48\}{4,11,48}
3 . 当前分组结果 :
K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1={P1,P2,P3}
K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2={P4,P5,P6,P7,P8}
K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}
第三次迭代 : 步骤 ( 3 ) 计算中心值
根据新的聚类分组计算新的中心值 :
① 计算 K1K_1K1 分组的中心值 : K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1={P1,P2,P3} , 计算过程如下 :
C1=1+3+53=3C_1 = \frac{1 + 3 + 5 }{3} = 3C1=31+3+5=3
② 计算 K2K_2K2 分组的中心值 : K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2={P4,P5,P6,P7,P8}, 计算过程如下 :
C2=8+9+11+12+135=10C_2 = \frac{8 + 9 + 11 + 12 + 13}{5} = 10C2=58+9+11+12+13=10
③ 计算 K3K_3K3 分组的中心值 : K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 : ( 与上次对比没有变化 )
C3=37+43+45+49+51+656=48C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48C3=637+43+45+49+51+65=48
最新计算出的 C1,C2,C3C_1 , C_2 , C_3C1,C2,C3 中心点是 {3,10,48}\{3 , 10 , 48\}{3,10,48}
第四次迭代 : 步骤 ( 1 ) 计算距离
计算 141414 个样本 与 333 个中心点的距离 :
① 表格含义 : 如下 P1P_1P1 与 C1C_1C1 对应的表格位置值是 P1P_1P1 样本 与 C1C_1C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 PiP_iPi 与 CjC_jCj 之间的距离 , 直接将两个数值相减取平均值即可 ; iii 取值范围 , {1,2,⋯,14}\{1 , 2 , \cdots , 14\}{1,2,⋯,14} , jjj 的取值范围 {1,2,3}\{1 , 2, 3\}{1,2,3} ;
③ 计算示例 : 如 P3P_3P3 样本 与 C2C_2C2 中心点的距离计算 , P3P_3P3 样本的年龄属性值是 555 , C2C_2C2 中心点值为 101010 ; d(P3,C2)d(P_3, C_2)d(P3,C2) 表示两个点之间的距离 ;
d(P2,C3)=∣5−10∣=5d(P_2, C_3) = |5 - 10| = 5d(P2,C3)=∣5−10∣=5
下表中的 P3P_3P3 行 C2C_2C2 列对应的值是 555 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C1C_1C1 | C2C_2C2 | C3C_3C3 | |
中心值 | 333 | 101010 | 484848 | |
P1P_{1}P1 | 111 | 222 | 999 | 474747 |
P2P_2P2 | 333 | 000 | 777 | 454545 |
P3P_3P3 | 555 | 222 | 555 | 434343 |
P4P_4P4 | 888 | 555 | 222 | 404040 |
P5P_5P5 | 999 | 666 | 111 | 393939 |
P6P_6P6 | 111111 | 888 | 111 | 373737 |
P7P_7P7 | 121212 | 999 | 222 | 363636 |
P8P_8P8 | 131313 | 101010 | 333 | 353535 |
P9P_9P9 | 373737 | 343434 | 272727 | 111111 |
P10P_{10}P10 | 434343 | 404040 | 333333 | 555 |
P11P_{11}P11 | 454545 | 424242 | 353535 | 333 |
P12P_{12}P12 | 494949 | 464646 | 393939 | 111 |
P13P_{13}P13 | 515151 | 484848 | 414141 | 333 |
P14P_{14}P14 | 656565 | 626262 | 555555 | 171717 |
第四次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 {P1,P2,⋯,P14}\{P_1 , P_2, \cdots , P_{14}\}{P1,P2,⋯,P14} 这 141414 个样本分组 :
P1P_{1}P1 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P1P_1P1 样本 分组到 K1K_1K1 组 ;
P2P_{2}P2 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 000 , P2P_2P2 样本 分组到 K1K_1K1 组 ;
P3P_{3}P3 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C1C_1C1 距离最近 , 距离是 222 , P3P_3P3 样本 分组到 K1K_1K1 组 ;
P4P_{4}P4 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P4P_4P4 样本 分组到 K1K_1K1 组 ;
P5P_{5}P5 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P5P_5P5 样本 分组到 K1K_1K1 组 ;
P6P_{6}P6 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 111 , P6P_6P6 样本 分组到 K2K_2K2 组 ;
P7P_{7}P7 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 222 , P7P_7P7 样本 分组到 K2K_2K2 组 ;
P8P_{8}P8 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C2C_2C2 距离最近 , 距离是 333 , P8P_8P8 样本 分组到 K2K_2K2 组 ;
P9P_{9}P9 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111111 , P9P_9P9 样本 分组到 K3K_3K3 组 ;
P10P_{10}P10 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 555 , P10P_{10}P10 样本 分组到 K3K_3K3 组 ;
P11P_{11}P11 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P11P_{11}P11 样本 分组到 K3K_3K3 组 ;
P12P_{12}P12 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 111 , P12P_{12}P12 样本 分组到 K3K_3K3 组 ;
P13P_{13}P13 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 333 , P13P_{13}P13 样本 分组到 K3K_3K3 组 ;
P14P_{14}P14 与 {C1,C2,C3}\{C_1, C_2, C_3\}{C1,C2,C3} 三个中心点中的 C3C_3C3 距离最近 , 距离是 171717 , P14P_{14}P14 样本 分组到 K3K_3K3 组 ;
2 . 当前分组依据的中心点 : {3,10,48}\{3 , 10 , 48\}{3,10,48}
3 . 当前分组结果 :
K1={P1,P2,P3}K_1 = \{ P_{1} , P_{2} , P_{3} \}K1={P1,P2,P3}
K2={P4,P5,P6,P7,P8}K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \}K2={P4,P5,P6,P7,P8}
K3={P9,P10,P11,P12,P13,P14}K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \}K3={P9,P10,P11,P12,P13,P14}
本次分组与上一次分组没有变化 , 说明聚类算法已经收敛 , 该结果就是聚类最终结果 ;
【数据挖掘】K-Means 一维数据聚类分析示例相关推荐
- 【数据挖掘】K-Means 二维数据聚类分析 ( K-Means 迭代总结 | K-Means 初始中心点选择方案 | K-Means 算法优缺点 | K-Means 算法变种 )
文章目录 K-Means 二维数据 聚类分析 数据样本及聚类要求 二维数据曼哈顿距离计算 K-Means 算法 步骤 第一次迭代 : 步骤 ( 1 ) 中心点初始化 第一次迭代 : 步骤 ( 2 ) ...
- OpenCV的k - means聚类 -对图片进行颜色量化
OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...
- kmeans改进 matlab,基于距离函数的改进k―means 算法
摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...
- 数据挖掘时功能和一个聚类分析应用案例
数据挖掘时功能和一个聚类分析应用案例 数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科).当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整.除此以外,笔者尝试学习了SMAR ...
- 将一维数据(序列)转化为二维数据(图像)的方法汇总GAFS, MTF, Recurrence plot,STFT
将一维序列数据转化为二维图像数据的方法汇总 详细 全面 一.背景 二.方法介绍 格拉米角场 GAFs 原理 实现步骤 调用示例 马尔可夫变迁场 MTF 原理 实现步骤 调用示例 递归图 Recurre ...
- k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
- 稳定同位素标记谱图可作为另一维数据
稳定同位素标记谱图可作为另一维数据 准确的质量分析是确定分子式的关键.目前,质谱仪准确度有了显著提高,使得质量准确度可达0.1mDa:但是要确定未知代谢物的分子式,仅靠准确度是不够的.在m/z不超过1 ...
- OpenCV官方文档 理解k - means聚类
理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...
- python处理pdf提取指定数据_python从PDF中提取数据的示例
01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...
- python从字符串中提取数字并转换为相应数据类型_python从PDF中提取数据的示例
01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...
最新文章
- 声场噪音测试软件,粉红噪声:测试声场频率的标准信号源(转载)
- DrawIcon 和 DrawIconEx都失真
- ITK:轮廓空间对象
- 【双100%提交】剑指 Offer 09. 用两个栈实现队列
- JavaScript DOM编程艺术第二版学习(1/4)
- 编程语言对比 执行文件
- ECSHOP首页调用指定分类下的商品
- 软件天才都是训练出来的
- ffmpeg对H.264进行rtp打包
- accept - 指示打印系统接受发往指定目标打印机的打印 任务
- 全国计算机第55次,全国第55次一级Ms Office试题
- .net core使用ef 6
- 用Kali进行ARP断网攻击
- 睡眠时间 数据_享受真正的安心睡眠 华米助眠耳塞Amazfit ZenBuds体验
- BasicRF学习心得
- Type-C保温杯取电方案
- 百度闪电算法什么时间开始
- 补码加减运算及判断溢出方法
- 致敬司徒!avalon例子学习
- vanish高速反向代理服务器配置