K均值聚类算法C++实现与优化指南-嵌云网-嵌入式AI开发资源站

K均值聚类算法C++实现与优化指南

呗老心眼极小

1. K均值算法原理与实现解析

K均值算法是一种经典的无监督学习算法，广泛应用于数据聚类分析。这个C++实现版本针对100×100的二维整型数据矩阵进行聚类处理，输出聚类中心和类别标签。

1.1 算法核心思想

K均值算法的核心是通过迭代计算，将数据点划分到K个簇中，使得每个数据点到其所属簇中心的距离最小。算法流程主要包含以下步骤：

初始化K个聚类中心（本实现中K=3）
计算每个数据点到各聚类中心的距离，将其分配到最近的簇
重新计算每个簇的中心（取簇内所有点的均值）
重复步骤2-3直到聚类中心变化小于阈值T（本实现中T=1e-6）

注意：K均值算法对初始中心点敏感，不同初始化可能导致不同结果。本实现采用固定位置初始化，实际应用中可考虑多次随机初始化取最优解。

1.2 数据结构设计

程序使用了以下关键数据结构：

image[row][col]：存储原始数据值
labels[row][col]：存储每个数据点的类别标签(0/1/2)
old_centers[K]和new_centers[K]：记录新旧聚类中心值
sum_x[K], sum_y[K], sum_val[K], count[K]：统计每个簇的横纵坐标和、像素值和、点数

这种设计充分利用了数组的连续内存特性，在100×100数据规模下能保证高效访问。

2. 代码实现细节剖析

2.1 文件处理模块

程序使用C++标准库的fstream处理文件IO：

cpp复制ifstream ifile("data.txt");  // 输入文件
ofstream ofile1("cluster_centers.txt");  // 聚类中心输出
ofstream ofile2("cluster_labels.txt");  // 类别标签输出

文件读取采用逐行扫描方式：

cpp复制for (int i = 0; i < row; i++) {
    for (int j = 0; j < col; j++) {
        ifile >> image[i][j];
    }
}

实际应用中应考虑添加更完善的错误处理，如检查文件格式、数据范围等。

2.2 聚类中心初始化

本实现采用固定位置初始化：

cpp复制new_centers[0] = image[10][10];  // 左上区域
new_centers[1] = image[70][30];  // 中部区域 
new_centers[2] = image[80][90];  // 右下区域

这种初始化方式假设数据在空间上有一定分布规律。对于完全随机分布的数据，建议改用随机初始化：

cpp复制// 随机初始化示例
srand(time(0));
for(int k=0; k<K; k++){
    int i = rand() % row;
    int j = rand() % col;
    new_centers[k] = image[i][j];
}

2.3 核心迭代过程

每次迭代包含三个关键步骤：

分配标签：计算每个点到各中心的距离，分配到最近簇

cpp复制double d1 = fabs(pixel - new_centers[0]);
double d2 = fabs(pixel - new_centers[1]);
double d3 = fabs(pixel - new_centers[2]);

if (d1 <= d2 && d1 <= d3) labels[i][j] = 0;
else if (d2 <= d1 && d2 <= d3) labels[i][j] = 1;
else labels[i][j] = 2;

更新统计量：累计各簇的坐标和、像素值和、点数

cpp复制sum_x[c] += j;  // 注意j是横坐标
sum_y[c] += i;  // i是纵坐标
sum_val[c] += pixel;
count[c]++;

更新中心：计算新的聚类中心

cpp复制if (count[k] > 0) {
    new_centers[k] = sum_val[k] / count[k];
}

2.4 收敛判断

当中心点变化量小于阈值T时停止迭代：

cpp复制double max_diff = 0;
for (int k = 0; k < K; k++) {
    double diff = fabs(new_centers[k] - old_centers[k]);
    if (diff > max_diff) max_diff = diff;
}

实践中可同时设置最大迭代次数避免无限循环，如：while(max_diff > T && iter < 100)

3. 输出结果格式说明

3.1 聚类中心文件(cluster_centers.txt)

格式规范：

code复制聚类序号 聚类平均横坐标x 聚类平均纵坐标y 聚类中心值 像素个数
1 X Y V N
...

示例输出：

code复制1      12.34     15.67    125.50     856
2      45.67     32.10    180.25    1243 
3      88.90     90.12     75.80     901

使用iomanip库控制输出格式：

cpp复制ofile1 << fixed << setprecision(2);
ofile1 << setw(4) << id
       << setw(12) << x
       << setw(14) << y
       << setw(12) << v
       << setw(10) << n << endl;

3.2 类别标签文件(cluster_labels.txt)

输出100×100的标签矩阵，空格分隔：

code复制1 1 1 2 1 1 ... 1
1 1 2 2 3 2 ... 2
...
3 3 1 2 2 2 ... 1

实现代码：

cpp复制for (int i = 0; i < row; i++) {
    for (int j = 0; j < col; j++) {
        ofile2 << labels[i][j] + 1 << " ";  // 标签转为1-based
    }
    ofile2 << endl;
}

4. 性能优化与扩展建议

4.1 计算效率优化

距离计算优化：当前使用绝对值距离(fabs)，对于高维数据可考虑：

cpp复制// 欧式距离平方
double distance = 0;
for(int d=0; d<dimensions; d++){
    double diff = point[d] - center[d];
    distance += diff * diff;
}

并行计算：像素点分类可并行化：

cpp复制#pragma omp parallel for
for (int i = 0; i < row; i++) {
    // 分类代码
}

4.2 功能扩展方向

动态确定K值：实现肘部法则或轮廓系数自动选择最佳K值

cpp复制// 肘部法则示例
for(int k=2; k<=10; k++){
    // 运行k-means
    double WCSS = 计算组内平方和;
    记录WCSS值;
}
// 选择拐点对应的k

支持其他数据类型：模板化支持浮点、多维数据

cpp复制template <typename T, int D>
class KMeans {
    // 多维实现
};

可视化输出：生成PNG图像直观显示聚类结果

cpp复制// 使用OpenCV等库
cv::Mat result(row, col, CV_8UC3);
for(int i=0; i<row; i++){
    for(int j=0; j<col; j++){
        result.at<cv::Vec3b>(i,j) = colors[labels[i][j]];
    }
}
cv::imwrite("result.png", result);

5. 常见问题与调试技巧

5.1 典型问题排查

空簇问题：某些簇可能没有分配到任何点

解决方案：重新初始化或合并空簇

cpp复制if(count[k] == 0){
    // 重新初始化该中心
    new_centers[k] = image[rand()%row][rand()%col];
}

收敛速度慢：迭代次数过多

调整策略：增大阈值T或设置最大迭代次数
尝试K-means++初始化

结果不稳定：每次运行结果不同

原因：随机初始化敏感性
解决方案：固定随机种子或多次运行取最优

5.2 调试建议

中间输出：在迭代过程中输出中间状态

cpp复制if(iter % 10 == 0){
    cout << "Iter " << iter << " centers: ";
    for(int k=0; k<K; k++) cout << new_centers[k] << " ";
    cout << endl;
}

验证数据范围：检查输入数据是否在预期范围内

cpp复制double min_val = INF, max_val = -INF;
for(int i=0; i<row; i++){
    for(int j=0; j<col; j++){
        if(image[i][j] < min_val) min_val = image[i][j];
        if(image[i][j] > max_val) max_val = image[i][j];
    }
}
cout << "Data range: " << min_val << " to " << max_val << endl;

小规模测试：先用10×10等小数据测试算法正确性

6. 实际应用建议

数据预处理：

归一化：不同维度数据应归一化到相同范围

cpp复制// Min-Max归一化
double min = 找到最小值;
double max = 找到最大值;
for(int i=0; i<row; i++){
    for(int j=0; j<col; j++){
        image[i][j] = (image[i][j]-min)/(max-min);
    }
}

参数选择经验：

K值：通过肘部法则或业务需求确定
阈值T：通常1e-5到1e-3，根据数据规模调整
初始化：大数据集建议用K-means++

结果评估指标：

组内平方和(WCSS)
轮廓系数(Silhouette Coefficient)
簇间距离比

这个C++实现提供了K均值算法的完整框架，通过适当调整可以应用于图像分割、客户分群、异常检测等多个领域。核心优势在于实现简洁、效率较高，适合中等规模数据集处理。