## K均值聚类
> K-Means算法通过尝试分离n个相等方差组中的样本来聚类数据,从而最小化称为惯性或簇内平方和的标准。该算法需要指定簇的数量。
### 构造函数参数
`$clustersNumber` - 要查找的集群数
`$initialization` - 初始化方法,默认kmeans ++(见下文)
```
$kmeans = new KMeans(2);
$kmeans = new KMeans(4, KMeans::INIT_RANDOM);
```
*****
## 聚类
要将样本分成簇,只需使用簇方法。它返回带有样本的簇数组。
```
$samples = [[1, 1], [8, 7], [1, 2], [7, 8], [2, 1], [8, 9]];
Or if you need to keep your indentifiers along with yours samples you can use array keys as labels.
$samples = [ 'Label1' => [1, 1], 'Label2' => [8, 7], 'Label3' => [1, 2]];
$kmeans = new KMeans(2);
$kmeans->cluster($samples);
// return [0=>[[1, 1], ...], 1=>[[8, 7], ...]] or [0=>['Label1' => [1, 1], 'Label3' => [1, 2], ...], 1=>['Label2' => [8, 7], ...]]
```
*****
## 初始化方法
### kmeans ++(默认)
> K-means ++方法以智能方式选择初始聚类中心进行k均值聚类,以加速收敛。它使用DASV播种方法包括为簇找到良好的初始质心。
### 随机
随机初始化方法选择完全随机的质心。它获得空间边界以避免将聚类质心放置在远离样本数据的位置。
- 基本介绍
- 关联规则学习
- 分类
- SVC
- k近邻算法
- NaiveBayes
- 回归
- 最小二乘法
- SVR
- 聚类
- k均值聚类算法
- DBSCAN聚类算法
- 公
- 准确性
- 混乱矩阵
- 分类报告
- 工作流程
- 神经网络
- 交叉验证
- 随机拆分
- 分层随机分裂
- 特征选择
- 方差阈值
- 特征选择
- 预处理
- 标准化
- 缺失值补全
- 特征提取(自然语言)
- 令牌计数矢量化器(文本处理)
- Tf-idf转换
- 数据集
- ArrayDataset
- CsvDataset
- FilesDataset
- SvmDataset
- MnistDataset
- 准备使用数据集
- Iris Dataset
- Wine Dataset
- Glass Dataset
- 模型管理
- 数学
- 距离
- 矩阵
- 组
- 统计