## 问题描述
数据集来自美国威斯康星州乳腺癌(诊断)数据集,医疗人员采集了患者乳腺肿块经过细针穿刺(FNA)后的数字化图像。并且对这些数字图像进行特征提取,这些特征可以描述图像中的细胞核呈现。肿瘤可以分成良性和恶性,采集的数据集见:
Git.
请使用**SVM**对乳腺癌数据进行分类,预测患者的肿瘤是否为良性。
数据表一共包括了32个字段,代表的含义如下:
| 字段 | 含义 |
| --- | --- |
| ID |ID标识 |
| Diagnosis |M/B(M:恶性,B:良性)|
| radius_mean |半径(点中心到边缘的距离)平均值|
| texture_mean |文理(灰度值的标准差)平均值|
| perimeter_mean |周长 平均值 |
| area_mean |面积 平均值 |
| smoothness_mean |平滑程度(半径内的局部变化)平均值|
| compactness_mean |紧密度(=周长*周长/面积-1.0)平均值|
| concavity_mean |凹度(轮廓凹部的严重程度)平均值 |
| concave points_mean |凹缝(轮廓的凹部分)平均值|
| symmetry_mean |对称性 平均值 |
| fractal_dimension_mean |分形维数(=海岸线近似-1)平均值 |
| radius_se |半径(点中心到边缘的距离)标准差 |
| texture_se |文理(灰度值的标准差)标准差 |
| perimeter_se |周长 标准差 |
| area_se |面积 标准差 |
| smoothness_se |平滑程度(半径内的局部变化)标准差 |
| compactness_se |紧密度(=周长*周长/面积-1.0)标准差 |
| concavity_se |凹度(轮廓凹部的严重程度)标准差 |
| concave points_se |凹缝(轮廓的凹部分)标准差 |
| symmetry_se |对称性标准差 |
| fractal_dimension_se |分形维数(=海岸线近似-1)标准差 |
| radius_worst |半径(点中心到边缘的距离)最大值 |
| texture_worst |文理(灰度值的标准差)最大值 |
| perimeter_worst |周长 最大值 |
| area_worst |面积 最大值 |
| smoothness_worst |平滑程度(半径内的局部变化)最大值 |
| compactness_worst |紧密度(=周长*周长/面积-1.0)最大值 |
| concavity_worst |凹度(轮廓凹部的严重程度)最大值 |
| concave points_worst |凹缝(轮廓的凹部分)最大值 |
| symmetry_worst |对称性 最大值 |
| fractal_dimension_worst |分形维数(=海岸线近似-1)最大值 |
字段中包含mean的代表平均值,包含se的代表标准差(standard error),包含worst代表最大值(3个最大值的平均值)。每张图像都计算了相应的特征,得出了这30个特征值。(实际上是10个特征值的3个维度:平均、标准差、最大值)。
这些特征值都保留了4位数字。字段中没有缺失的值。在整个569个患者中,一共有357个是良性,212个是恶性。