# 如何在 Python 中加载机器学习数据
> 原文: [https://pythonbasics.org/how-to-load-machine-learning-data-in-python/](https://pythonbasics.org/how-to-load-machine-learning-data-in-python/)
为了使用 Python 启动您的机器学习项目,您需要能够正确加载数据。 如果您是 Python 的初学者,本文将帮助您学习如何使用三种不同的技术来加载机器学习数据。
## 加载机器学习数据
在深入探讨之前,您需要知道 CSV 或逗号分隔的值是呈现机器学习数据的最常用格式。 在机器学习数据的 CSV 文件中,您需要了解一些零件和功能。 这些包括:
* **CSV 文件标题**:CSV 文件中的标题用于将名称或标签自动分配给数据集的每一列。 如果您的文件没有标题,则必须手动命名属性。
* **注释**:当一行以井号(`#`)开头时,您可以在 CSV 文件中标识注释。 根据您选择的加载机器学习数据的方法,您将不得不确定是否要显示这些注释,以及如何识别它们。
* **定界符**:定界符分隔字段中的多个值,并用逗号(`,`)表示。 制表符(`\t`)是可以使用的另一个定界符,但是必须明确指定它。
* **引号**:如果文件中的字段值包含空格,则通常会用引号引起来,并且表示该值的符号为双引号。 如果选择使用字符,则需要在文件中指定。
在确定了数据文件的这些关键部分之后,让我们继续学习如何在 Python 中加载机器学习数据的不同方法。
### 使用 Python 标准库加载数据
使用 Python 标准库,您将使用模块 CSV 和函数`reader()`加载 CSV 文件。 加载后,CSV 数据将自动转换为 NumPy 数组,可用于机器学习。
例如,下面是一个小代码,当您使用 Python API 运行时,它将加载没有标题且包含数字字段的该数据集。 它还将自动将其转换为 NumPy 数组。
```py
# Load CSV (using python)
import csv
import numpy
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rt')
reader = csv.reader(raw_data, delimiter=',', quoting=csv.QUOTE_NONE)
x = list(reader)
data = numpy.array(x).astype('float')
print(data.shape)
```
简而言之,该代码命令程序加载一个对象,该对象可以对数据的每一行进行迭代,并且可以轻松地转换为 NumPy 数组。 运行示例代码将产生以下形状的数组:
```
1 (768, 9)
```
### 用 NumPy 加载数据文件
在 Python 中加载机器学习数据的另一种方法是使用 NumPy 和`numpy.loadtxt()`函数。
在下面的示例代码中,该函数假定您的文件没有标题行,并且所有数据都使用相同的格式。 它还假定文件`pima-indians-diabetes.data.csv`存储在当前目录中。
```py
# Load CSV
import numpy
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rt')
data = numpy.loadtxt(raw_data, delimiter=",")
print(data.shape)
```
运行上面的示例代码会将文件加载为`numpy.ndarray`并产生以下数据形状:
```
1 (768, 9)
```
如果可以使用 URL 检索文件,则可以将以上代码修改为以下代码,同时产生相同的数据集:
```py
# Load CSV from URL using NumPy
from numpy import loadtxt
from urllib.request import urlopen
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indiansiabetes.data.csv'
raw_data = urlopen(url)
dataset = loadtxt(raw_data, delimiter=",")
print(dataset.shape)
```
运行代码将产生相同的结果数据形状:
```
1 (768, 9)
```
![python pandas data load csv](https://img.kancloud.cn/5a/5f/5a5f984529bf2479c2fb752bb8684e3a_1160x838.jpg)
### 用 Pandas 加载数据文件
加载机器学习数据的第三种方法是使用 Pandas 和`pandas.read_csv()`函数。
`pandas.read_csv()`函数非常灵活,是加载机器学习数据的最理想方法。 它返回一个`pandas.DataFrame`,使您可以立即开始汇总和绘图。
下面的示例代码假定`pima-indians-diabetes.data.csv`文件存储在当前目录中。
```py
1 # Load CSV using Pandas
2 import pandas
3 filename = 'pima-indians-diabetes.data.csv'
4 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
5 data = pandas.read_csv(filename, names=names)
6 print(data.shape)
```
您将在此处注意到,我们已将每个属性的名称明确标识为`DataFrame`。 当我们运行上面的示例代码时,将打印以下形状的数据:
```
1 (768, 9)
```
如果可以使用 URL 检索文件,则可以对以上代码进行以下修改,同时生成相同的数据集:
```py
1 # Load CSV using Pandas from URL
2 Import pandas
3 url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
4 names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
5 data = pandas.read_csv(url, names=names)
6 print(data.shape)
```
运行上面的示例代码将下载一个 CSV 文件,对其进行解析,并生成以下形状的已加载`DataFrame`:
```
1 (768, 9)
```
[下载示例和练习](https://gum.co/MnRYU)
- 介绍
- 学习 python 的 7 个理由
- 为什么 Python 很棒
- 学习 Python
- 入门
- 执行 Python 脚本
- 变量
- 字符串
- 字符串替换
- 字符串连接
- 字符串查找
- 分割
- 随机数
- 键盘输入
- 控制结构
- if语句
- for循环
- while循环
- 数据与操作
- 函数
- 列表
- 列表操作
- 排序列表
- range函数
- 字典
- 读取文件
- 写入文件
- 嵌套循环
- 切片
- 多个返回值
- 作用域
- 时间和日期
- try except
- 如何使用pip和 pypi
- 面向对象
- 类
- 构造函数
- 获取器和设置器
- 模块
- 继承
- 静态方法
- 可迭代对象
- Python 类方法
- 多重继承
- 高级
- 虚拟环境
- 枚举
- Pickle
- 正则表达式
- JSON 和 python
- python 读取 json 文件
- 装饰器
- 网络服务器
- 音频
- 用 Python 播放声音
- python 文字转语音
- 将 MP3 转换为 WAV
- 转录音频
- Tkinter
- Tkinter
- Tkinter 按钮
- Tkinter 菜单
- Tkinter 标签
- Tkinter 图片
- Tkinter 画布
- Tkinter 复选框
- Tkinter 输入框
- Tkinter 文件对话框
- Tkinter 框架
- Tkinter 列表框
- Tkinter 消息框
- Tkinter 单选按钮
- Tkinter 刻度
- 绘图
- Matplotlib 条形图
- Matplotlib 折线图
- Seaborn 分布图
- Seaborn 绘图
- Seaborn 箱形图
- Seaborn 热力图
- Seaborn 直线图
- Seaborn 成对图
- Seaborn 调色板
- Seaborn Pandas
- Seaborn 散点图
- Plotly
- PyQt
- PyQt
- 安装 PyQt
- PyQt Hello World
- PyQt 按钮
- PyQt QMessageBox
- PyQt 网格
- QLineEdit
- PyQT QPixmap
- PyQt 组合框
- QCheckBox
- QSlider
- 进度条
- PyQt 表格
- QVBoxLayout
- PyQt 样式
- 编译 PyQt 到 EXE
- QDial
- QCheckBox
- PyQt 单选按钮
- PyQt 分组框
- PyQt 工具提示
- PyQt 工具箱
- PyQt 工具栏
- PyQt 菜单栏
- PyQt 标签小部件
- PyQt 自动补全
- PyQt 列表框
- PyQt 输入对话框
- Qt Designer Python
- 机器学习
- 数据科学
- 如何从机器学习和 AI 认真地起步
- 为什么要使用 Python 进行机器学习?
- 机器学习库
- 什么是机器学习?
- 区分机器学习,深度学习和 AI?
- 机器学习
- 机器学习算法比较
- 为什么要使用 Scikit-Learn?
- 如何在 Python 中加载机器学习数据
- 机器学习分类器
- 机器学习回归
- Python 中的多项式回归
- 决策树
- k 最近邻
- 训练测试拆分
- 人脸检测
- 如何为 scikit-learn 机器学习准备数据
- Selenium
- Selenium 浏览器
- Selenium Cookie
- Selenium 执行 JavaScript
- Selenium 按 ID 查找元素
- Selenium 无头 Firefox
- Selenium Firefox
- Selenium 获取 HTML
- Selenium 键盘
- Selenium 最大化
- Selenium 截图
- Selenium 向下滚动
- Selenium 切换到窗口
- Selenium 等待页面加载
- Flask 教程
- Flask 教程:Hello World
- Flask 教程:模板
- Flask 教程:路由