[TOC]
*****
pandas对dataframe与series提供了丰富的操作方法
### 1.3.1. 查看属性
1. columns
2. index
3. dtypes
4. shape
5. size
```
#查看数据框的列
df.columns
#查看数据框的索引
df.index
#数据框每一列的数据类型
df.dtypes
#数据框有多少行多少列
df.shape
#数据框有多少个数据,行*列
df.size
#数据框的长度,它有多少行
len(df)
```
### 1.3.2. 方法使用
1. head
2. tail
3. rename
4. replace
5. unique()
6. value_counts()
7. sort_values
8. describe
9. max/min/sum/mean
```
#重命名列名,"height"是原名字,"Height"是修改后的名字。inplace=True是对原数据集修改,inplace=false是根据原来生成一个新的数据集
df.rename(columns={"height":"Height","weight":"Weight"},inplace=True)
```
```
#显示前两行
df.head(2)
#显示最后四行
df.tail(4)
```
```
#将player列中Curly Armstrong的数据换位xiao并放回一个新的数据集
df.replace({"Player":{"Curly Armstrong":"xiao"}})
```
```
#对值进行排序,默认是升序ascending=True,先按collage再按Height排
df.sort_values(by = ['collage','Height'],ascending=True).head()
```
```
#s1是数据框的birth_state列,是series
s1 = df['birth_state']
#该列中不重复的值的数量有多少个 s1.unique()看唯一值
len(s1.unique())
#结果129个
```
```
#该列中每个值的频数计算
s1.value_counts()
```
![](https://img.kancloud.cn/7f/b4/7fb46262ff79a40a1a5d21aa12a8850a_476x219.png)
```
#每一列的最小值
df.min()
```
![](https://img.kancloud.cn/4f/9f/4f9f298537e4fb52e18b129f9474e499_177x93.png)
每一列的最大值
![](https://img.kancloud.cn/fe/9e/fe9e67bb46796b038ff524f5352bb3ff_198x136.png)
```
axis : {index (0), columns (1)}
Axis for the function to be applied on.
#axis=0 求每一列的数值和,axis =1 求每一行的数值和 max函数也有axis参数
# df.sum默认是 axis = 0
df.sum(axis=0)
```
**数据选取/添加/删除**
```
#选择Player列数据
df['Player']
#选择两列数据
df[['Player','Height']]
# 不推荐使用这种方式取Player列数据,分不清是自带属性还是数据框的一个列名
df.Player
```
```
# 给增加class列,该列的值都是1
df["class"] = 1
df['class']
df.class
```
```
#显示数据框Height列中>=200或<=170的所有值
df[(df['Height'] >= 200) | (df['Height'] <=170)]
.head()默认显示前五行
```
```
# 删除df数据框中的class列
del df['class']
```
```
# somethong different
import numpy as np
a = np.array([[1,2,3,4,5,56],[3,4,5,1,7,3],[29,3,1,6,2,0]])
#np.sum(a,axis = 1) 求每一行数值和
#np.sum(a,axis = 0) 求每一列数值和
# 求所有数据的和,没有axis=0的默认值 自己写的时候要清楚是根据什么进行的求值
np.sum(a)
```
![](https://img.kancloud.cn/e8/4d/e84d851ad82c7107b6472c8e21c57af2_142x89.png)
- 第五节 Pandas数据管理
- 1.1 文件读取
- 1.2 DataFrame 与 Series
- 1.3 常用操作
- 1.4 Missing value
- 1.5 文本数据
- 1.6 分类数据
- 第六节 pandas数据分析
- 2.1 索引选取
- 2.2. 分组计算
- 2.3. 表联结
- 2.4. 数据透视与重塑(pivot table and reshape)
- 2.5 官方小结图片
- 第七节 NUMPY科学计算
- 第八节 python可视化
- 第九节 统计学
- 01 单变量
- 02 双变量
- 03 数值方法
- 第十节 概率
- 01 概率
- 02 离散概率分布
- 03 连续概率分布
- 第一节 抽样与抽样分布
- 01抽样
- 02 点估计
- 03 抽样分布
- 04 抽样分布的性质
- 第十三节 区间估计
- 01总体均值的区间估计:𝝈已知
- 02总体均值的区间估计:𝝈未知
- 03总体容量的确定
- 04 总体比率