两个基础的科学计算包,但是pandas生态,真是望尘莫及,管中窥豹,略见一斑。于是想测试下自己到底掌握多少用法,知道自己什么地方不行,才能学啊。
numpy
创建numpy数组:普通 np.array(),特殊:zeros、ones 、numpy数组常用属性 ndim、shape、size 。加减乘除运算,索引,合并,分割。
1 | # -*- coding:utf-8 -*- |
pandas
同样是很常见很常用,但是python竞技,菜是原罪,小学鸡的我要来复盘,以求更准确快速地使用。
生成对象
基本上是DataFrame,Series。
用值列表生成 Series,用含日期时间索引与标签的 NumPy 数组生成 DataFrame,用 Series 字典对象生成 DataFrame,
查看数据
基本用法:df.head(),df.tail(),df.index(),df.columns(),df.describe()。NumPy 数组只有一种数据类型,DataFrame 每列的数据类型各不相同。调用 DataFrame.to_numpy() 时,Pandas 查找支持 DataFrame 里所有数据类型的 NumPy 数据类型。
选择部分数据
df[’ column_name’]用于选择单列,用[]切片行,比如df[0:3]显示的是第0,1,2行。也可以用每行的其它列数据作索引。
按标签选择,df.loc[df[number]] # 用标签提取一行数据
用标签选择多行数据,df.loc[:,[‘column1’,‘column2’]],
df.loc[‘value1’:‘value2’,[‘column1’,‘column2’]] 相较上行代码,选择的行有了筛选。
返回对象降维,df.loc[‘某行的值’,[‘column1’,'column2]]
按位置选择,用整数位置选择,df.iloc[number],
用整数切片,df.iloc[1:3,0:2]
用整数列表按位置切片,df.iloc[[1,2,4],[0,2]]
选择DataFrame里满足条件的值,
1 | df.T # 转置数据 |
1 | # -*- coding:utf-8 -*- |
#生成对象
用值列表生成 Series (opens new window)时,Pandas 默认自动生成整数索引:
1 | In [3]: s = pd.Series([1, 3, 5, np.nan, 6, 8]) |
用含日期时间索引与标签的 NumPy 数组生成 DataFrame (opens new window):
1 | In [5]: dates = pd.date_range('20130101', periods=6) |
用 Series 字典对象生成 DataFrame:
1 | In [9]: df2 = pd.DataFrame({'A': 1., |
DataFrame 的列有不同数据类型 (opens new window)。
1 | In [11]: df2.dtypes |
IPython支持 tab 键自动补全列名与公共属性。下面是部分可自动补全的属性:
1 | In [12]: df2.<TAB> # noqa: E225, E999 |
列 A、B、C、D 和 E 都可以自动补全;为简洁起见,此处只显示了部分属性。
#查看数据
下列代码说明如何查看 DataFrame 头部和尾部数据:
1 | In [13]: df.head() |
显示索引与列名:
1 | In [15]: df.index |
DataFrame.to_numpy() (opens new window)输出底层数据的 NumPy 对象。注意,DataFrame (opens new window)的列由多种数据类型组成时,该操作耗费系统资源较大,这也是 Pandas 和 NumPy 的本质区别:NumPy 数组只有一种数据类型,DataFrame 每列的数据类型各不相同。调用 DataFrame.to_numpy() (opens new window)时,Pandas 查找支持 DataFrame 里所有数据类型的 NumPy 数据类型。还有一种数据类型是 object,可以把 DataFrame 列里的值强制转换为 Python 对象。
下面的 df 这个 DataFrame (opens new window)里的值都是浮点数,DataFrame.to_numpy() (opens new window)的操作会很快,而且不复制数据。
1 | In [17]: df.to_numpy() |
df2 这个 DataFrame (opens new window)包含了多种类型,DataFrame.to_numpy() (opens new window)操作就会耗费较多资源。
1 | In [18]: df2.to_numpy() |
提醒
DataFrame.to_numpy() (opens new window)的输出不包含行索引和列标签。
describe() (opens new window)可以快速查看数据的统计摘要:
1 | In [19]: df.describe() |
转置数据:
1 | In [20]: df.T |
按轴排序:
1 | In [21]: df.sort_index(axis=1, ascending=False) |
按值排序:
1 | In [22]: df.sort_values(by='B') |
#选择
提醒
选择、设置标准 Python / Numpy 的表达式已经非常直观,交互也很方便,但对于生产代码,我们还是推荐优化过的 Pandas 数据访问方法:.at、.iat、.loc 和 .iloc。
详见索引与选择数据 (opens new window)、多层索引与高级索引 (opens new window)文档。
#获取数据
选择单列,产生 Series,与 df.A 等效:
1 | In [23]: df['A'] |
用 [ ] 切片行:
1 | In [24]: df[0:3] |
#按标签选择
用标签提取一行数据:
1 | In [26]: df.loc[dates[0]] |
用标签选择多列数据:
1 | In [27]: df.loc[:, ['A', 'B']] |
用标签切片,包含行与列结束点:
1 | In [28]: df.loc['20130102':'20130104', ['A', 'B']] |
返回对象降维:
1 | In [29]: df.loc['20130102', ['A', 'B']] |
提取标量值:
1 | In [30]: df.loc[dates[0], 'A'] |
快速访问标量,与上述方法等效:
1 | In [31]: df.at[dates[0], 'A'] |
#按位置选择
用整数位置选择:
1 | In [32]: df.iloc[3] |
类似 NumPy / Python,用整数切片:
1 | In [33]: df.iloc[3:5, 0:2] |
类似 NumPy / Python,用整数列表按位置切片:
1 | In [34]: df.iloc[[1, 2, 4], [0, 2]] |
显式整行切片:
1 | In [35]: df.iloc[1:3, :] |
显式整列切片:
1 | In [36]: df.iloc[:, 1:3] |
显式提取值:
1 | In [37]: df.iloc[1, 1] |
快速访问标量,与上述方法等效:
1 | In [38]: df.iat[1, 1] |
#布尔索引
用单列的值选择数据:
1 | In [39]: df[df.A > 0] |
选择 DataFrame 里满足条件的值:
1 | In [40]: df[df > 0] |
用 isin() (opens new window)筛选:
1 | In [41]: df2 = df.copy() |
#赋值
用索引自动对齐新增列的数据:
1 | In [45]: s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6)) |
按标签赋值:
1 | In [48]: df.at[dates[0], 'A'] = 0 |
按位置赋值:
1 | In [49]: df.iat[0, 1] = 0 |
按 NumPy 数组赋值:
1 | In [50]: df.loc[:, 'D'] = np.array([5] * len(df)) |
上述赋值结果:
1 | In [51]: df |
用 where 条件赋值:
1 | In [52]: df2 = df.copy() |
#缺失值
Pandas 主要用 np.nan 表示缺失数据。 计算时,默认不包含空值。详见缺失数据 (opens new window)。
重建索引(reindex)可以更改、添加、删除指定轴的索引,并返回数据副本,即不更改原数据。
1 | In [55]: df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E']) |
删除所有含缺失值的行:
1 | In [58]: df1.dropna(how='any') |
填充缺失值:
1 | In [59]: df1.fillna(value=5) |
提取 nan 值的布尔掩码:
1 | In [60]: pd.isna(df1) |
#运算
#统计
一般情况下,运算时排除缺失值。
描述性统计:
1 | In [61]: df.mean() |
在另一个轴(即,行)上执行同样的操作:
1 | In [62]: df.mean(1) |
不同维度对象运算时,要先对齐。 此外,Pandas 自动沿指定维度广播。
1 | In [63]: s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2) |
#Apply 函数
Apply 函数处理数据:
1 | In [66]: df.apply(np.cumsum) |
#直方图
1 | In [68]: s = pd.Series(np.random.randint(0, 7, size=10)) |
#字符串方法
Series 的 str 属性包含一组字符串处理功能,如下列代码所示。注意,str 的模式匹配默认使用正则表达式 (opens new window)。详见矢量字符串方法 (opens new window)。
1 | In [71]: s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat']) |
#合并(Merge)
#结合(Concat)
Pandas 提供了多种将 Series、DataFrame 对象组合在一起的功能,用索引与关联代数功能的多种设置逻辑可执行连接(join)与合并(merge)操作。
concat() (opens new window)用于连接 Pandas 对象:
1 | In [73]: df = pd.DataFrame(np.random.randn(10, 4)) |
#连接(join)
SQL 风格的合并。 详见数据库风格连接 (opens new window)。
1 | In [77]: left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]}) |
这里还有一个例子:
1 | In [82]: left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]}) |
#追加(Append)
为 DataFrame 追加行。详见追加 (opens new window)文档。
1 | In [87]: df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D']) |
#分组(Grouping)
“group by” 指的是涵盖下列一项或多项步骤的处理流程:
- 分割:按条件把数据分割成多组;
- 应用:为每组单独应用函数;
- 组合:将处理结果组合成一个数据结构。
1 | In [91]: df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', |
先分组,再用 sum() (opens new window)函数计算每组的汇总数据:
1 | In [93]: df.groupby('A').sum() |
多列分组后,生成多层索引,也可以应用 sum 函数:
1 | In [94]: df.groupby(['A', 'B']).sum() |
#重塑(Reshaping)
详见多层索引 (opens new window)与重塑 (opens new window)。
#堆叠(Stack)
1 | In [95]: tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', |
stack() (opens new window)方法把 DataFrame 列压缩至一层:
1 | In [100]: stacked = df2.stack() |
压缩后的 DataFrame 或 Series 具有多层索引, stack() (opens new window)的逆操作是 unstack() (opens new window),默认为拆叠最后一层:
1 | In [102]: stacked.unstack() |
#数据透视表(Pivot Tables)
1 | In [105]: df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3, |
用上述数据生成数据透视表非常简单:
1 | In [107]: pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C']) |
#时间序列(TimeSeries)
Pandas 为频率转换时重采样提供了虽然简单易用,但强大高效的功能,如,将秒级的数据转换为 5 分钟为频率的数据。这种操作常见于财务应用程序,但又不仅限于此。详见时间序列 (opens new window)。
1 | In [108]: rng = pd.date_range('1/1/2012', periods=100, freq='S') |
时区表示:
1 | In [111]: rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D') |
转换成其它时区:
1 | In [116]: ts_utc.tz_convert('US/Eastern') |
转换时间段:
1 | In [117]: rng = pd.date_range('1/1/2012', periods=5, freq='M') |
Pandas 函数可以很方便地转换时间段与时间戳。下例把以 11 月为结束年份的季度频率转换为下一季度月末上午 9 点:
1 | In [123]: prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV') |
#类别型(Categoricals)
Pandas 的 DataFrame 里可以包含类别数据。完整文档详见类别简介 (opens new window)和 API 文档 (opens new window)。
1 | In [127]: df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6], |
将 grade 的原生数据转换为类别型数据:
1 | In [128]: df["grade"] = df["raw_grade"].astype("category") |
用有含义的名字重命名不同类型,调用 Series.cat.categories。
1 | In [130]: df["grade"].cat.categories = ["very good", "good", "very bad"] |
重新排序各类别,并添加缺失类,Series.cat 的方法默认返回新 Series。
1 | In [131]: df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", |
注意,这里是按生成类别时的顺序排序,不是按词汇排序:
1 | In [133]: df.sort_values(by="grade") |
按类列分组(groupby)时,即便某类别为空,也会显示:
1 | In [134]: df.groupby("grade").size() |
#可视化
1 | In [135]: ts = pd.Series(np.random.randn(1000), |

DataFrame 的 plot() (opens new window)方法可以快速绘制所有带标签的列:
1 | In [138]: df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, |

#数据输入 / 输出
#CSV
1 | In [143]: df.to_csv('foo.csv') |
读取 CSV 文件数据:
1 | In [144]: pd.read_csv('foo.csv') |
#HDF5
详见 HDFStores (opens new window)文档。
写入 HDF5 Store:
1 | In [145]: df.to_hdf('foo.h5', 'df') |
读取 HDF5 Store:
1 | In [146]: pd.read_hdf('foo.h5', 'df') |
#Excel
详见 Excel (opens new window)文档。
写入 Excel 文件:
1 | In [147]: df.to_excel('foo.xlsx', sheet_name='Sheet1') |
读取 Excel 文件:
1 | In [148]: pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA']) |
执行某些操作,将触发异常,如:
1 | if pd.Series([False, True, False]): |
在drop里的axis参数是为1,表示删除列.