Pandas实现数据的合并concat
使用场景:
批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列
一句话说明concat语法:
- 使用某种合并方式(inner/outer)
- 沿着某个轴向(axis=0/1)
- 把多个Pandas对象(DataFrame/Series)合并成一个。
concat语法:pandas.concat(objs, axis=0, join=‘outer’, ignore_index=False)
- objs:一个列表,内容可以是DataFrame或者Series,可以混合
- axis:默认是0代表按行合并,如果等于1代表按列合并
- join:合并的时候索引的对齐方式,默认是outer join,也可以是inner join
- ignore_index:是否忽略掉原来的数据索引
append语法:DataFrame.append(other, ignore_index=False)
append只有按行合并,没有按列合并,相当于concat按行的简写形式
- other:单个dataframe、series、dict,或者列表
- ignore_index:是否忽略掉原来的数据索引
参考文档:
一、使用pandas.concat合并数据
| A | B | C | D | E |
---|
0 | A0 | B0 | C0 | D0 | E0 |
1 | A1 | B1 | C1 | D1 | E1 |
2 | A2 | B2 | C2 | D2 | E2 |
3 | A3 | B3 | C3 | D3 | E3 |
| A | B | C | D | F |
---|
0 | A4 | B4 | C4 | D4 | F4 |
1 | A5 | B5 | C5 | D5 | F5 |
2 | A6 | B6 | C6 | D6 | F6 |
3 | A7 | B7 | C7 | D7 | F7 |
1、默认的concat,参数为axis=0、join=outer、ignore_index=False
| A | B | C | D | E | F |
---|
0 | A0 | B0 | C0 | D0 | E0 | NaN |
1 | A1 | B1 | C1 | D1 | E1 | NaN |
2 | A2 | B2 | C2 | D2 | E2 | NaN |
3 | A3 | B3 | C3 | D3 | E3 | NaN |
0 | A4 | B4 | C4 | D4 | NaN | F4 |
1 | A5 | B5 | C5 | D5 | NaN | F5 |
2 | A6 | B6 | C6 | D6 | NaN | F6 |
3 | A7 | B7 | C7 | D7 | NaN | F7 |
2、使用ignore_index=True可以忽略原来的索引
| A | B | C | D | E | F |
---|
0 | A0 | B0 | C0 | D0 | E0 | NaN |
1 | A1 | B1 | C1 | D1 | E1 | NaN |
2 | A2 | B2 | C2 | D2 | E2 | NaN |
3 | A3 | B3 | C3 | D3 | E3 | NaN |
4 | A4 | B4 | C4 | D4 | NaN | F4 |
5 | A5 | B5 | C5 | D5 | NaN | F5 |
6 | A6 | B6 | C6 | D6 | NaN | F6 |
7 | A7 | B7 | C7 | D7 | NaN | F7 |
3、使用join=inner过滤掉不匹配的列
| A | B | C | D |
---|
0 | A0 | B0 | C0 | D0 |
1 | A1 | B1 | C1 | D1 |
2 | A2 | B2 | C2 | D2 |
3 | A3 | B3 | C3 | D3 |
4 | A4 | B4 | C4 | D4 |
5 | A5 | B5 | C5 | D5 |
6 | A6 | B6 | C6 | D6 |
7 | A7 | B7 | C7 | D7 |
4、使用axis=1相当于添加新列
| A | B | C | D | E |
---|
0 | A0 | B0 | C0 | D0 | E0 |
1 | A1 | B1 | C1 | D1 | E1 |
2 | A2 | B2 | C2 | D2 | E2 |
3 | A3 | B3 | C3 | D3 | E3 |
A:添加一列Series
| A | B | C | D | E | F |
---|
0 | A0 | B0 | C0 | D0 | E0 | 0 |
1 | A1 | B1 | C1 | D1 | E1 | 1 |
2 | A2 | B2 | C2 | D2 | E2 | 2 |
3 | A3 | B3 | C3 | D3 | E3 | 3 |
B:添加多列Series
0 A0_GG
1 A1_GG
2 A2_GG
3 A3_GG
dtype: object
| A | B | C | D | E | F | G |
---|
0 | A0 | B0 | C0 | D0 | E0 | 0 | A0_GG |
1 | A1 | B1 | C1 | D1 | E1 | 1 | A1_GG |
2 | A2 | B2 | C2 | D2 | E2 | 2 | A2_GG |
3 | A3 | B3 | C3 | D3 | E3 | 3 | A3_GG |
| F | G |
---|
0 | 0 | A0_GG |
1 | 1 | A1_GG |
2 | 2 | A2_GG |
3 | 3 | A3_GG |
| F | A | B | C | D | E | G |
---|
0 | 0 | A0 | B0 | C0 | D0 | E0 | A0_GG |
1 | 1 | A1 | B1 | C1 | D1 | E1 | A1_GG |
2 | 2 | A2 | B2 | C2 | D2 | E2 | A2_GG |
3 | 3 | A3 | B3 | C3 | D3 | E3 | A3_GG |
二、使用DataFrame.append按行合并数据
1、给1个dataframe添加另一个dataframe
2、忽略原来的索引ignore_index=True
3、可以一行一行的给DataFrame添加数据
A:低性能版本
B:性能好的版本