百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Pandas宝藏函数-concat()

haoteby 2025-05-24 14:19 26 浏览

作者:小伍哥

来源:AI入门学习

在数据处理过程中,经常会遇到多个表进行拼接合并的需求,在Pandas中有多个拼接合并的方法,每种方法都有自己擅长的拼接方式,本文对pd.concat()进行详细讲解,希望对你有帮助。pd.concat()函数可以沿着指定的轴将多个dataframe或者series拼接到一起,这一点和另一个常用的pd.merge()函数不同,pd.merge()解决数据库样式的左右拼接,不能解决上下拼接。

一、基本语法

pd.concat(

     objs,      

     axis=0,     

     join='outer',

     ignore_index=False,

     keys=None,      

     levels=None,     

     names=None,      

     verify_integrity=False,     

     copy=True)

二、参数含义

  • objs:Series,DataFrame或Panel对象的序列或映射,如果传递了dict,则排序的键将用作键参数
  • axis:{0,1,...},默认为0,也就是纵向上进行合并。沿着连接的轴。
  • join:{'inner','outer'},默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。
  • ignore_index:boolean,default False。如果为True,请不要使用并置轴上的索引值。结果轴将被标记为0,...,n-1。如果要连接其中并置轴没有有意义的索引信息的对象,这将非常有用。注意,其他轴上的索引值在连接中仍然受到尊重。
  • keys:序列,默认值无。使用传递的键作为最外层构建层次索引。如果为多索引,应该使用元组。
  • levels:序列列表,默认值无。用于构建MultiIndex的特定级别(唯一值)。否则,它们将从键推断。
  • names:list,default无。结果层次索引中的级别的名称。
  • verify_integrity:boolean,default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
  • copy:boolean,default True。如果为False,请勿不必要地复制数据。

三、竖向堆叠

#构建需要的数据表
import pandas as pd
df1 = pd.DataFrame({'A':['A{}'.format(i) for i in range(0,4)],
                    'B':['B{}'.format(i) for i in range(0,4)],
                    'C':['C{}'.format(i) for i in range(0,4)]
                 })


df2 = pd.DataFrame({'A':['A{}'.format(i) for i in range(4,8)],
                    'B':['B{}'.format(i) for i in range(4,8)],
                    'C':['C{}'.format(i) for i in range(4,8)]
                 })
df3 = pd.DataFrame({'A':['A{}'.format(i) for i in range(8,12)],
                    'B':['B{}'.format(i) for i in range(8,12)],
                    'C':['C{}'.format(i) for i in range(8,12)]
                 })
现将表构成list,然后在作为concat的输入
frames = [df1, df2, df3]

result = pd.concat(frames)

 A    B    C

0   A0   B0   C0

1   A1   B1   C1

2   A2   B2   C2

3   A3   B3   C3

0   A4   B4   C4

1   A5   B5   C5

2   A6   B6   C6

3   A7   B7   C7

0   A8   B8   C8

1   A9   B9   C9

2  A10  B10  C10

3  A11  B11  C11

传入也可以是字典

frames = {'df1':df1, 'df2':df2,'df3':df3}

result = pd.concat(frames)

   A    B    C

df1 0   A0   B0   C0

    1   A1   B1   C1

    2   A2   B2   C2

    3   A3   B3   C3

df2 0   A4   B4   C4

    1   A5   B5   C5

    2   A6   B6   C6

    3   A7   B7   C7

df3 0   A8   B8   C8

    1   A9   B9   C9

    2  A10  B10  C10

    3  A11  B11  C11
三、横向拼接

1、axis

当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并

#再构建一个表

df4 = pd.DataFrame({'C':['C{}'.format(i) for i in range(3,9)],

                    'E':['E{}'.format(i) for i in range(3,9)],

                    'F':['F{}'.format(i) for i in range(3,9)]

                 })

pd.concat([df1,df4], axis=1)

     A    B    C   C   E   F

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8

2、join

加上join参数的属性,如果为'inner'得到的是两表的交集,如果是outer,得到的是两表的并集。

#  join='inner' 取交集

pd.concat([df1, df4], axis=1, join='inner')

    A   B   C   C   E   F

0  A0  B0  C0  C3  E3  F3

1  A1  B1  C1  C4  E4  F4

2  A2  B2  C2  C5  E5  F5

3  A3  B3  C3  C6  E6  F6




# join='outer' 和 默认值相同

pd.concat([df1, df4], axis=1, join='outer')

     A    B    C   C   E   F

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8
四、对比append方法

append是series和dataframe的方法,使用它就是默认沿着列进行凭借(axis = 0,列对齐)

df1.append(df2)

    A   B   C

0  A0  B0  C0

1  A1  B1  C1

2  A2  B2  C2

3  A3  B3  C3

0  A4  B4  C4

1  A5  B5  C5

2  A6  B6  C6

3  A7  B7  C7
五、忽略index

如果两个表的index都没有实际含义,使用ignore_index参数,置true,合并的两个表就睡根据列字段对齐,然后合并。最后再重新整理一个新的index。

pd.concat([df1, df4], axis=1, ignore_index=True) 

    0    1    2   3   4   5

0   A0   B0   C0  C3  E3  F3

1   A1   B1   C1  C4  E4  F4

2   A2   B2   C2  C5  E5  F5

3   A3   B3   C3  C6  E6  F6

4  NaN  NaN  NaN  C7  E7  F7

5  NaN  NaN  NaN  C8  E8  F8
六、增加区分组键

前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源

1、可以直接用key参数实现

pd.concat([df1,df2,df3], keys=['x', 'y', 'z'])

 A    B    C

x 0   A0   B0   C0

  1   A1   B1   C1

  2   A2   B2   C2

  3   A3   B3   C3

y 0   A4   B4   C4

  1   A5   B5   C5

  2   A6   B6   C6

  3   A7   B7   C7

z 0   A8   B8   C8

  1   A9   B9   C9

  2  A10  B10  C10

  3  A11  B11  C11

2、传入字典来增加分组键

frames = {'df1':df1, 'df2':df2,'df3':df3}
result = pd.concat(frames)
   A    B    C
df1 0   A0   B0   C0
    1   A1   B1   C1
    2   A2   B2   C2
    3   A3   B3   C3
df2 0   A4   B4   C4
    1   A5   B5   C5
    2   A6   B6   C6
    3   A7   B7   C7
df3 0   A8   B8   C8
    1   A9   B9   C9
    2  A10  B10  C10
    3  A11  B11  C11

七、加入新的行

1、列字段相同的加入

append方法可以将 series 和 字典就够的数据作为dataframe的新一行插入。

s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])

df1.append(s2, ignore_index=True)

  A   B   C    D

0  A0  B0  C0  NaN

1  A1  B1  C1  NaN

2  A2  B2  C2  NaN

3  A3  B3  C3  NaN

4  X0  X1  X2   X3

2、列字段不同的加入

如果遇到两张表的列字段本来就不一样,但又想将两个表合并,其中无效的值用nan来表示。那么可以使用ignore_index来实现。

dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},

         {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]

df1.append(dicts, ignore_index=True)

 A   B   C    X    Y

0  A0  B0  C0  NaN  NaN

1  A1  B1  C1  NaN  NaN

2  A2  B2  C2  NaN  NaN

3  A3  B3  C3  NaN  NaN

4   1   2   3  4.0  NaN

5   5   6   7  NaN  8.0


相关推荐

一日一技:用Python程序将十进制转换为二进制

用Python程序将十进制转换为二进制通过将数字连续除以2并以相反顺序打印其余部分,将十进制数转换为二进制。在下面的程序中,我们将学习使用递归函数将十进制数转换为二进制数,代码如下:...

十进制转化成二进制你会吗?#数学思维

六年级奥赛起跑线:抽屉原理揭秘。同学们好,我是你们的奥耀老师。今天一起来学习奥赛起跑线第三讲二进制计数法。例一:把十进制五十三化成二进制数是多少?首先十进制就是满十进一,二进制就是满二进一。二进制每个...

二进制、十进制、八进制和十六进制,它们之间是如何转换的?

在学习进制时总会遇到多种进制转换的时候,学会它们之间的转换方法也是必须的,这里分享一下几种进制之间转换的方法,也分享两个好用的转换工具,使用它们能够大幅度的提升你的办公和学习效率,感兴趣的小伙伴记得点...

c语言-2进制转10进制_c语言 二进制转十进制

#include<stdio.h>intmain(){charch;inta=0;...

二进制、八进制、十进制和十六进制数制转换

一、数制1、什么是数制数制是计数进位的简称。也就是由低位向高位进位计数的方法。2、常用数制计算机中常用的数制有二进制、八进制、十进制和十六进制。...

二进制、十进制、八进制、十六进制间的相互转换函数

二进制、十进制、八进制、十六进制间的相互转换函数1、输入任意一个十进制的整数,将其分别转换为二进制、八进制、十六进制。2、程序代码如下:#include<iostream>usingna...

二进制、八进制、十进制和十六进制等常用数制及其相互转换

从大学开始系统的接触计算机专业,到现在已经过去十几年了,今天整理一下基础的进制转换,希望给还在上高中的表妹一个入门的引导,早日熟悉这个行业。一、二进制、八进制、十进制和十六进制是如何定义的?二进制是B...

二进制如何转换成十进制?_二进制如何转换成十进制例子图解

随着社会的发展,电器维修由继电器时代逐渐被PLC,变频器,触摸屏等工控时代所替代,特别是plc编程,其数据逻辑往往涉及到数制二进制,那么二进制到底是什么呢?它和十进制又有什么区别和联系呢?下面和朋友们...

二进制与十进制的相互转换_二进制和十进制之间转换

很多同学在刚开始接触计算机语言的时候,都会了解计算机的世界里面大多都是二进制来表达现实世界的任何事物的。当然现实世界的事务有很多很多,就拿最简单的数字,我们经常看到的数字大多都是十进制的形式,例如:我...

十进制如何转换为二进制,二进制如何转换为十进制

用十进制除以2,除的断的,商用0表示;除不断的,商用1表示余0时结束假如十进制用X表示,用十进制除以2,即x/2除以2后为整数的(除的断的),商用0表示;除以2除不断的,商用1表示除完后的商0或1...

十进制数如何转换为二进制数_十进制数如何转换为二进制数举例说明

我们经常听到十进制数和二进制数,电脑中也经常使用二进制数来进行计算,但是很多人却不清楚十进制数和二进制数是怎样进行转换的,下面就来看看,十进制数转换为二进制数的方法。正整数转二进制...

二进制转化为十进制,你会做吗?一起来试试吧

今天孩子问把二进制表示的110101改写成十进制数怎么做呀?,“二进制”简单来说就是“满二进一”,只用0和1共两个数字表示,同理我们平常接触到的“十进制”是“满十进一”,只用0-9共十个数字表示。如果...

Mac终于能正常打游戏了!苹果正逐渐淘汰Rosetta转译

Mac玩家苦转译久矣!WWDC2025苹果正式宣判Rosetta死刑,原生游戏时代终于杀到。Metal4光追和AI插帧技术直接掀桌,连Steam都连夜扛着ARM架构投诚了。看到《赛博朋克2077》...

怎么把视频的声音提出来转为音频?音频提取,11款工具实测搞定

想把视频里的声音单独保存为音频文件(MP3/AAC/WAV/FLAC)用于配音、播客、听课或二次剪辑?本文挑出10款常用工具,给出实测可复现的操作步骤、优缺点和场景推荐。1)转换猫mp3转换器(操作门...

6个mp4格式转换器测评:转换速度与质量并存!

MP4视频格式具有兼容性强、视频画质高清、文件体积较小、支持多种编码等特点,适用于网络媒体传播。如果大家想要将非MP4格式的视频转换成MP4的视频格式的话,可以使用MP4格式转换器更换格式。本文分别从...