在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。
在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,
info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack
().reset_index(level=1, drop=True).rename('city'))
看起来非常之长,分开来看,流程如下:

* 将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列
* 将拆分后的多列数据进行列转行操作(stack),合并成一列
* 将生成的复合索引重新进行reset保留原始的索引,并命名
* 将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接
具体操作如下:

预操作:生成需要使用的DataFrame
# 用来生成DataFrame的工具 from pydbgen import pydbgen myDB=pydbgen.pydb() #
生成一个DataFrame info = myDB.gen_dataframe(10,['name','phone','city','state'])
<>结果如下:

name phone-number city state
0 Hannah Richard 810-859-7815 Irwinville Louisiana
1 Ronald Berry 591-564-0585 Glen Ellen Minnesota
2 Caitlin Barron 969-840-8580 Dubois Oklahoma
3 Felicia Stephens 154-858-1233 Veedersburg Alaska
4 Shelly Dennis 343-104-9365 Mattapex Virginia
5 Nicholas Hill 992-239-1954 Moneta Minnesota
6 Steve Bradshaw 164-081-7811 Ten Broeck Colorado
7 Gail Johnston 155-259-9514 Wayan Virginia
8 John Gray 409-892-4716 Darlington Pennsylvania
9 Katherine Bautista 185-861-1677 McNab Texas
假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列
info_city = info['city'].str.split(' ', expand=True)
结果如下:

0 1
0 Irwinville None
1 Glen Ellen
2 Dubois None
3 Veedersburg None
4 Mattapex None
5 Moneta None
6 Ten Broeck
7 Wayan None
8 Darlington None
9 McNab None
可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None

第二步:行转列
info_city = info_city.stack()
结果如下:


0 0 Irwinville
1 0 Glen
1 Ellen
2 0 Dubois
3 0 Veedersburg
4 0 Mattapex
5 0 Moneta
6 0 Ten
1 Broeck
7 0 Wayan
8 0 Darlington
9 0 McNab
其中前面两列是索引,返回的是一个series,没有名字的series

第三步:重置索引,并命名(并删除多于的索引)
info_city = info_city.reset_index(level=1, drop=True)
结果如下:


0 Irwinville
1 Glen
1 Ellen
2 Dubois
3 Veedersburg
4 Mattapex
5 Moneta
6 Ten
6 Broeck
7 Wayan
8 Darlington
9 McNab
第四步:和原始数据合并
info_new = info.drop(['city'], axis=1).join(info_city)
结果如下:

name phone-number state city
0 Hannah Richard 810-859-7815 Louisiana Irwinville
1 Ronald Berry 591-564-0585 Minnesota Glen
1 Ronald Berry 591-564-0585 Minnesota Ellen
2 Caitlin Barron 969-840-8580 Oklahoma Dubois
3 Felicia Stephens 154-858-1233 Alaska Veedersburg
4 Shelly Dennis 343-104-9365 Virginia Mattapex
5 Nicholas Hill 992-239-1954 Minnesota Moneta
6 Steve Bradshaw 164-081-7811 Colorado Ten
6 Steve Bradshaw 164-081-7811 Colorado Broeck
7 Gail Johnston 155-259-9514 Virginia Wayan
8 John Gray 409-892-4716 Pennsylvania Darlington
9 Katherine Bautista 185-861-1677 Texas McNab

需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了

写了这么多,记住下面的就行了:
info.drop([‘city’], axis=1).join(info[‘city’].str.split(’ ',
expand=True).stack().reset_index(level=1, drop=True).rename(‘city’))

如果原数据中已经是list了,可以将info[‘city’].str.split(’ ',
expand=True)这部分替换成info[‘city’].apply(lambda x:
pd.Series(x[‘city’]),axis=1),就可以达到相同的目的。

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信