加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – Pandas列重新格式化

发布时间:2020-12-16 23:25:52 所属栏目:Python 来源:网络整理
导读:有没有快速实现以下输出的方法? 输入: Code Items123 eq-hk456 ca-eu; tp-lbe789 ca-us321 go-ch654 ca-au; go-au987 go-jp147 co-ml; go-ml258 ca-us369 ca-us; ca-my741 ca-us852 ca-eu963 ca-ml; co-ml; go-ml 输出: Code eq ca go co tp123 hk 456 eu


Code Items
123 eq-hk
456 ca-eu; tp-lbe
789 ca-us
321 go-ch
654 ca-au; go-au
987 go-jp
147 co-ml; go-ml
258 ca-us
369 ca-us; ca-my
741 ca-us
852 ca-eu
963 ca-ml; co-ml; go-ml


Code eq   ca    go    co    tp
123  hk             
456       eu          lbe
789       us            
321             ch      
654       au    au      
987             jp      
147             ml     ml   
258       us            
369       us,my         
741       us            
852       eu            
963       ml     ml    ml




import pandas as pd
df = pd.DataFrame([
    ('123','eq-hk'),('456','ca-eu; tp-lbe'),('789','ca-us'),('321','go-ch'),('654','ca-au; go-au'),('987','go-jp'),('147','co-ml; go-ml'),('258',('369','ca-us; ca-my'),('741',('852','ca-eu'),('963','ca-ml; co-ml; go-ml')],columns=['Code','Items'])

# Get item type list from each row,sum (concatenate) the lists and convert
# to a set to remove duplicates 
item_types = set(df['Items'].str.findall('(w+)-').sum())
# {'ca','co','eq','go','tp'}

# Generate a column for each item type
df1 = pd.DataFrame(df['Code'])
for t in item_types:
    df1[t] = df['Items'].str.findall('%s-(w+)' % t).apply(lambda x: ''.join(x))

#   Code    ca   tp  eq  co  go
#0   123             hk        
#1   456    eu  lbe            
#2   789    us                 
#3   321                     ch
#4   654    au               au
#5   987                     jp
#6   147                 ml  ml
#7   258    us                 
#8   369  usmy                 
#9   741    us                 
#10  852    eu                 
#11  963    ml           ml  ml


