pandas数据处理
用pandas进行数据分析,对数据预处理,以及简单例子说明
用于将2个DataFrame连接到一起,一般是将训练集与测试集连接在一起对属性值进行预处理。个人感觉这样处理是可以的,因为对属性值的处理一般要求数值越多越好,而且对训练集与测试集的数据预处理要求要是一样的。只要在训练模型的时候讲2者分开就行。 相同列合并到一起,不同时新建列,缺省值为NaN df1 =DataFrame({'a':[1,2,3],'b':[4,5,6]}) print df """ 0? 1?? 4? NaN 2? 3?? 6? NaN 1? b NaN??? f df.reset_index(inplace=True) 0????? 0? 1??4? NaN 2????? 2? 3??6? NaN 4????? 1? b NaN???f df.drop('index',axis=1,inplace=True) 4? b NaN??? f df =df.reindex_axis(df1.columns,axis=1) 0? 1?? 4 2? 3?? 6 4 ?b NaN df.shape[0],df.shape[1]分别获取行数、列数 print "Row count:",df.shape[0] """ """?
Series 或 DataFrame 的列都可以调用一个map()方法。该方法接受一个函数或字典作为参数,并将之应用于该列的每一个元素,将元素值映射为另一个值。多用于数据离散化。 0? 0? 1? 1 2? 4? 5? 5 也可以在原来列修改值。df['a'] =df['a']. map({xxx}) 0? 1? 1 2? 5? 5 lambda函数也可以用自定义函数实现 当元素值少时,可以直接用字典修改: ?? a?????? b 1? 1? female
判断某一列元素是否属于列表里的元素,返回True False列表,如果为True,则对该行元素进行操作,False时不操作 0??????cc??????? c 2???????c??????? e 对于一列数字,要获取平均值,如下: median =df.a.dropna().median() median: 3.0 对于一列非数字,例如字符,要找到出现频率最高的字符赋值给missing值 freq_max =df2.c.dropna().mode().values 试了下,如果求列c,各频率相同,则返回空列表
某一属性,其值表示为字符,且范围较少时,可选择使用枚举进行数字化 用np.unique()生成唯一化后的元素,在用enumerate()生成对应元组,转化为列表后生成字典。再对字典进行map操作,即可实现数值化。 print'unique_value:',unique_value for i in dict.keys(): c : 2 df2.aa = df2.aa.map(lambdax:dict[x]).astype(int) ?? aa dd 1?? 1? e """
作用条件与枚举类似,属性值范围不大时,会为每一个值生成新的一列。结果需要concat print'dummy_df_column1:n',dummy_df_column1 ?? aa? bb? cc 1?? 0?? 1?? 0 dummy_df_column1 =dummy_df_column1.rename(columns=lambda x : 'dummy_'+str(x)) ??dummy_aa? dummy_bb? dummy_cc 1????????0???????? 1???????? 0 df =pd.concat([df,dummy_df_column1],0)">? column1column2? dummy_aa? dummy_bb?dummy_cc 1?????bb????? ee???????? 0???????? 1???????? 0 每个属性值对应一列,所以属性值很多的情况下不适用,会生成较大的df。将哑变量变换后的新的属性列直接concat到原来的df中即可。
loc()对应列选取多行,第一个元素取行,第二个元素对应列,默认情况下为所有列 2? 3? 7 print df.loc[(df.a.values> 2),'a'] #只作用于a列,输出a列 3??? 4 df.loc[(df.a.values >2),'a'] = 2 #对其赋值,则改变df的值 0? 1? 5 2? 2? 7 ?bining面元组合 主要用于产生一个有序分类 ?? aa? bb 1?? 2?? 3 3?? 6?? 7 5? 10? 11 7? 14? 15 先用pd.qcut()将数据分为若干份,对应新的一列,元素为一个范围字符串,仍然需要量化 0???? [0,7] 5??? (7,0)">6??? (7,0)">7??? (7,0)">Name: aa,dtype: category print pd.qcut(df.bb,4) 1????? [1,0)">2????? (4.5,8] 5???? (8,0)">6??? (11.5,15] 此处是均等分为2份或4份,实际数据中当数值并非均匀分布时,生成的bining应该不是均匀分布 还有就是貌似qcut几份有最大值限制,我实验的时候貌似最大只能分到9,配置为10则出错。想到分太多维太占用内存,这点也可以理解了。 0?? 0?? 1??[0,7]?? [1,0)">1?? 2?? 3??[0,0)">2?? 4?? 5??[0,0)">3?? 6?? 7??[0,0)">4?? 8?? 9? (7,14]? (8,0)">5? 10? 11? (7,0)">6? 12? 13? (7,0)">7? 14? 15? (7,10)"> 分类后元素只是string,还要进行数字化,可以采用enumerate,dummy,factorize。 """ 1?? 2?? 3????????????1????????????? 0 3?? 6?? 7????????????1????????????? 0 5? 10? 11????????????0????????????? 1 7? 14? 15????????????0????????????? 1 这部分没玩起来,不知道怎么回事啊? ??? cc_dict = {key:value for value,key in cc_enumerate} ??? printkey,cc_dict[key] df['cc'] = df.cc.map(lambdax:cc_dict[x]).astype(int) ?factorize() 实验了一把,主要是将列表中字母值用枚举表示,相同值用同一数字。 结果只生成一列,可以在原来列中操作,后面的参数[0]不可去掉或改为其他值,原因暂时我也不知道 df.column1 =pd.factorize(df.column1)[0] ??column1? column2 1???????1??????? 1 实验的时候对同一属性做dummy以及factorize数字化时,貌似dummy效果会好一点。???
df.aa = scaler.fit_transform(df.aa) df.cc =scaler.fit_transform(df.cc) ????????aa??????? bb??????? cc??????? dd 1 -0.447214 -0.447214 -0.959886? 1.731810 3?1.341641? 1.341641 -0.836030-0.577270 ? 当对数据进行离散化时,一个小结就是:
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |