数据处理框架:Pig
Pig
如何安装pig:1.把pig-0.11.1.tar.gz复制到/usr/local下 export $PIG_HOME=/usr/local/bin export PATH =......$PIG_HOME/bin.... 保存,然后执行source /etc/profile
pig是基于hadoop框架的数据处理框架,所以需要跟hadoop 关联起来,上边的配置主要针对的是Namenode 和 JobTracker 如何使用pig:对wlan数据如何使用pig进行分析处理 A = LOAD ‘/wlan’ AS (t0:long,msisdn:chararray,t2:chararray,t3:chararray,t4:chararray,t5:chararray,t6:long,t7:long,t8:long,t9:long,t10:chararray); 如何查看是否加载进去? Pig是一步一步来的,如果业务比较复杂,通过sql无法一步解决,用pig非常方便。 DUMP B; 4.分组数据 C = GROUP B BY msisdn; 因为有的手机号有重复,所以我们根据手机号进行分组。 DUMP C; 5.流量汇总 D = FOREACH C GENERATE group,SUM(B.t6),SUM(B.t7),SUM(B.t8),SUM(B.t9); 分组之后的名字,当我们就叫group. DUMP D; 6.结果在pig中, 存储到HDFS中 STORE D INTO ‘/wlan_result’; 7.进入hdfs进行查看,是否保存到这里。 其中有一个文件是不为空,查看该文件是否是我们刚才在pig 里的处理结果。 我们还可以使用pig对处理结果进行排序 E = ORDER D BY group ; DUMP E ; Pig 还有很多用法,具体可以参看官方文档。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |