(对若干名词进行修改,不能直接执行,仅作示意)
1. mongodb的数据导出为bson文件,例如a.bson。
?
2. mongodb提供一个工具bsondump,用它将bson文件转成json文件,命令为: bsondump a.bson > a.json
??? a.json的每一行,是一个json格式的完整记录,比如:
??? {"_id":{"$oid":"09f89b8bb2"},"name":"WX","pageUrl":"start","time":{"$date":"2016-09-21"},"event":"page","userId":null,"createTime":{"$date":"2016-09-21T08:47:07.271Z"}}
?
3. 用python3对a.json逐行读取,处理成想要的数据格式,然后写入到文本文件a.txt。a.txt将后面被导入到hive。示意性代码如下,其中process_data函数可以根据实际需要修改代码。
#!/usr/bin/env python #! -*- coding:utf-8 -*- import json f_json = open('a.json','r') f_txt = oepn('a.txt','w') def process_data(json_obj): return str(json_obj) while True: line = f_json.readline() if None == line or 0 == len(line): break json_obj = json.loads(line) processed_str = process_data(json_obj) f_txt.write(processed_str+'n') f_txt.close() f_json.close()
?
4. a.txt的每一行是一个记录,比如:
1||start|2016-0|page|2016-09-22||||2016-09-22
这里,'|'是字段分隔符,且有些字段可能会没有值。
?
5. 将a.txt的数据导入到Hive。将a.txt复制到hive集群的一个目录,然后执行hive,进入交互界面,然后依次执行命令,示意性代码如下(请根据具体问题修改使用):
?
?
?