加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据处理案例,数据质量案例【2000万开房记录泄露数据处理】

发布时间:2020-12-14 03:43:14 所属栏目:大数据 来源:网络整理
导读:1)名称错误 北京害定区世纪城晴波园:一看地址就知道,应该应该是海淀区了 北京海定区世纪城:北京海淀区 2) 全半角替换 ”北京*餐饮有限公司“改为””北京*餐饮有限公司““ 3)空格替换 海淀区世纪城金源时代商务中心? C座 4)数据补齐 樊城区建华路:
1)名称错误 北京害定区世纪城晴波园:一看地址就知道,应该应该是海淀区了 北京海定区世纪城:北京海淀区 2) 全半角替换 ”北京*餐饮有限公司“改为””北京*餐饮有限公司““ 3)空格替换 海淀区世纪城金源时代商务中心? C座 4)数据补齐 樊城区建华路:出现这个地址,应该加上湖北省襄阳市。 ?? ?a、做一张地区MAPPING表{省份、市、县、镇乡},如果有邮编号,首先我们可以根据邮编号找到对应的地区,则匹配成功 ?? ?b、如果没有邮编号,则根据名字来匹,这种数据就要看这个区的名称是不是有多个,找到相关模式匹配成功(区分不出来的,挑出来,再想办法) ?? ? 5)数据拆分,利于统计分析 北京市海淀区世纪城翠叠园10楼4单元:最好拆分成"北京市","海淀区","世纪城","翠叠园","10楼","4单元" 6)怎么处理数据库不识别的字? 数据库不识别的字,例如"虓" 在数据库中为"?" 7) 证件类型 : ID代表身份证,OTH可能代表其他(other) jz 代表什么意思呢? 找到国家规定法定证件种类{身份证,学生证,工作证、士兵证、军官证、护照和户口本} 8) 字段转换:时间字段的值转换成统一的时间格式。"2011-11-18 7:08:30","2011-3-30 15:03:53"? 统一转换成时间格式 MySQL 中用 str_to_date(Version,'%Y-%m-%d %k:%i:%s') 9) 身份证号码补录:"130203790302***",再看一下出生日期“19790302”,则应该是"13020319790302***"。{以前老身份证应该年用的都是两位吗?} 10) 将邮编号为空的数据补齐:根据地址信息补还是根据身份证号前6位所映射出来的邮编。 11) 将地址列中有公司名称“海淀区世纪城金源时代商务中心****???????????????? 北京***传播有限公司”拆开成两个字段。 12) 时间字段为空的,怎么补齐这个数据?{这个字段很关键} 13)怎么来处理下面问题? 遇到多打了几个字,需要替换:“北京市海淀区世纪城远大园****1203号遭1“改为”“北京市海淀区世纪城远大园****1203号““ 14)衍生数据(获得更加多的信息) 根据数据{手机号、邮箱},搜集信息,猜测用户所在工作地,学历等等 根据生日,计算出现在年龄。 根据身份证前6位,找到身份证所在地。{这个地址更可能是老家地址}{而地址栏的地址更可能是工作出差地址} 根据开房时间,计算出开房时间段。{不知道一般哪个时间段开房的人很危险,呵呵} 根据身份证前6位找到老家的人,然后再看一下在北京开房的人,算出大概有多少人在北京开房的老乡人数。 可计算出用户开房时的年龄:开房时间-出生日期 根据所在公司,算出用户所在行业 15)找出有价值用户 {给用户评级等等}

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读