数据清洗
数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般需要和业务方进行确认
- 一致性:一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
- 范围不一致:取值超出正常范围,如1-7级出现了0;
- 逻辑不一致:不合理或相互矛盾,如城市加和是否等于省份,身份证与填写年龄不一致
- 缺失值:
- 根据业务情况进行补充
- 采用数学方式进行估算(平均数,中位数,众数等)
- 采取其他方式补充:其他字段或其他渠道,如iPhone不能用imei号来标识,那就采用idfa来代替imei号
- 无效值
- 格式无效:时间,日期,全半角等与标准不一致。如获取日期为2017-1-2,但录入时变成了1/2/2017
- 内容无效:常见于手机号码,证件号码等有固定长度或限定内容的字段,如手机号码变成了14位(但联系方式不能只限定13位或者不允许特殊符号出现)或者出现了字母等
- 重复值
- 重复日志:一个行为被记了两次或者被记在了两个端上的情况进行去重
- 重复维度:如两个北京