可视化大屏-数据清洗2

经过近2周的数据处理,一半的工作量基本完成。在这个过程中,遇到了一些觉得莫名其妙的问题以及现在想来可以规避的问题,在此对整个思维和处理过程做个简单的梳理和总结
1.工具。手上包含的数据源是从网络上和领导那里获取到的excel表格,数据散乱在十来张表里,无法直接导入数据库进行处理,因此基于对时间和对工具的熟悉程度考虑之后,决定先在数据excel中将数据处理好,后续再将整理好之后的表格直接导入数据库
2.数据结构的熟悉。在对数据进行最开始的处理之前,一定要对整理后的数据字段非常清楚。包括字段的数据类型,业务意义,字段是否必填,这在后面进行数据处理时可以减少很多返工的工作
3.数据源。明确待处理的数据内容,根据需整理后的字段对源数据进行初步的处理。在这里需要特别说明的一点的是,在处理时先从一堆杂乱的数据中挑选出有用的部分,然后再做清洗工作。包括:
a.缺失值清洗 - 估算现有数据每个字段值的大致缺失比例,根据业务对字段的重要性做个排序
重要性高缺失率高:查找手上现有的所有数据,将其他表格中的该字段信息进行联结(VLOOKUP函数);尝试从其他渠道取数补全
重要性高缺失率低:根据已有经验和数据参考逐一进行补充
重要性低缺失率低:不做处理或者简单复制粘贴填充
重要性低缺失率高:直接删除或者在excel中隐藏该字段(若不确定该字段在后面重要性会不会提升,最好是做隐藏处理)
还有个别整理后字段是根据现有字段进行计算得出,这个基本上excel中的函数均可以做到,反而比较容易填充
b.格式内容清洗 - 将数据源中的每个字段格式处理为数据结构中的字段类型,如日期、文本、数值、常规等(没有特殊要求的字段默认使用excel中的常规格式就可以,部分函数使用时也
无需再进行格式转换);字段与对应值内容的相符性(数据来源不精确时,很难避免这样的情况),不符合的话就需要根据经验进行处理
c.逻辑错误清洗 - 去重;修正不合理或矛盾的字段值
d.非需求数据清洗 - 不确定后面会不会用到而数据量也不是特别大的时候,能不删除建议就不要随便删除
4.数据拆分。数据量非常大时,想一次性的将所有数据清洗完再进行数据导入,可能会遇到一些问题。如批量修改或者保存,excel处理时间较久甚至会经常出现无响应的情况。这种情况就客户以考虑根据业务将数据进行拆分,如我在这个项目中处理十几万的数据时,excel本身就会出现一些问题,后来我就将数据按科室拆分成不同的sheet。这样处理还有一个很明显的好处就是,处理完一个科室的数据后可以先进行数据导入,看看是否存在什么问题。如果有问题,可以及时进行修正,这样后续的表格整理就可以根据到成功的这份进行修改,大大提升了效率
数据清洗的大致步骤和方法就是这些,最困难的还是具体一条条的数据处理工作。数据清洗完成之后就是导入工作了,原本以为是比较简单的一件事情,但操作时也遇到了一些小问题,这个就在下一篇说明啦

0%