什么是数据分析步骤中的处理数据?
处理数据的意思就是提取特征数据。在真实的工作场景中,除了数据格式不统一,数据的内容往往也参差不齐,很少能直接拿到 一份干净又完整的数据。比如有些样本数据会缺失部分特征、有些数据是明显的异常数据。
所以在开始分析之前,还需要 对数据做进一步的处理,比如用默认值填充缺失的值、过滤掉明显重复的或者异常的数据,这个步骤一般也叫“特征工 程”,需要耗费比较长的时间才能把数据整理好。