
每天 一个星期一次 双周 每月一次 一个月不到一次 绝不
应用数据验证技术来防止脏数据输入。 筛选数据集是否存在错误或不一致。 诊断数据条目。 开发用于将数据映射为有效值的代码。 根据标准化程序转换或删除数据。
将每个变量(度量)变成一列,将每个个案(参与者)变成一行。 为列提供唯一且合乎逻辑的名称。 从数据集中删除所有空行。
日期、文本或数字数据是否存在格式不规则? 某些列是否有大量缺失数据? 是否有任何行重复条目? 某些列中的特定值是否看起来是极端异常值?
使用箱线图、散点图或直方图直观地探索数据 检查数据是否呈正态分布 为每个变量创建摘要(描述性)统计数据 在频率表中总结定量数据
重复数据 无效数据 缺失值 异常值
23 二十 19 十八 22
23 二 19 十 22
23 二十 19 十八 22
随机缺失数据包括数据输入错误、注意力不集中或测量错误。 非随机缺失数据是由混淆、设计不当或不适当的测量或问题引起的。
按原样接受数据 从分析中删除个案 重建丢失的数据
将值从低到高排序并检查最小值和最大值 在箱线图中可视化数据并搜索异常值 使用统计程序识别极值

文章转载自志明与数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




