组织你的数据:7个技巧
在收集数据时,大多数人都会在一个Excel工作表中输入数据,然后在同一个工作表中清理和处理数据。这真的不是个好主意。如果您选择了一列数据并执行“查找&替换”操作,Excel将只执行您的要求并替换该列中的项目,还是会在整个工作表中操作?你确定吗?真的,真的确定?你需要这样做,因为如果Excel做了一些与你期望的不同的事情,你很可能会在整个数据集中输入错误。更糟糕的是,Excel的一些操作没有“撤销”,所以纠正你刚刚引入的错误可能会很快把你带入一个兔子洞。不,处理数据的方法是有组织地使用多个工作表来引入按时间顺序的数据处理和清理流程,这就是我们在这里要学习的内容。
收集和存储您的数据
收集数据时,应将其存储在单个Excel工作表中。这些数据是您在数据收集中使用的基于纸张的表单的副本(如果您在纸张上收集数据)。当他们被输入时,这个表格应该被命名为“原始数据”,然后应该保持不变。当然,这些数据可能包含错误、错别字和其他需要你注意的问题,但这张表是你的起点。从这里开始,您将使用其他工作表进行组织,并将流构建到您的流程中。
做一个副本-清理你的数据
在这里,您可以复制“原始数据”,并将其命名为“In Progress”,在这里您将清理数据。现在您有两个完全相同的工作表,您可以安全地执行查找/替换操作,而不会有输入错误的风险,不是吗?反之!永远不要在存储数据的工作表中执行数据清理操作。相反,你提取你想要清理的数据(即一个单列),在一个单独的工作表中清理和处理它,然后一旦你确定这些数据是完全干净的,你就把它复制回你的in Progress工作表中。这个过程称为Extract-Transform-Load,或简称为ETL,它确保您永远不会在数据中引入新的错误。当你对你的数据完全干净感到满意时,你可以将你的“进行中”工作表重命名为“清洁数据”。
Would你更喜欢以PDF格式阅读?
在这里下载
复制一份——计算一下
现在您有了两个工作表,其中包含处于不同准备阶段的数据——一个是脏数据,另一个是干净数据。当您移动到下一个阶段时,您创建了“清洁数据”工作表的副本,并将其命名为“计算数据”。一些数据被收集,如出生日期,而其他数据则需要计算,如年龄——通常是日期之间的差异。这里是创建、计算和添加这些新数据的地方。你明白为什么在对数据进行计算之前要清除它们了吗?如果以另一种方式进行计算,则是在包含错误的数据上进行计算。一旦你清除了错误,你将不得不重新进行计算。
理解你的数据-描述性统计
现在您已经有了三个工作表,我希望到目前为止您已经开始理解如何将时序流引入数据清理过程。当你发现一个错误时——你会发现的——你可以回顾你的工作表,看看错误是何时、何地以及如何引入的,这给了你一个改善数据收集、清理和处理实践的机会,这样你将来就会有更少的错误。谈到错误,计算每一列数据的描述性统计数据是您开始真正了解数据并发现您不知道存在的错误的地方。对于分类数据和数值数据,你需要计算的描述性统计数据是不同的,但这些是最有用的测量方法:
数字列:
项
- 所有的条目
- 所有的正数
- 所有的负项
- 所有的元素都是0
- 所有的空单元格
- 最小值
- 最大值
对于分类列:
项
- 所有的条目
- 每个类别中的所有条目
- 所有的空单元格
检查这些结果将突出显示数据中最明显的错误。例如,是否存在负的或零的年龄?不应该有。条目的数量正确吗?有没有遗漏的数据点?最小值和最大值是否合理?如果您正在使用Excel,请学习如何为数值条目使用COUNT、MIN、MAX和AVERAGE公式。对于分类项,COUNTIF可以告诉您变量中每个类别有多少项。对于空单元格,COUNTBLANK是一个非常有用的公式。无论何时发现错误,都要通过工作表进行回溯,直到找到错误的根源。 I guarantee you’ll feel a flush of satisfaction when you realize that your new-found data organizational skills have just saved you!
保持一个“代码”表
一些统计程序不接受文本数据,因此有时将分类数据存储为整数[1,2,3]而不是[Small, Medium, Large]会很有用。如果你把类别编码为整数,你还记得它们代表什么吗?你不需要记住,这就是为什么我们有一个代码表。你需要记住,你可能不是唯一一个使用这些数据的人。你希望你的后辈对你赞不绝口,而不是抱怨你是多么的没有条理,所以记下这些守则不仅对你有好处,对别人也有好处。还有,别忘了在这张纸上记下测量单位!
保持一个“笔记”表
在你的项目中,你会做出很多决定,在某些时候,你需要向其他人描述和解释这些决定。做笔记可以让你记录下学习中的每一件事。在你的实验记录本上写笔记没有什么错,但是如果其他人需要访问你的数据,你不太可能把它交给别人或复印,所以我建议你把笔记放在一个单独的工作表中——这样你的笔记就会和你的数据一起保存。如果,在以后的某个时候,你需要把你的数据集交给统计学家进行分析,你会很高兴你保留了一个笔记表-这将节省你几个小时的解释!
业银行
如果您的数据是从部门数据库中提取的,那么最好将所有错误报告给原始数据源。你不只是对别人好,你也是对自己好。在将来的某个时候,您可能需要再次提取相同或类似的数据。只是这样你就不必浪费时间去清理之前已经清理过的错误了。
总结
识别错误和清理数据可能不是您的理想时间(相信我,这也不是我的理想时间),但是如果您组织起来并学习一些简单的、可重复的过程,那么您花费在清理和准备数据以进行分析上的时间可能会比您预期的更短——而且不那么痛苦。学习——甚至在你开始收集数据之前——如何设置你的Excel工作簿来利用多个工作表,并在你的数据中引入“流程”,这将帮助你更快地达到你的数据故事,这通常会受到老板的欢迎!
广告