我们已经更新了隐私政策以更清楚地说明我们如何使用您的个人资料。

我们使用cookies是为了给您提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

整理你的数据:7个技巧和技巧

当收集他们的数据时,大多数人将它们输入到一个Excel工作表中,然后在同一个工作表中清理它们并处理它们。这真的不是个好主意。如果选择一列数据并执行查找和替换操作,Excel会按照您的要求执行并仅替换该列中的项目,还是会在整个工作表中操作?你确定吗?真的,真的确定?你需要这样做,因为如果Excel做了一些与你期望的不同的事情,你可能会在整个数据集中输入错误。更糟糕的是,一些Excel的操作没有“撤销”功能,所以纠正你刚刚引入的错误可能会很快让你陷入困境。不,处理数据的方法是组织和使用多个工作表来介绍数据处理和清理的时间顺序,这就是我们在这里要学习的。

收集和存储您的数据


当您收集数据时,您应该将它们存储在单个Excel工作表中。这些数据是您在数据收集中使用的纸质表格的副本(如果您在纸上收集数据)。当这些数据输入后,应将其命名为“原始数据”,并保持原样。当然,这些数据可能包含需要您注意的错误、打字错误和其他问题,但这张表是您的起点。从这里开始,您将使用其他工作表来组织和构建流程。

做一份拷贝——清理你的数据


从这里你做一个“原始数据”的副本,并命名为“进行中”,在那里你要清理你的数据。因此,现在您有两个相同的工作表,您可以安全地进行查找/替换操作,而不会有输入错误的风险,不是吗?反之!永远不要在存储数据的工作表中执行数据清理操作。相反,你提取你想要清理的数据(即单列),在一个单独的工作表中清理和处理它,然后一旦你确定这些数据是完全干净的,你把它复制回你的进度工作表。这个过程称为Extract-Transform-Load(简称ETL),它确保不会在数据中引入新的错误。当你很高兴你的数据是完全干净的,你可以重命名你的“进行中”工作表为“干净的数据”。

Would你更喜欢以PDF格式阅读?
在这里下载



做一份拷贝-做你的计算


现在您有两个工作表,其中包含处于不同准备阶段的数据—一个包含脏数据,另一个包含干净数据。当您移动到下一阶段时,您将创建“干净数据”工作表的副本,并将其命名为“计算数据”。有些数据是收集的,比如出生日期,而其他数据则需要计算,比如年龄——通常是日期之间的差异。这里是创建、计算和添加这些新数据的地方。你知道为什么在对数据进行计算之前要清理数据吗?如果你用另一种方法,你在计算包含错误的数据。一旦您清除了错误,您将不得不重新进行计算。

理解你的数据-描述性统计


现在你有了三个工作表,我希望现在你已经开始理解你是如何在你的数据清理过程中引入时间顺序的。当你发现一个错误时——你会发现的——你可以回顾你的工作表,看看错误是什么时候、在哪里以及如何被引入的,这给了你一个机会来改进你的数据收集、清理和处理实践,这样你将来就会有更少的错误。谈到错误,计算每一列数据的描述性统计数据是您开始真正了解数据并发现您不知道存在的错误的地方。对于分类数据和数值数据,你需要计算的描述性统计是不同的,但这些是最有用的度量:

对于数值列:

  • 所有条目
  • 所有的正数项
  • 所有的负项
  • 所有的元素都是0
  • 所有的空细胞
  • 最小值
  • 最大值


对于分类栏:

  • 所有条目
  • 每个类别中的所有条目
  • 所有的空细胞


检查这些结果将突出显示数据中最明显的错误。例如,年龄是否为负或为零?不应该有。条目的数量是否正确?是否有缺失的数据点?最小值和最大值是否合理?如果你使用Excel,学习如何使用公式COUNT, MIN, MAX和AVERAGE为你的数值条目。对于分类条目,COUNTIF可以告诉您变量中每个类别有多少个条目。对于空单元格,COUNTBLANK是一个非常有用的公式。无论何时发现错误,都要通过工作表进行跟踪,直到找到错误的根源。 I guarantee you’ll feel a flush of satisfaction when you realize that your new-found data organizational skills have just saved you!

保持一个“守则”表


有些统计程序不接受文本数据,因此有时将分类数据存储为整数[1,2,3]而不是[Small, Medium, Large]可能会很有用。如果你把类别编码成整数,你还记得它们代表什么吗?你不需要记住,这就是我们保存密码表的原因。您需要记住,您可能不是唯一使用这些数据的人。你希望那些在你之后的人对你说好话,而不是抱怨你有多混乱,所以记下这些代码不仅对你有帮助,也对别人有帮助。别忘了在这张表上也记下测量单位!

做一个“笔记”表


在你的项目中,你会做出很多决定,在某些时候,你需要向其他人描述和解释这些决定。记笔记可以让你记录学习的每一件事。在实验记录本上做笔记没有错,但是如果其他人需要访问你的数据,你不太可能把它交给别人或复印一份,所以我建议你在单独的工作表上做笔记——这样你的笔记就会和你的数据在一起。如果,在以后的某个时候,你需要把你的数据集交给统计学家进行分析,你会很高兴你保留了一个笔记表——它将节省你解释的时间!

业银行


如果您的数据是从部门数据库中提取的,那么最好将所有错误报告回原始来源。你不只是对别人好,你也对自己好。在将来的某个时候,您可能需要再次提取相同或类似的数据。只是这次你不必再浪费时间去清理之前已经清理过的错误了。


总结


识别错误和清理数据可能不是您的好主意(相信我,这也不是我的主意),但是如果您让自己组织起来并学习一些简单的、可重复的过程,那么您用于清理和准备分析数据的时间可能会比您预期的更短,也更少痛苦。学习——甚至在你开始收集数据之前——如何设置你的Excel工作簿来利用多个工作表,并在你的数据中引入“流程”,这将帮助你更快地了解你的数据故事,这通常会得到老板的认可!
认识作者
广告
Baidu