我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

组织数据:7提示和技巧

组织数据:7技巧内容块的形象

在收集数据时,大多数人进入一个Excel工作表,然后清洗过程在相同的工作表。这真的不是一个很好的主意。如果您选择单个列的数据,做一个查找和替换操作,将Excel做你问和替换物品只有在列,还是会操作整个工作表吗?你确定吗?真的,真的确定吗?你需要,因为如果Excel做不同的东西你预计你可能输入错误在你的整个数据集。更糟的是,一些Excel的操作没有“撤销”,纠正错误,你刚刚介绍了可以很快让你兔子洞。不,处理数据的方法是组织和使用多个工作表引入时间流数据处理和清洗,这就是我们要学习。

收集和存储你的数据


当你收集你的数据,你应该将它们存储在一个Excel工作表。这些数据的一个副本纸质形式,用于数据收集(如果你收集的数据在纸上)。当他们进入这个表应该叫“原始数据”,然后保持不变。当然,这些数据可能包含错误,拼写错误等问题,需要你的关注,但这表是你的起点。从这里你将使用其他工作表来组织和建立一个流进你的过程。

复制——清洁您的数据


从这里你复制“原始数据”,并命名为“进步”,你要清洁您的数据。所以现在你有两个工作表是相同的,你可以安全地做查找/替换操作没有输入错误的风险,不是吗?反之!你永远不会在工作表数据清洗操作数据存储。相反,你提取数据清洗(即单个列),清洁过程中,它在一个单独的工作表,然后一旦你确定这些数据非常干净,你在进行工作表复制回。这个过程叫做提取-转换-装载,简称ETL,确保你永远不会引入新的错误在你的数据。当你快乐,你的数据是完全干净的,你可以将你的“进步”工作表重命名为“清洁数据”。

你喜欢作为一个PDF阅读这?
在这里下载



复制-你的计算


现在你有两个工作表,包含您的数据在不同阶段的准备——一个脏数据和其他用干净的数据。当你移动到下一个阶段,您将创建“清洁数据”工作表的一个副本并命名为“计算数据”。收集一些数据,比如出生日期,而其他人则需要计算,如年龄,通常日期之间的区别。这就是你创建、计算和添加在这些新数据。你知道为什么你之前清理数据做计算?如果反过来,你计算包含错误的数据。一旦你打扫了错误,你要重新计算。

理解你的数据描述性统计


现在你有三个工作表,我希望现在你开始了解你引入时间流数据清洗过程。当你发现一个错误,你将通过你的工作表——你可以回去看的时候,在哪里以及如何错误,而这给了你一个机会来提高你的数据收集、清洗和加工实践,这样你将来会有更少的错误。讨论错误,计算描述性统计每一列的数据就是你开始真正了解你的数据,发现错误,你不知道存在。描述性统计数据需要计算不同分类数据和数值数据,但这些都是最有用的措施:

对于数值列:

  • 所有条目
  • 所有积极的条目
  • 所有负面的条目
  • 所有的条目都为零
  • 所有的空细胞
  • 的最小值
  • 最大值


对于分类列:

  • 所有条目
  • 每个类别中的所有条目
  • 所有的空细胞


检查通过这些结果将突出最明显的错误在你的数据。例如,有负面或零岁吗?不应该有任何。条目的数量统计正确吗?有任何遗漏的数据点吗?的最小值和最大值明智吗?如果你使用Excel,学习如何使用公式计算,最小值,最大值,和平均数值条目。对于分类条目,每个类别条件统计可以告诉你多少条目你变量。为空细胞,COUNTBLANK使用是一个很有用的公式。当你发现一个错误,通过工作表跟踪它直到你到达错误的来源。 I guarantee you’ll feel a flush of satisfaction when you realize that your new-found data organizational skills have just saved you!

保持一个“代码”表


一些统计项目不接受文本数据,所以有时它可能是有用的分类数据存储为整数(1、2、3),而不是(小型,中型,大型)。所以如果你编码类别为整数,你会记得他们意味着什么?你不需要记住,这就是为什么我们保持编码表。你要记住,你不是唯一的人,使用这些数据。你想要那些跟从你说优点,不抱怨你怎么混乱,所以保持注意的代码不仅能帮助你,也可以帮助别人。别忘了保持注意计量单位的这个表!

保持一个“笔记”表


在你的项目你会做出很多决定,在某些时候你需要描述和解释给别人。保持一个notes表允许您文档学习的一切。并没有什么错写笔记在你实验室的书,但是如果别人需要访问你的数据你可能把这交给别人或复印,所以我建议你记录在一个单独的工作表,这样你的笔记将保持您的数据。在某种程度上以后,如果你需要把你的数据集的统计分析,你会很高兴你一直指出表——它会节省你小时的解释!

业银行


如果您的数据提取从一个部门的数据库,它是良好的实践报告所有错误回到最初的来源。你不只是对别人好,但是,你对自己好。也许在未来的某个时间点,你需要再次提取相同或相似的数据。只有这一次你不需要浪费时间清洗错误之前你已经清理。


总结


识别错误和清洗数据可能不是你心目中的好时间(相信我,这不是我的),但如果你让自己组织和学习一些简单的,可重复的过程,你的时间清洁和准备您的数据分析可以比你想象的更短,那么痛苦。学习——甚至在你开始收集数据,如何设置您的Excel工作簿使用多个工作表和引入“流”到你的数据将帮助你达到你的数据更快的故事,这通常下降和老板好!
满足作者
李贝克
李贝克
广告
Baidu