3数据处理与分析技巧
所以你已经收集了你的数据,并有一个漂亮的,干净的数据集。在开始分析之前,您需要了解您的数据。检查每个变量并确定它们属于哪种数据类型。从这里,它会告诉你哪些数学运算可以用这些数据做,哪些不可以。这一步可以成就或毁掉你精心计划的学习。
在这里,我们将看看不同的数据类型,学习理解它们并使用它们进行计算。到最后,您将能够将新技能应用到数据中。
1.了解你的数据
有4种不同的数据类型:
- 比
- 时间间隔
- 序数
- 名义上的
让我们从上面开始,按顺序排列。
比数据
这些数据被称为Ratio,因为您可以划分它们的值。距离或重量测量是Ratio,因为您可以将它们的值除以以得到有意义的答案。
下面是一些例子:
- 20米是10米距离的两倍(即20/10 = 2)
- 50公斤比5公斤重10倍(即50/5 = 10)
- 150K的能量是300K的一半(即150/300 =½)
使用Ratio数据,您可以进行几乎任何数学操作,并且结果将是有效的。您可以:
- 除法还是乘法
- 加减
- 比较(大于,等于或小于)
例如,身体质量指数(BMI)的计算方法是体重与身高的平方之比。体重和身高都是Ratio数据,结果是BMI。关键的一点是,要使值可除,数据需要有一个有意义的零点。卷尺不能测量负数,瓦罐和一套称也不能,所以用这些东西测量的任何东西都有一个绝对零度,只能取正值。
Would你更喜欢以PDF格式阅读?
在这里下载
间隔的数据
使用间隔数据,您不能乘或除,但可以加和减。
下面是一些例子:
- 4pm是下午2点后2个小时(即4-2 = 2)
- 50°C比20°C热30度(即50-30 = 20)
- 我的考试成绩是80%,比你的成绩是60%高出20%(即80-20 = 60)。
我们不能把这些例子中的任何一个乘或除,因为没有有意义的零,所以我们不能说“下午4点比下午2点晚两倍”。时钟没有零点。
使用Interval数据,您可以进行以下数学运算:
- 加减
- 比较(大于,等于或小于)
顺序数据
对于序数数据,数据属于具有自然顺序的类别,但每个类别之间的差异无法量化。序数数据的例子如下:
- 排名(如第1、12、52等)
- 同意(即同意、中立、不同意)
- 社会经济地位(即下层、中层、上层)
你可以用序数数据做什么:
- 比较(大于,等于或小于)
我们可以说苏格兰帽椒比卡宴椒更辣(斯高维尔辣度分别为10万和1万),但我们不能减去它们的斯高维尔辣度,因为“辣度”没有意义。这就像说你需要吃90000个辣椒才能达到吃0个苏格兰帽的效果一样,这是愚蠢的。
名义上的数据
使用名义数据,您所能做的就是命名类别。每个名义类别都是不同的,但你不能从数学上定义为什么它们不同,类别中没有顺序。例子包括:
- 性别(即男性、女性、其他)
- 基因型(即BB, BB, BB, BB)
- 发色(即黑色,棕色,金色,红色,其他)
确定数据集中的每个变量属于哪种数据类型是非常重要的。一旦你做了这些,你就会知道每个变量的计算是可能的,这就是我们接下来要讲的。
2.进行数据计算
你的分析需要收集一些数据(如身高,体重,性别),但其他数据需要计算(如年龄,BMI,时间到事件)。在你的数据中,你可能会面临5种基本类型的计算:
- 通过乘法和除法创建新变量
- 通过加减法创建新变量
- 以整数类别总结连续数据
- 将整数数据转换为文本类别
- 将文本数据转换为整数类别
通过乘法和除法创建新变量
有时我们需要乘或除变量来创建新的变量。例如BMI,即体重除以身高的平方。所有变量必须是Ratio类型,结果也将是Ratio。
通过加减法创建新变量
为了创建新的变量,需要添加或减去一些数据。通过用出生日期减去死亡日期(两个间隔数据)来计算生存年龄,将得到比率类型的结果。这是因为出生日期定义了一个真正的零点-您可以将您的数据从间隔转换为比率!
以整数类别总结连续数据
有时连续数据(比率或间隔)包含偏差、噪声或估计数字。问一个渔夫他钓到的最大的鱼有多重——你不一定能得到一个真实的答案!当你的连续数据不那么准确时,将你的数据分类总结是很有用的。例如,你可以把年龄分为10岁,那么2,3,4代表20多岁、30多岁和40多岁的人。在这样做的过程中,您将去除部分或全部偏差和噪声,但也会丢失信息中的一些细节。
将整数数据转换为文本类别
有时,某些类别中的计数太小,无法进行有意义的分析。将你的整数类别总结为更广泛的类别可能更有用,例如青少年、绝经前、绝经后或任何适合你研究的年龄类别。用文本标签表示这些类别可能比整数更有用,信息量更大。
将文本数据转换为整数类别
现在,您已经在Excel中适当地命名了类别,并准备分析数据,您突然意识到您最喜欢的统计程序不支持文本类别!哎呀,你现在要把它从文本转换回整数,从[小,中,大]到[1,2,3]。
3.检查数据是否合理
现实生活遵循规则,你的数据也必须遵循规则。如果您将数据存储在Excel中,则数据中可能存在Excel无法检测到的错误,例如当患者的年龄为负或超过300岁时。
检查数据是否合理的一种方法是计算每个变量的描述性统计数据,并且应该对连续(Ratio和Interval)和类别(Ordinal和Nominal)数据类型都这样做。
总结
好吧,我希望你现在开始意识到知道如何识别数据集中每个变量的数据类型是多么的重要,并且理解你可以和不可以用这些数据类型做什么。如果你做对了,你的分析选择就会很简单,一切都会水到渠成。另一方面,跳过此步骤将对您的分析产生严重后果。你最不想做的事情就是把你的结果告诉你的老板,结果他们却告诉你,这都是错的,你需要重新开始。
由: