3数据处理和分析技巧
所以你收集的数据和有好,干净的数据集。在你开始你的分析,你需要了解你的数据。检查每个变量和决定他们所属的数据类型。从这里开始,这将告诉你数学运算与这些数据你可以和不能做什么。这一步可以成就或者毁掉你精心策划的研究。
在这里我们要看一看不同的数据类型,学会理解和计算。结束的时候,你要你就能把你的新技能付诸实践在你的数据。
1。知道你的数据
有4个不同的数据类型:
- 比
- 时间间隔
- 序数
- 名义上的
让我们开始从顶部和工作列表。
比数据
这些数据被称为比率,因为可以将它们的值。距离或体重测量比因为你可以把他们的价值观得到有意义的答案。
下面是一些例子:
- 20米是10米的距离的两倍(即20/10 = 2)
- 50公斤比5公斤重十倍(即50/5 = 10)
- 150 k一半的能量为300 k(即150/300 =½)
比数据,你可以做几乎任何类型的数学运算和结果将是有效的。您可以:
- 分裂或乘
- 加或减
- 比较(大于、等于或小于)
例如,身体质量指数(BMI)的比例计算体重身高的平方。体重和身高都比数据,生成的BMI。关键的一点是,值是可分割的,需要有一个有意义的零点数据。卷尺不能让负面的测量,也可以一壶或一组衡量尺度,所以任何衡量这些有一个绝对零度,只能采取积极的价值观。
你喜欢作为一个PDF阅读这?
在这里下载
间隔的数据
有间隔的数据,你不能乘或除,但是你可以加减。
下面是一些例子:
- 下午4点是2小时后下午2点(例如4 - 2 = 2)
- 50°C温度是30度高于20°C(即打出= 20)
- 我的测试成绩的80% 20%高于你的分数的60%(即80 - 20 = 60)
我们不能乘或除这些例子,因为没有意义的零,所以我们不能说下午4点是两次直到下午2点的。时钟没有零点。
区间数据,你可以做以下数学运算:
- 加或减
- 比较(大于、等于或小于)
顺序数据
顺序数据,数据的类别,有自然的顺序,但每个类别之间的差异不能量化。顺序数据的例子:
- 排名(即1日,12日,52,等等)。
- 协议(即同意,中性,不同意)
- 低社会经济地位(例如,中间,上)
你可以做什么与顺序数据是:
- 比较(大于、等于或小于)
我们可以说,一个苏格兰帽子辣椒比辣椒热(评级在100000年和10000年斯科瓦尔规模),但是我们不能减去他们的库法理测量因为程度的“热心”是没有意义的。就像说你需要吃90000卡宴辣椒吃零苏格兰帽子得到同样的效果,那就傻了。
名义上的数据
名义上的数据,你所能做的就是名称的类别。每个名义类别不同,但你不能定义数学为什么他们不同的类别,没有秩序。例子包括:
- 性别(男、女、其他)
- BB基因型(即BB, BB, BB)
- 头发的颜色(即黑色,棕色,金色,红色,其他)
识别是非常重要的对于每一个变量在它属于你的数据集的数据类型。一旦你做到了你将知道每个变量计算是可能的,这是我们下一个。
2。让你的数据计算
一些你需要你的分析收集的数据(如身高、体重、性别),但其他人需要计算(诸如年龄、BMI、时间事件)。有5个基本类型的计算,你可能会面临在您的数据:
- 创建新的变量乘法和除法
- 创建新的变量由加法和减法
- 总结连续整数类型的数据
- 整型数据转换为文本分类
- 将文本数据转换为整数的类别
创建新的变量乘法和除法
有时我们需要乘或除变量创建新的变量。例子包括BMI,体重除以身高的平方。的所有变量都必须比类型和结果也将比。
创建新的变量由加法和减法
一些数据需要添加或减去创建新的变量。计算生存年龄从死亡日期减去出生日期(时间间隔数据)会给你一个结果的比率类型。这是因为出生日期定义了一个真正的起点——你可以将你的数据从间隔比!
总结连续整数类型的数据
有时连续数据(比例或间隔)包含偏见,噪音,或估计的数字。问一个渔夫他最大的捕获的重量,你并不总是得到一个真实的答案!当你连续的数据不是很准确,是有用的总结你的数据类别。例如,您可能总结年龄分为十类,所以2、3和4代表人们在二十几岁,30多岁和40多岁。在这样做,您将删除一些或所有的偏见和噪音,但你也会失去一些细节信息。
整型数据转换为文本分类
有些时候你的一些类别的数量太小了有意义的分析。它可能是更有用的总结你的整数类别为更广泛的类别,如年龄类别的少年,绝经前、绝经后或任何适合你的学习。代表这些类别和文本标签可能是更有用的信息而不是整数。
将文本数据转换为整数的类别
现在,你有你的类别在Excel中合适的名字,就可以分析你的数据,你突然意识到你最喜欢的统计程序不支持文本类别!哦,你现在需要它从文本转换为整数,从(小型,中型,大型)(1、2、3)。
3所示。检查你的数据是明智的
现实生活中遵循规则,所以必须你的数据。如果你存储你的数据在Excel中,在您的数据中可能有错误,Excel不能检测,如患者的年龄是负或超过300。
检查数据是否合理的一种方法是计算每个变量描述性统计,你应该做这个连续(比例和时间间隔)和分类(序数和名义)数据类型。
总结
好吧,我希望你现在开始意识到是多么重要的知道如何识别每一个变量的数据类型在你的数据集,并明白你可以用这些数据类型和不能做什么。如果你做对了,你的分析选择都是简单的,一切都将会下降。另一方面,绕过这一步对你的分析将有严重的后果。你想要做的最后一件事是你的老板把你的结果,只有让他们告诉你,这都是错误的,你需要重新开始。
由: