数据完整性——沟通不畅会毁掉你的数据
我相信你们都知道聚会游戏电话,在电话的一端给一个人发一条消息,然后耳语给下一个人,然后是下一个人,直到它到达另一端的最终目的地。一些小的修改可以确保最终的消息与开始的完全不同。
第一次世界大战给我们提供了一个悲惨的例子,说明了信息因沟通不畅而发生的后果。从战壕发送到英国总部的消息是这样开头的:
•"派援军来,我们要前进了"
当消息传到总部时,它变成了:
•"给我三四个便士,我们要去跳舞"
哎呀……
那么这和数据完整性有什么关系呢?
好吧,共享数据集可能会遭受与英国致命信息相同的结局——随着数据集的传播,随着时间的推移,微小的变化和错误会杀死它的准确性,使其不适合使用。
在这里,我们将在共享数据的背景下研究数据完整性,并介绍一些可以减少错误沟通的程序……
什么是数据完整性?
数据完整性的原则是,数据应该准确地按照预期进行记录,并且在以后检索时与记录时相同。为此,任何数据处理程序都必须确保数据在整个生命周期内的准确性和一致性。
为了保持数据完整性标准,FDA使用了首字母缩写美国铝业,其中数据应为:
•由于-数据应表明它是何时被观察和记录的,由谁观察和记录,以及它是关于谁或什么
•易读的-数据应易于理解,永久记录,并保留原始条目
•同生-数据应在观测的同时进行记录
•原始-源数据应以原始形式保存
•准确的—数据应无错误
为什么数据完整性很重要?
数据完整性的核心原则是,应该有一个权威的数据集作为唯一的真相来源。这里,我们需要思考SMaRRT,其中拥有定义良好的数据完整性系统会增加:
•稳定—所有数据完整性操作都集中在一个系统中,保证一致性和可重复性
•可维护性-一个集中的系统使所有数据完整性管理更加简单
•可重用性-所有应用都受益于单一集中的数据完整性系统
•可恢复性—可以定期备份单一集中的数据源
•可追溯性-每个数据点都应该可以追溯到它的起源
最后一点——可追溯性——在这里特别重要。当我们想到数据集时,我们通常认为它是静态的和不变的,但事实并非如此。当我们收集数据时,会有错误。的创意原则规定,我们应该将这些数据保持在原始状态。但是当我们清除这些错误时,我们将数据从原始状态改变为其他状态。要将数据集保持在其原始状态,更改它,并且仍然可以访问原始数据意味着拥有多个副本同一数据集的不同处理阶段。这叫做版本控制,在那里我们按时间顺序记录了在每个阶段对数据集所做的所有事情。这是一个自然的备份系统,尽管您还需要一个单独的备份策略。
“版本控制非常重要,”NHS泰赛德的姑息医学顾问和临床主管迪恩斯·布坎南博士说。“你需要知道什么时候更新了什么”。他建议用以下格式命名带有日期前缀的文件:
•“year.month。日期-文件名称"
是这样的:
•2018.08.28 -版本控制您的文件。docx
SJW生物咨询有限公司董事Steven Wall博士对此表示赞同,他坚持认为你应该“版本控制每一次更改,并在每次更改中强调更改了什么以及谁执行了升级修订”。他还坚称,“完全透明和开放是与所有合作伙伴建立信任的关键”,包括报告“无论好坏”的所有决策和运营。
总之,每次创建文件的新版本时,都应该立即进行备份,这样每个文件都有历史记录和备份,所有这些都按时间顺序列出。
会出什么问题?
如果你没有一个有效的数据完整性系统,你的数据可能会发生错误的沟通,随着时间的推移而改变,直到它与原始数据集几乎没有相似之处。
简单地说,数据完整性可能通过以下方式受到损害:
•人为错误-不论恶意或无意
•传输错误-设备间传输过程中的意外更改
•错误
•妥协的硬件-例如磁盘崩溃
•缺少元数据-理解数据所需的信息可能缺失,导致数据无用
“如果你放垃圾
迪恩斯说,“但最危险的是,”他补充说,“是
当你有很好的数据,但由于错误而变成垃圾时——如果你没有意识到
错误,然后你的垃圾-你的分析的不正确的结果-是
可能认为”。
如何防止错误和数据损坏
所有数据,无论是部门数据库、Excel电子表格、密码、文档等,都应该有一个单一的真实来源,以下是维护数据完整性所需的最低要求:
•单一的权威数据源
•版本控制
•备份系统
•看门人(责任的来源)
•维护程序,包括适当的培训
•数据处理程序的文件
•一种访问策略,决定谁可以访问数据
•用户记录保存策略,详细说明谁、什么、时间、地点和原因
•将错误报告给权威来源的报告系统
•一种审计程序,以确保对进入系统的不准确情况负责
虽然维护数据完整性看起来很麻烦,但这些过程是灵活的——所采用的过程的规模和成本应该与数据的价值成正比。
罗伯特戈登大学护理和助产学院的讲师Catherine Paterson博士对她的团队如何在英国-澳大利亚的研究中收集和共享数据给出了一些见解:“我们为整个研究团队开发了一个一致同意的编码书,以及一个具有完全相同变量和标签的主数据文件。这被分发给所有参与数据输入的人,并促进了英国和澳大利亚数据集的轻松合并。”虽然他们确实经历了一些差异,但“从一开始就对变量进行了清晰透明的编码,从而最大限度地减少了问题和数据故障”。
在数据输入方面,Steven说“如果可能的话,采用电子记录,而不是手动记录”,在确保正确性方面,他告诉我,你应该“让操作员检查并签署所有数据的准确性,然后由另一个操作员验证”。
迪恩斯以惨痛的个人经历为例,坚持认为“永远不能只有一个人知道密码”。毕竟,密码也需要备份。除非你不想访问你精心构建和维护了几年的整个数据集……
结论
维护共享数据完整性的三个最重要的信息是:
1.这些数据的真实来源应该是单一的
2.所有的改变都应该追溯到最初的通过版本控制
3.每个版本都应该备份
总结一下,迪恩斯的观点
共享智慧本身也是版本控制和备份的:
“你必须计划
在前面。向那些有经验的人寻求建议,做一切平常的事情
错误。听他们说!然后承诺数据输入和共享是
工作基础”。
聪明的话……