数据完整性——错误的沟通会毁掉你的数据
我相信你们都知道“电话”这个聚会游戏,在这个游戏中,一条信息被传递给电话线一端的人,然后传给下一个人,然后再传给下一个人,直到它到达另一端的最终目的地。微小的改变可以确保最终的消息与开始时完全不同。
第一次世界大战给我们提供了一个悲剧性的例子,告诉我们当信息被误解时会发生什么。从战壕发给英军总部的消息是这样开头的:
•“派援军来,我们要前进了”
当消息传到总部时,它变成了:
•“给我三便士和四便士,我们要去舞会”
哎呀……
那么这和数据完整性有什么关系呢?
好吧,共享的数据集可能会遭受与英国消息相同的结局——当你的数据集被传递时,随着时间的推移,微小的变化和错误会杀死它的准确性,使它不适合目的。
在这里,我们将在共享数据的背景下研究数据完整性,并介绍一些可以减少错误沟通的过程。
什么是数据完整性?
数据完整性的原则是,数据应该完全按照预期记录,并且在以后检索时应该与记录时相同。为此,任何数据处理过程都必须确保数据在其整个生命周期中的准确性和一致性。
为了维护数据完整性标准,FDA使用了这个缩写美国铝业,其中数据应:
•由于-数据应说明是何时由谁观察和记录的,以及是谁或关于什么的
•易读的-数据应易于理解,永久记录并保留原始条目
•同生-数据应在观测时同时记录
•原始-源数据应以原始形式保存
•准确的-数据应无错误
为什么数据完整性很重要?
数据完整性的核心原则是,应该有一个权威的数据集,作为单一的事实来源。在这里,我们需要思考SMaRRT,其中有一个明确定义的数据完整性系统增加:
•稳定-所有数据完整性操作在一个集中的系统中执行,确保一致性和可重复性
•可维护性-一个集中式系统使所有数据完整性管理更简单
•可重用性-所有应用程序都受益于单一的集中式数据完整性系统
•可恢复性—可以定期备份单个集中式数据源
•可追溯性-每个数据点都应该追溯到它的起源
最后一点——可追溯性——在这里尤为重要。当我们想到一个数据集时,我们通常认为它是静态的、不变的,但事实并非如此。当我们收集数据时,会有错误。的创意原则指出,我们应该保持这些数据的原始状态。但是当我们清除这些错误时,我们将数据从原始状态更改为其他状态。要保持数据集的原始状态,对其进行更改,并且仍然可以访问原始状态意味着拥有多个副本同一数据集在不同处理阶段的。这叫做版本控制,我们按时间顺序记录每个阶段对数据集所做的所有操作。这样做的好处是作为一个自然的备份系统,尽管您还需要一个单独的备份策略。
“版本控制非常重要,”NHS泰赛德姑息医学顾问和临床负责人迪恩斯·布坎南博士说。“你需要知道什么是更新的,什么时候更新的。”他建议用这样的格式命名带有日期前缀的文件:
•“year.month。日期-文件名称”
是这样的:
•“2018.08.28 -版本控制您的文件。docx”
SJW生物咨询有限公司董事Steven Wall博士对此表示赞同,他坚持认为你应该“对每一次更改进行版本控制,每次更改都要强调更改的内容以及谁进行了修改”。他还坚称,“完全透明和公开是与所有合作伙伴建立信任的关键”,包括报告所有决策和行动,“无论好坏”。
总而言之,每次创建文件的新版本时,都应该立即创建一个备份副本,这样每个文件都有历史记录和备份,并按时间顺序列出。
哪里会出错?
如果您没有一个有效的数据完整性系统,您的数据可能会出现错误的沟通,随着时间的推移而变化,直到它与原始数据集几乎没有相似之处。
简而言之,数据完整性可能通过以下方式受到损害:
•人为错误——无论是恶意的还是无意的
•传输错误-在设备之间传输期间的意外更改
•错误
•妥协的硬件—例如磁盘崩溃
•缺少元数据-可能缺少理解数据所需的信息,使数据变得无用
“如果你把垃圾
迪安斯说,“但最危险的是,”他补充说,“是。
当你有好的数据时,如果你不认识,就会因为错误而变成垃圾
这个错误,然后你的垃圾-你的分析结果不正确-是
可能认为”。
如何防范错误和数据损坏
所有数据,无论是部门数据库、Excel电子表格、密码、文档等,都应该有一个单一的真实来源,这些是维护数据完整性所需的最低限度:
•单一的权威数据源
•版本控制
•备份系统
•守门人(责任的来源)
•维护程序,包括适当的培训
•数据处理程序的文件
•确定谁可以访问数据的访问策略
•用户记录保存策略,详细说明谁、什么、何时、何地和为什么
•将错误报告回权威来源的报告系统
•审核程序,确保对输入系统的错误负责
虽然维护数据完整性似乎很繁重,但这些过程是灵活的——所设置过程的大小和成本应该与数据的价值成正比。
罗伯特·戈登大学护理和助产学院讲师凯瑟琳·帕特森博士对她的团队如何在英澳研究中收集和共享数据给出了一些见解:“我们为整个研究团队开发了一本一致同意的编码书,以及一个具有完全相同变量和标签的主数据文件。这被分发给所有参与数据输入的人,并促进了英国和澳大利亚数据集的轻松合并”。虽然他们确实经历了一些差异,但“从一开始就清晰透明地编码变量,最大限度地减少了问题和数据失败”。
在数据输入方面,Steven说“如果可能的话,采用电子记录,而不是手工记录”,在确保准确性方面,他告诉我,你应该“让一名操作员检查并签署所有数据的准确性,然后由另一名操作员进行验证”。
迪恩斯从痛苦的个人经历出发,坚持认为你不应该“只有一个人知道密码”。毕竟,密码也需要备份。除非你喜欢失去对你精心构建和维护了好几年的整个数据集的访问权限……
结论
维护共享数据完整性的三个最重要的信息是:
1.这些数据应该有一个单一的真实来源
2.所有的更改都应该追溯到原始的通过版本控制
3.每个版本都应该备份
综上所述,迪恩斯指出
我们发现,共享智慧本身也有版本控制和备份:
“你必须计划
在前面。向那些有经验的人寻求建议
错误。听他们说!然后致力于数据输入和共享
工作基础”。
真有智慧……