保护隐私在基因组数据库中
全基因组关联研究,试图找到特定的基因变异和疾病诊断之间的相关性,是现代医学研究的主要问题。
而是因为他们依赖数据库包含人的病史,隐私风险。攻击者携带遗传信息的人,从一个皮肤样本,可以查询数据库人的医疗数据。即使没有皮肤样本,攻击者是谁允许重复查询,每个通知的最后的结果,可以,原则上,从数据库中提取的私人数据。
在最新一期的《细胞》杂志上系统,麻省理工学院的计算机科学与人工智能实验室的研究人员和印第安纳大学布卢明顿描述一个新系统,允许数据库查询全基因组关联研究,但降低了隐私妥协的可能性几乎为零。
它通过添加一些错误信息的查询结果返回。这意味着研究人员使用该系统可以开始寻找药物靶点与略不准确的数据。但在大多数情况下,系统将返回的答案接近是有用的。
立即和一个可搜索的在线数据库的基因数据,甚至一个返回略不准确的信息,可以使生物医学研究更有效。
“现在,很多人做什么,包括美国国立卫生研究院,很长一段时间,把所有数据——包括,通常,聚合数据,统计我们感兴趣的保护,把它们放进仓库,”肖恩·西蒙斯说,麻省理工学院博士后在数学和新论文的第一作者。”,你必须通过一个耗时的过程获得。”
这一过程涉及大量的文书工作,包括解释的研究通过存储库将为公共利益,这需要仔细的审查。“我们已经等了几个月来获得各种存储库,”邦妮·伯杰说,西蒙斯麻省理工学院的数学教授,他是西蒙斯的论文导师,是论文的通讯作者。“月”。
带来噪音
全基因组关联研究通常依赖于遗传变异称为单核苷酸多态性,或单核苷酸多态性(发音“剪”)。SNP是一个核苷酸的变异或DNA“信”,在基因组中指定的位置。数以百万计的单核苷酸多态性已确定的人口,和某些snp的组合可以作为代理为大的DNA序列往往是守恒的个体。
新系统,伯杰和西蒙斯Cenk Sahinalp一起开发,印第安纳大学的计算机科学教授,实现了一种称为“微分隐私,”的技术一直是近年来密码研究的主要领域。Differential-privacy技术加一点噪音,或随机变化,数据库搜索,结果混淆算法,将寻求从数的结果,提取私人信息定制,顺序搜索。
所需的噪音的强度取决于隐私保证——你想要设置多低的可能性泄漏私人信息,数据的类型和数量。SNP数据库包含的数据的人越多,系统需要添加低噪音;本质上,在人群中很容易迷失。但更snp系统记录,更多的灵活性攻击者在构建privacy-compromising搜索,这就增加了噪声要求。
研究人员认为是两种常见的查询。在一个,用户之间的统计相关性要求一个特定的SNP和一个特定的疾病。在另一方面,用户要求的列表在特定区域的基因组单核苷酸多态性,最好关联与特定疾病。
在第一种情况下,系统返回一个广泛使用的关联称为假定值。在这里,假定值将被修改,扩充或减少一些随机因素——为了确保隐私。
在第二种情况下,系统有一些返回的机会而不是高分的snp在一个给定的地区,但几个高分的snp,也许一个或两个得分较低的人。计算给定的SNP的概率将使它成为结果,研究人员使用一种叫做汉明距离测量,这表明有多远一个得分较低的SNP是取代。这比依靠假定值产生更有用的结果。找到一个有效的算法计算的汉明距离是一个动态系统的首席创新。
熨烫出差异
另一个是群体遗传学中常见的系统纠正一个问题称为人口分层。“标准的例子是,一个特定的SNP是乳糖不耐症密切相关,”西蒙斯说。“假设在东亚人更可能比人乳糖不耐症,说,北欧。而且北欧人往往比来自东亚的人高。天真的方法建议这个SNP对身高有影响,但是它真的是一个错误的相关性。”
研究者的算法假设给定人口最大的变化是亚种群之间的差异的结果,过滤这些差异,并专注于那些仍然存在。
”自2008年荷马的攻击,生物医学社区一直讨论到什么程度,谁基因和表型数据库应该访问,”jean - pierre Hubaux说计算机科学教授洛桑联邦理工,指尼尔斯·荷马的纸,然后在洛杉矶加州大学的研究生,在决定是否一个给定的人的基因数据存在于数据库中。”并行的Cynthia Dwork和其他计算机科学家已经开发出微分隐私的概念,目前的理论易于理解。本文的作者做出重要贡献,因为他们提供具体的例子如何使用微分隐私保护的隐私全基因组关联研究在异构的人群。希望,这将鼓励生物医学社区在大规模测试这个有前途的方法,如果它是成功的,定义最佳实践和开发相关工具。”