太空研究对抗癌症
每一天,美国国家航空航天局航天器梁下数以百计的pb的数据,所有这些都必须编纂,存储和分发给全球各地的科学家。越来越多的人工智能正在帮助“阅读”这一数据,强调数据集之间的相似之处,科学家可能会错过。
在过去的15年里,大数据技术开创了通过在帕萨迪纳美国宇航局喷气推进实验室,加州已经革命性的生物医学研究。2016年9月6日,喷气推进实验室和美国国家癌症研究所(NCI),美国国立卫生研究院的一部分,新的研究伙伴关系到2021年,扩展数据科学的发展起源于太空探索,现在支持新的癌症发现。
NCI-supported早期检测研究网络(EDRN)是生物医学的财团调查人员分享癌症生物标记物的匿名数据,化学或遗传特征与特定的癌症有关。他们的目标是池他们所有的研究数据到一个单独的、可搜索的网络,将他们的集体工作转化为目标的技术早期诊断癌症或癌症的风险。
在他们一起工作的时候,喷气推进实验室和EDRN的努力发现了6个新的食品和药品管理局批准了癌症生物标记和九生物标记被批准用于临床实验室改进修改实验室。FDA已经批准了这些生物标记物用于癌症研究和诊断。这些机构一共批准了生物标记已经在全世界有超过100万的病人诊断测试使用。
“EDRN建国后2000年,网络需要专业知识来将数据从多个癌症生物标记物的研究和创建一个可搜索的网络研究成果对于科学家而言,“Sudhir斯利瓦斯塔瓦说,NCI癌症生物标记物的研究小组和EDRN负责人。为NASA喷气推进实验室有几十年的经验做类似的工作,在飞船发射数百pb的数据编码、存储和分发给全球各地的科学家。
喷气推进实验室的负责人丹•克莱顿科技数据中心的联合倡议帕萨迪纳市加州理工学院,加州,帮助建立一个JPL-based信息学中心致力于支持EDRN大数据的努力。再度合作,喷气推进实验室努力扩大数据科学研究和技术申请额外NCI-funded项目。这些项目包括EDRN,该财团筛查出病变的分子和细胞特征,癌症研究和信息技术倡议。
“从美国国家航空航天局(NASA)的角度来看,有很大机会开发新的数据科学功能,可以同时支持探索太空的任务和使用常见的癌症研究方法论的方法,”克莱顿说。“我们有一个很好的机会来完善这些技术和成长的喷气推进实验室的数据科学技术,同时为我们的国家服务。
克莱顿说,喷气推进实验室带头时把数据从原始观测科学的结论。一个例子:喷气推进实验室经常处理来自各种传感器的测量,比如相机和质谱仪。都可以用来研究恒星,行星或类似的目标对象。但认识到阅读需要特殊的软件工具涉及到另一个截然不同。
在癌症研究中有一个类似的问题,从不同的生物医学测试或仪器读数需要彼此相关。为了实现这一目标,必须标准化,数据和算法必须“教”知道他们在寻找什么。
自成立之时,EDRN的重大挑战被访问。研究中心在美国大量的生物标本,但每个都有自己的标签,存储和共享他们的数据集。十个网站可能有高质量的标本进行研究,但如果他们共同的数据元素——年龄的病人,癌症类型和其他特征——不统一上市,他们不能被作为一个整体来研究。
“我们不知道如果他们早期或晚期标本,或如果任何水平的治疗都试过了,”斯利瓦斯塔瓦说。”和喷气推进实验室告诉我们,“我们做这种事!这就是我们如何管理我们的行星数据系统。”
随着网络的发展,它增加了数十个机构的成员,包括达特茅斯学院Geisel医学院;哈佛医学院麻省总医院;斯坦福大学的NIST公司测量组;德克萨斯大学MD安德森癌症中心;以及其他的很多问题。
项目主管Christos Patriotis NCI癌症生物标记研究集团说,现在网络的成员包括来自英国的国际研究人员、中国、日本、澳大利亚、以色列和智利。
“我们越是扩大,更多的数据整合,“Patriotis说。“而不是仓库,现在我们的合作伙伴可以整合他们的发现。每个系统能说别人。”
喷气推进实验室和NCI的协作发展,下一个步骤包括图像识别技术,例如帮助EDRN档案图像的癌症标本。这些图像可以通过计算机视觉分析,目前用于发现相似的星团和其他天体物理学研究。
在不久的将来,克莱顿说,机器学习算法能够比较CT扫描存档的类似的图片,寻找癌症的早期迹象根据病人的年龄、种族背景和其他人口。
”作为我们开发更多的自动检测和分类特征图像的方法,为提高数据发现我们看到巨大的机会,”克莱顿说。“我们有例子算法检测的特性在天文图像转移到生物学,反之亦然。”