今天的挑战:管理大数据
既然我们有了它,我们该怎么做呢?
现在的社会在数字革命方面所处的位置与一百年前的电子革命所处的位置有一些惊人的相似之处。在20世纪的第一个十年里,一个全新的全球基础设施- -从电话网络到道路到室内管道- -正在实施,并且在如何做事方面发生了一些有史以来最大的变化。在21世纪初的今天,类似的巨大变化正在发生,数字技术固有的承诺正在开花结果,成为在我们眼前发展的新应用。
2014年2月9日至14日在加州旧金山举行的Molecular Med Tri-Con 2014会议就推动变革和塑造医学未来的一系列主题提供了大量富有洞察力的演讲。Tri-Con提供了关于诊断、临床、癌症、当然还有信息学问题的渠道和专题讨论会,并在这些主题中聚焦于感兴趣的特定领域。信息学频道主要集中在大数据生物信息学、集成研发信息学和知识管理、基因组和转录组分析。我们不可能只参加几个关键的演讲,但是本编辑参加的那些非常出色,提供了案例研究、小组讨论以及关于如何处理与数据管理相关的当前实验室挑战的深刻评论。
数据管理挑战
简而言之,问题不仅在于生成的数据量,还在于搜索、检索和共享数据的难度。会议上的演讲包括许多案例研究,展示了不同的公司——从大型制药公司到小型生物技术实验室——如何解决数据管理和流程工作流程挑战的各个方面。
人们明确认识到,管理大数据最终与实验室工作流程有关,需要改变实验室的工作方式,但是……这是一个很大的问题……几位演讲者强调,还需要认识到员工对变化的适应程度,新的系统和程序需要易于使用,合理直观,尽可能不受干扰。
一个关于数据集成和共享的小组提出并讨论了整个大数据难题的关键是使大数据有用。他们一致认为这说起来容易做起来难,因为数据需要根据不同的发现团队进行调整,因为这些团队有不同的需求。
研究目标在变化
研究人员非常清楚,我们知道的越多,我们需要知道的就越多。正如一位小组成员指出的那样,“这使得数据背后的真正挑战不是生成数据,而是理解数据。”在研究环境中,这一挑战是由这样一个问题驱动的:研究的性质已经从以开发大型畅销药物为目标转变为以个性化医疗为重点;这是一个难以捉摸且(到目前为止)利润较低的结局。
研究的重点已经从寻找疾病状态的单一标记物转变为用一种特异性靶向药物来解决这一问题。相反,挑战已经扩大和深化,因此它不仅仅是遗传学研究,而是在许多不同的方向上缩小了路径,例如表观遗传学研究。
这一挑战的一部分是过滤信息,以便研究人员能够专注于最重要的属性,这意味着以数字方式捕获数据,并将实体、用户和调查因素自动化,以推动更好的可视化和分析。正在出现的解决方案是以网络为中心的,而不是过去以硬件为中心和以软件为中心的方法。
数字基础设施很复杂
支持网络、共享和分析数据的数字基础设施的复杂性是目前面临的一大挑战。再加上实验室硬件(仪器)和软件(系统)的不断创新,你有一个在过去十年中如雨后春笋般不断变化的目标。特别是,不仅各种数据库需要被更多人访问,而且扩展这些数据库并将这些数据库集成到共享知识网络中是大数据挑战的重要组成部分。
Vinod Kumar博士关于利用大数据加速药物开发的演讲强调了目前面临的数据挑战。他指出,2013年有4.0 zb的信息被创建和复制,即4.0万亿千兆字节,预计到2020年底,这一数字将增长50倍。
管理所有这些复杂、分散、庞大且快速增长的数据的挑战,将推动一场同样巨大的巨变,我们现在还无法预测,但当我们回首往事时,会同样感到惊奇和感激。库马尔强调,目前还看不到结束的迹象,存储问题是一个真正令人担忧的问题。
研究机构也在处理当前的问题,即大多数候选产品在进入市场之前就失败了。重磅药物的时代即将结束。拥有庞大资源的跨国制药公司不再提供竞争优势;作为一家小型的创业型生物技术公司也同样如此。理解数据和开发可行的候选人的问题跨越了所有的边界。一种解决方案是药物重新定位,即为一种疾病或问题开发的药物被发现对另一种疾病或问题有效。例如,伟哥最初是为高血压开发的,但现在是一种主要的勃起功能障碍解决方案。然而,这是一个临时解决方案,可以在短期内支撑底线,而不是长期的企业财政可持续性。
未来成功的关键
未来的关键将是对活动和工作流程的彻底改革,不仅仅是在实验室中,而是在整个研究组织中。流程将需要更有效率和更有效。仔细检查谁做什么、何时、何地以及如何做,将导致做事方式的重新调整。公司需要更好地保存、获取和利用他们所拥有的数据和相关知识。简化工作流程以提高流程效率将成为关注六西格玛实践的研究组织的持续活动。
在当前的经济形势下,增加新的研究人员及其相关的管理费用仍然很困难。在任何情况下,更多的人才都无法解决数据管理的挑战。相反,许多组织将任务外包给可信任的CRO,并尽可能多地自动化流程,以将数据转换为数字格式,从而实现快速、可共享的检索。
当一个研究组织同时进行数千个项目时,这些项目将需要连接起来,以通过更好地利用资源来确保规模经济和过程效率。这将意味着更多的外包,不仅是研究,还包括组织外部的知识共享,以推动内部更好的知识。这将是一个美丽的新世界。