自动化研究以提高可重复性和吞吐量
阅读时间:
几十年来,人类一直在寻求将实验室中繁琐且容易出错的手动步骤自动化,目的是提高科学的可重复性和产量。最近,我们采访了BioBright的首席执行官兼联合创始人查尔斯·弗拉奇亚(Charles Fracchia),了解如何采用自动化来帮助研究人员分析数据。Charles讨论了在以自动化方式进行分析时要考虑的挑战,他还强调了数据的价值和网络安全的重要性。
Laura Lansdowne (LL):数据是如何彻底改变我们做科学的方式的?
查尔斯·弗拉基亚(CF):到目前为止,几乎所有的科学都是由过程驱动的。特别是,在开始的时候,这个过程是非常手工的。受试者选择步骤为手动完成,观察为手动完成。分析是手动完成的。
我们在科学方面取得了巨大的进步,自动化确实起到了很大的帮助,特别是在前两个步骤(主题选择和观察),但最后一个前沿领域,如果你愿意的话,是以完全自动化的方式进行分析的能力。
图1:科学的方法包括三个步骤;选题,观察,分析。虽然前两个步骤已经实现了自动化,但最后一个步骤(分析)的自动化仍在进行中。资料来源:生物光明公司的查尔斯·弗拉基亚。
这个概念在几年前是不可想象的。现在我们有很棒的技术,比如机器学习和人工智能(AI),可以帮助我们自动化分析。
我们拥有前所未有的数据量,我们现在的计算能力也是前所未有的。
这就是数据如何主要改变我们做科学的方式——我们正在从过程驱动的方法转向数据驱动的方法。它正在颠覆整个科学过程。研究人员不再说“我要做A、B和C,然后相信结果”,而是采用数据驱动的过程,“我有A、B和C块数据……这告诉我什么,我还需要收集哪些数据?”——这种反转会带来很多挑战。
例如,如果你在控制数据时不小心,或者如果你在收集数据时不小心,你的实验可能会变得完全没有价值。可复制性危机是与此相关的现象,它使美国经济每年损失约280亿美元。我们现在经常看到这样的情况,科学家们淹没在数据中,没有办法处理这些数据的数量和复杂性,导致了时间和资源的巨大浪费。
今天李华学到了两个常用语,那就是:选题和观察的步骤都是自动化的,而分析的步骤主要还是人工的。你认为这是为什么?
CF:这是一个更具挑战性的步骤,传统上,这是人类所做的步骤。直到今天,我们还在这么做,对吧?很多人都认为,自动化分析步骤只是将数据扔到人工智能平台上,“voilà”奇迹就会发生,有意义的见解就会出现。这很正常,我们正处于充满希望的炒作周期中。但现实是自动化只是另一种分析方法,但它将人类的角色从绝对的瓶颈转变为更具监督性。
在其他领域也有自动化的概念——还不是在生物医学领域,但它即将到来——人在循环中对人在循环中;这样循环就会旋转,而人就在循环上,监督整个过程。这在汽车制造、网络安全和金融服务领域已经很普遍,但我们正将这些原则引入生物医学领域。
显然,我们还没到那一步。在每次运行之后,即使是高吞吐量的运行,人类也在进行分析,然而,他们扮演的角色越来越窄,我认为这是好的。这个新的自动化步骤减少了错误并提高了吞吐量,这是一个可喜的转变,它将使我们更接近自动化分析。
你刚才说,在实验室工作流程中,分析步骤确实可以从机器学习中获益。但是,您谈到了一些陷阱和需要注意的事项。你能强调一下其中的一些吗?
CF:主要有三个陷阱:
1.炒作圈
这个概念在几年前是不可想象的。现在我们有很棒的技术,比如机器学习和人工智能(AI),可以帮助我们自动化分析。
我们拥有前所未有的数据量,我们现在的计算能力也是前所未有的。
这就是数据如何主要改变我们做科学的方式——我们正在从过程驱动的方法转向数据驱动的方法。它正在颠覆整个科学过程。研究人员不再说“我要做A、B和C,然后相信结果”,而是采用数据驱动的过程,“我有A、B和C块数据……这告诉我什么,我还需要收集哪些数据?”——这种反转会带来很多挑战。
例如,如果你在控制数据时不小心,或者如果你在收集数据时不小心,你的实验可能会变得完全没有价值。可复制性危机是与此相关的现象,它使美国经济每年损失约280亿美元。我们现在经常看到这样的情况,科学家们淹没在数据中,没有办法处理这些数据的数量和复杂性,导致了时间和资源的巨大浪费。
今天李华学到了两个常用语,那就是:选题和观察的步骤都是自动化的,而分析的步骤主要还是人工的。你认为这是为什么?
CF:这是一个更具挑战性的步骤,传统上,这是人类所做的步骤。直到今天,我们还在这么做,对吧?很多人都认为,自动化分析步骤只是将数据扔到人工智能平台上,“voilà”奇迹就会发生,有意义的见解就会出现。这很正常,我们正处于充满希望的炒作周期中。但现实是自动化只是另一种分析方法,但它将人类的角色从绝对的瓶颈转变为更具监督性。
在其他领域也有自动化的概念——还不是在生物医学领域,但它即将到来——人在循环中对人在循环中;这样循环就会旋转,而人就在循环上,监督整个过程。这在汽车制造、网络安全和金融服务领域已经很普遍,但我们正将这些原则引入生物医学领域。
显然,我们还没到那一步。在每次运行之后,即使是高吞吐量的运行,人类也在进行分析,然而,他们扮演的角色越来越窄,我认为这是好的。这个新的自动化步骤减少了错误并提高了吞吐量,这是一个可喜的转变,它将使我们更接近自动化分析。
你刚才说,在实验室工作流程中,分析步骤确实可以从机器学习中获益。但是,您谈到了一些陷阱和需要注意的事项。你能强调一下其中的一些吗?
CF:主要有三个陷阱:
1.炒作圈
我们需要小心炒作周期,以确保人们在谈到机器学习时不要急于下结论——它不是一个可以解决我们所有问题的黑盒子——它不是一颗银弹。
这一阶段已经在其他领域出现——自动驾驶汽车就是一个很好的例子。
我们必须经历炒作周期。所以,理解机器学习不是神奇地解决你的问题是非常重要的。理解当而且如何它的适用性是极其重要的。
2.网络安全
2.网络安全
生物光明的核心问题是网络安全。当您转向以数据为中心的流程时,您的数据就是一切。它包含所有的值。我希望我们能让这个问题在我们的公共对话中更加突出。这是我们生物光明非常关注的事情,因为其他行业以前也犯过这样的错误。因此,我们正在积极努力,将其置于我们工作的最前沿。例如,我们的平台DarwinSync是完全加密的,它从第一天就被设计成这样,因为我们的起源是由DARPA和国防部资助的。至关重要的是,数据在静止时进行加密,在安全通道上传输,整个系统应设计为具有多个故障安全机制,以最大限度地减少泄露的后果。
网络安全是至关重要的,如果你的过程依赖于所有这些数据和所有这些训练,然后输入到机器学习算法,然后给你一个结果。竞争对手或恶意用户可能会窃取这些数据——在其他领域有很多这样的例子。
3.人类的可用性
网络安全是至关重要的,如果你的过程依赖于所有这些数据和所有这些训练,然后输入到机器学习算法,然后给你一个结果。竞争对手或恶意用户可能会窃取这些数据——在其他领域有很多这样的例子。
3.人类的可用性
在这个领域,无论一个过程如何自动化,总是有人参与其中。即使在自动化程度最高的公司,他们仍然需要人工来解释数据,并决定实验的方向。不幸的是,在我们的领域,很多解决方案都没有将人类可用性纳入到设计中。如果你看看很多专有软件,它们的功能通常都很好,但几乎无法使用。大多数时候,供应商更专注于锁定你,而不是给你工具和接口来充分利用它生成的数据。
今天李华学到了两个常用语:Cyber security。为什么人们不明白这是他们真正需要注意的事实,尤其是在其他领域有破坏性的例子时?
CF:我认为,从文化上讲,计算机科学和生物学之间存在着很大的鸿沟,虽然这一鸿沟正在迅速缩小,但仍然存在差距。不仅如此,即使你专门关注计算机科学方面,也不一定能得到网络安全方面的关注。我的意思是,我们经历了巨大的危机,最近的危机,我们现在仍在努力解决。作为一个领域,我们当然还在学习。
正如我之前提到的,网络安全是我们的优先事项之一,这可以追溯到我们成立的时候,我们从国防高级研究计划局(DARPA)获得了成立自己公司的资金,我从博士项目中跳出来,成为了BioBright的首席执行官。这是一个非常重要的安全问题的例子——多年来一直如此——与其他行业相比,他们在自主系统方面有更多的经验。
今天李华学到了两个常用语:Cyber security。为什么人们不明白这是他们真正需要注意的事实,尤其是在其他领域有破坏性的例子时?
CF:我认为,从文化上讲,计算机科学和生物学之间存在着很大的鸿沟,虽然这一鸿沟正在迅速缩小,但仍然存在差距。不仅如此,即使你专门关注计算机科学方面,也不一定能得到网络安全方面的关注。我的意思是,我们经历了巨大的危机,最近的危机,我们现在仍在努力解决。作为一个领域,我们当然还在学习。
正如我之前提到的,网络安全是我们的优先事项之一,这可以追溯到我们成立的时候,我们从国防高级研究计划局(DARPA)获得了成立自己公司的资金,我从博士项目中跳出来,成为了BioBright的首席执行官。这是一个非常重要的安全问题的例子——多年来一直如此——与其他行业相比,他们在自主系统方面有更多的经验。
我们必须做好准备,以避免类似的情况发生,黑客侵入配电网络,有时导致一个国家的部分地区关闭,对吗?
我们不能让这种事情发生在生物医药行业,因为…
这是不可能发生的。
你觉得每个实验室都能从自动化中获益吗?
CF:很好的问题- - - - - -如果你把自动化作为一个更广泛的观点,我当然是这么认为的。我确实觉得我们正在朝着一个更加以数据为中心的方法前进,也就是说,即使整个过程仍然是手动的,但数据分析的自动化已经到位,那么仍然有巨大的收益。
在很大程度上,我同意。虽然,就这个问题而言,你知道,自动化并不是万能的,它是一种必须正确和深思熟虑地应用的东西,以一种增强科学家的方式。
广告