自动化研究以提高可重复性和吞吐量

文章

发布日期:2019年7月5日

劳拉·伊丽莎白·兰斯顿

想要这篇文章的免费PDF版本?

填写下面的表格，我们会将PDF版本的“自动化研究以提高可重复性和吞吐量”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

您是否希望收到来自技术网络的进一步电子邮件通信?188金宝搏备用

听与

喋喋不休地说

0:00

免费注册收听这篇文章

谢谢你！用上面的播放器听这篇文章。✖

阅读时间:

几十年来，人类一直在寻求将实验室中繁琐且容易出错的手动步骤自动化，目的是提高科学的可重复性和产量。最近，我们采访了BioBright的首席执行官兼联合创始人查尔斯·弗拉奇亚(Charles Fracchia)，了解如何采用自动化来帮助研究人员分析数据。Charles讨论了在以自动化方式进行分析时要考虑的挑战，他还强调了数据的价值和网络安全的重要性。

Laura Lansdowne (LL):数据是如何彻底改变我们做科学的方式的?

查尔斯·弗拉基亚(CF):到目前为止，几乎所有的科学都是由过程驱动的。特别是，在开始的时候，这个过程是非常手工的。受试者选择步骤为手动完成，观察为手动完成。分析是手动完成的。

我们在科学方面取得了巨大的进步，自动化确实起到了很大的帮助，特别是在前两个步骤(主题选择和观察)，但最后一个前沿领域，如果你愿意的话，是以完全自动化的方式进行分析的能力。

图1:科学的方法包括三个步骤;选题，观察，分析。虽然前两个步骤已经实现了自动化，但最后一个步骤(分析)的自动化仍在进行中。资料来源:生物光明公司的查尔斯·弗拉基亚。

这个概念在几年前是不可想象的。现在我们有很棒的技术，比如机器学习和人工智能(AI)，可以帮助我们自动化分析。

我们拥有前所未有的数据量，我们现在的计算能力也是前所未有的。

这就是数据如何主要改变我们做科学的方式——我们正在从过程驱动的方法转向数据驱动的方法。它正在颠覆整个科学过程。研究人员不再说“我要做A、B和C，然后相信结果”，而是采用数据驱动的过程，“我有A、B和C块数据……这告诉我什么，我还需要收集哪些数据?”——这种反转会带来很多挑战。

例如，如果你在控制数据时不小心，或者如果你在收集数据时不小心，你的实验可能会变得完全没有价值。可复制性危机是与此相关的现象，它使美国经济每年损失约280亿美元。我们现在经常看到这样的情况，科学家们淹没在数据中，没有办法处理这些数据的数量和复杂性，导致了时间和资源的巨大浪费。

今天李华学到了两个常用语，那就是:选题和观察的步骤都是自动化的，而分析的步骤主要还是人工的。你认为这是为什么?

CF:这是一个更具挑战性的步骤，传统上，这是人类所做的步骤。直到今天，我们还在这么做，对吧?很多人都认为，自动化分析步骤只是将数据扔到人工智能平台上，“voilà”奇迹就会发生，有意义的见解就会出现。这很正常，我们正处于充满希望的炒作周期中。但现实是自动化只是另一种分析方法，但它将人类的角色从绝对的瓶颈转变为更具监督性。

在其他领域也有自动化的概念——还不是在生物医学领域，但它即将到来——人在循环中对人在循环中;这样循环就会旋转，而人就在循环上，监督整个过程。这在汽车制造、网络安全和金融服务领域已经很普遍，但我们正将这些原则引入生物医学领域。

显然，我们还没到那一步。在每次运行之后，即使是高吞吐量的运行，人类也在进行分析，然而，他们扮演的角色越来越窄，我认为这是好的。这个新的自动化步骤减少了错误并提高了吞吐量，这是一个可喜的转变，它将使我们更接近自动化分析。

你刚才说，在实验室工作流程中，分析步骤确实可以从机器学习中获益。但是，您谈到了一些陷阱和需要注意的事项。你能强调一下其中的一些吗?

CF:主要有三个陷阱:

1.炒作圈

我们需要小心炒作周期，以确保人们在谈到机器学习时不要急于下结论——它不是一个可以解决我们所有问题的黑盒子——它不是一颗银弹。

这一阶段已经在其他领域出现——自动驾驶汽车就是一个很好的例子。

我们必须经历炒作周期。所以，理解机器学习不是神奇地解决你的问题是非常重要的。理解当而且如何它的适用性是极其重要的。

2.网络安全

生物光明的核心问题是网络安全。当您转向以数据为中心的流程时，您的数据就是一切。它包含所有的值。我希望我们能让这个问题在我们的公共对话中更加突出。这是我们生物光明非常关注的事情，因为其他行业以前也犯过这样的错误。因此，我们正在积极努力，将其置于我们工作的最前沿。例如，我们的平台DarwinSync是完全加密的，它从第一天就被设计成这样，因为我们的起源是由DARPA和国防部资助的。至关重要的是，数据在静止时进行加密，在安全通道上传输，整个系统应设计为具有多个故障安全机制，以最大限度地减少泄露的后果。

网络安全是至关重要的，如果你的过程依赖于所有这些数据和所有这些训练，然后输入到机器学习算法，然后给你一个结果。竞争对手或恶意用户可能会窃取这些数据——在其他领域有很多这样的例子。

3.人类的可用性

在这个领域，无论一个过程如何自动化，总是有人参与其中。即使在自动化程度最高的公司，他们仍然需要人工来解释数据，并决定实验的方向。不幸的是，在我们的领域，很多解决方案都没有将人类可用性纳入到设计中。如果你看看很多专有软件，它们的功能通常都很好，但几乎无法使用。大多数时候，供应商更专注于锁定你，而不是给你工具和接口来充分利用它生成的数据。

今天李华学到了两个常用语:Cyber security。为什么人们不明白这是他们真正需要注意的事实，尤其是在其他领域有破坏性的例子时?

CF:我认为，从文化上讲，计算机科学和生物学之间存在着很大的鸿沟，虽然这一鸿沟正在迅速缩小，但仍然存在差距。不仅如此，即使你专门关注计算机科学方面，也不一定能得到网络安全方面的关注。我的意思是，我们经历了巨大的危机，最近的危机，我们现在仍在努力解决。作为一个领域，我们当然还在学习。

正如我之前提到的，网络安全是我们的优先事项之一，这可以追溯到我们成立的时候，我们从国防高级研究计划局(DARPA)获得了成立自己公司的资金，我从博士项目中跳出来，成为了BioBright的首席执行官。这是一个非常重要的安全问题的例子——多年来一直如此——与其他行业相比，他们在自主系统方面有更多的经验。

我们必须做好准备，以避免类似的情况发生，黑客侵入配电网络，有时导致一个国家的部分地区关闭，对吗?

我们不能让这种事情发生在生物医药行业，因为…

这是不可能发生的。

你觉得每个实验室都能从自动化中获益吗?

CF:很好的问题- - - - - -如果你把自动化作为一个更广泛的观点，我当然是这么认为的。我确实觉得我们正在朝着一个更加以数据为中心的方法前进，也就是说，即使整个过程仍然是手动的，但数据分析的自动化已经到位，那么仍然有巨大的收益。

在很大程度上，我同意。虽然，就这个问题而言，你知道，自动化并不是万能的，它是一种必须正确和深思熟虑地应用的东西，以一种增强科学家的方式。