为什么患者生成的健康数据可以推动临床研究的下一个时代
随着数字化的出现,在医疗保健和临床试验中利用患者生成的健康数据(PGHD)变得非常容易。IQVIA负责真实世界洞察的科学主任、国际药物流行病学学会前主席艾莉森·伯克(Alison Bourke)说过工作与PGHD的关系Bourke与来自制药业、学术界和监管领域的研究人员合作,帮助设计充分利用PGHD的临床研究。
在她最近合著的审查关于PGHD在药物流行病学研究中的作用,我们与Bourke讨论了PGHD是如何收集的,为什么它是有用的,以及我们如何最好地保护敏感数据。
Ruairi Mackenzie (RM):什么是PGHD?
艾莉森·伯克(AB):我将PGHD定义为直接来自患者的健康信息,无论是主动的还是被动的,而不是通过医疗团队的镜头。传统上,我们进行的研究是以对照临床试验数据或来自医院或全科医生患者病历的“真实世界”信息为基础的。
RM:我们可以使用什么技术来获得PGHD集体在大规模研究中?
阿瑟:有主动技术和被动技术。主动,参与者参与收集数据,因此他们可能会注册,例如,记录COVID-19的症状,可能会通过网络或智能手机使用问卷调查。但同样,你也可以进行被动的数据收集,通常是在参与者的参与下,比如使用可穿戴技术或从社交媒体上收集评论,以收集关于患者感受或副作用体验的匿名见解。
RM:与来自临床医生的数据不同,PGHD自然会有更多的变化。在我们收集和处理数据的过程中我们该如何解释呢?
阿瑟:一般来说,最好保留结构化数据,并且仍然可以对其进行编码——例如,您可以要求患者从症状列表中进行选择。但是你也可以收集自由文本和自然语言。然后,您必须使用自然语言处理(NLP)技术对其进行编码,以便更好地理解用于分析的数据。
有机会收集到其他方法无法常规收集的大量信息,如饮食、运动和天气。这样丰富的上下文数据可能真的有助于理解健康的多个方面。
RM:你如何获取一个数据集,然后使用像NLP这样的技术使其更结构化?
ABNLP研究人们正在使用的所有语言,并将其转换为非常标准化的术语,在这种情况下,将其等同于特定的疾病或药物。最近,NLP在算法的复杂性和用于理解非结构化、混乱数据的方法方面取得了长足的进步。
RM:你能给我概括一下你认为pghd主导方法的主要优势是什么吗?
阿瑟:这一切都是以病人为中心的数据,一个很好的例子是关于我一个朋友的故事,他有一个严重的皮疹。他去看了医生,医生说这可能是饮食问题,所以让他严格控制饮食,不吃小麦,不吃糖,不喝酒,不吃水果。
果然,皮疹完全消失了。几个月后,我见到了他,皮疹又回来了。“节食已经不管用了吗?”我问他,他回答说:“我放弃了。我看了看我的优先事项,然后改变了设想。如果我有饮食不耐受症,不能吃小麦、酒精、水果和糖,医生说:“我可以给你这个药丸,但它会让你起疹子。”我会毫不犹豫地吃那个药丸,因为对我来说,能在我想吃的时候吃我想吃的东西是如此重要。我从中得到了很多乐趣,所以我可以应对皮疹。”
这说明,从临床医生的角度来看,最终的目的是消除皮疹,几乎不惜一切代价,但患者的关注点是非常不同的,这取决于他们的价值观和生活方式。医疗保健正在朝着基于患者想要和需要的个性化方法迈进。很多临床试验都是以非常有限的方式进行的,所以一旦人们走出去,在现实世界中使用它,你就不知道治疗的有效性,所以直接从患者那里收集信息意味着你可以更多地了解他们的价值观,了解他们想从治疗和健康中得到什么。
PGHD还提供了收集在研究中通常难以评估的信息的机会,例如依从性。病人真的在服药吗?如果不是,为什么不是呢?使用传统的数据来源,试验组织者可能不会意识到患者不再服用他们的药物,因为他们感到不舒服。但如果你直接问病人,他们会告诉你到底发生了什么。
RM:使用PGHD最大的障碍是什么?
阿瑟:有很多挑战,包括技术,数据的一致性和隐私,但其中一个主要问题是选择偏差,因为如果你在招募病人,例如,通过社交媒体或广告,那么你会得到一个特定的病人群体的回应,你真的需要理解他们告诉你的东西的普遍性。
也许,如果你在做一项关于抑郁症的社交媒体研究,你可能会发现,随着参与者感觉更好,他们可能不太倾向于使用社交媒体。他们可能(在非covid -19时期)和朋友出去玩,所以在整个研究过程中,你会得到一个选择的人群的回应。
我们在论文中提到的一个很大的挑战是,这个领域有很多新的参与者,比如big Tech,他们已经进入了PGHD领域,并且在分析方面特别出色,但他们可能不理解数据中固有的一些偏见或分析陷阱。这可能导致分析的解释出现问题。尽管这是一种相对较新的数据来源,但你必须使用经过数十年不断发展的可靠的、经过测试的方法。
RM:大型科技公司通过被动收集数据用于广告目的,已经赚了数万亿美元。对这些公司来说,收集人们的医疗保健数据也将非常有价值。你如何说服人们,在这些公司的参与下,数据是安全的?
阿瑟:这一点我在BMJ还有很多其他地方。这些数据是非常有益的,可以为我们的医疗保健方式提供惊人的洞察力和一步变化。但你说得很对,确实有危险。我认为制药公司完全同意保护这些数据。他们一直采取知情同意的方式,并且非常安全地保存数据。然而,科技公司可能不会这么负责任,因为这并不是根植于他们的DNA中。
有很多聪明的方法来匿名化数据。你可以通过改变日期或将症状聚合成不那么具体的症状来让数据变得模糊,除此之外,还可以通过删除所有患者的id来明显地匿名化。但不仅仅是病人的id,因为那太简单了。你拥有的数据越丰富,识别人的机会就越大。
你需要保护数据,但也要保护对数据的访问,这是基本的,被科学家和制药公司视为必不可少的,事实上,对我来说有点奇怪的是,公众会更信任谷歌而不是制药公司,因为如果有任何数据匿名问题,制药公司的损失会更大。大多数人信任英国国家医疗服务体系(NHS),但公共机构的数据泄露事件远远多于商业公司。那么,我们如何才能建立更多的信任呢?这很难。我认为。这次大流行带来的一个好消息是,人们对研究周期和科学有了更好的理解,也许他们有兴趣通过安全的方式贡献他们有科学价值的数据,帮助医疗保健更加关注他们的价值观,从而为不断增长的医疗保健数据做出贡献。
Alison Bourke采访了技术网络的高级科学作家Ruairi J Mackenzie188金宝搏备用