大数据:为什么研究人员寻找深度,而不是广度
医疗体系的进步意味着我们的供应商获得比以往更多的数据。但更多的数据总是有益吗?在这一观点,本·曼斯菲尔德的创始人ClinOwl内容为医疗专业人士发现平台,探讨了大的机遇和挑战医学研究人员的数据。
世界上的科学和医学研究,大数据经常被吹捧为我们将解决我们最大的问题和一些治疗还无法治愈的疾病。但更多的数据真的更好吗?什么我们需要做的所有这些信息?
在研究大数据的优势是什么?
大数据有可能提供许多尚未解决的问题的答案,最终提供治疗还无法治愈的疾病,改变甚至挽救病人的生命。随着互联网的兴起,共享资源和大规模数据中心,研究人员获得更多的数据来自世界各地。通过分析这些大量的数据集,我们有机会比较关系和监控模式的准确性。在罕见疾病,这尤其重要,医疗保健专业人士之前难以获得足够的患者群体得出可靠的结论1。这可以用来加快疾病的诊断和治疗将传统上很难辨认。
大数据还提供了一个很好的机会来支持或反驳,正在进行的科学研究,随着越来越多的数据点可以有利于确证和加强的结论。但是开放科学是提供这些数据的关键。我们已经观察到显著增加共享资源的可用性和协作方法2COVID-19大流行期间,这可能对开放获取产生有前途的影响和研究。不过这确实把自己的数据保护和挑战的世界GDPR规定。个人,在这种情况下,医疗、数据需要的数据匿名化而失去医疗信息的关键。大数据是因此无能为力没有正确的保护以及智能管理和分析。
质量是关键
数据管理是一个关键问题,同时确保我们使用正确的数据放在第一位。更多的数据点可以有助于更清楚地看到关系但添加额外的字段,没有相关性在特定情况下会导致虚假的结果,甚至不存在相关性的观察3。因此必要的收集和分析正确的字段来加强你的学习,提供了可靠的结果。还有至关重要的一点,是不要忘记,相关性不等于因果关系,因此,尽管更多的数据是有用的,它不能取代有力的科学研究提供深度的理解4。看着它的一种方式我们想要深度的数据不是广度。
使用算法来分析数据是有意义的,以减少确认偏误,寻找数据,确认现有观点是人性固有的。这是大数据的情况就像较小的数据集。然而,算法并不完全消除这种风险作为人类最初的算法的程序仍然可以有偏见,如果是这样,任何结论。
分析缺失的数据一样重要的数据你有因为差距数据可以产生重大影响并导致不准确的相关性。一项研究 飓风后的数据收集从Twitter桑迪认为曼哈顿经历过最糟糕的风暴时,显然那不是真的5。这就是大多数的tweet来自但这实际上是由于人口密度和智能手机用户的比例在纽约,没有风暴的实际影响。
发布和数据
如前所述,获得高质量的数据是重要的医学研究和科学出版的发展有重要的作用。像大数据,发表的可用性研究呈指数增加,互联网的兴起。这提供了一个绝佳的机会来推进研究,但再一次,深度不广度是至关重要的。没有正确的管理,找到高质量的相关研究目前可用的研究更具挑战性由于数量。
科研人员和卫生保健专业人员比以往任何时候都要忙碌在这个流行所以节省时间和优化基本研究和学习活动的效率是至关重要的。平台促进从多个同行评议期刊通过整理研究和分析找到相关,高质量的论文是技术如何帮助的一个例子6。
大数据显然有着巨大的潜力和已经改变的研究,但数据只是一样好分析。选择合理的数据集和设计智能算法是唯一的办法,以确保我们能得出可靠的结论。我们需要聪明的方式使用数据,特别是在科学和医学,人民的健康和福祉。
引用:
1。https://www.pharmaceutical-technology.com/comment/can-big-data-improve-diagnosis-rare-diseases/
2。https://www.thelancet.com/journals/lancet/article/piis0140 - 6736(20) 30798 - 4 /全文
3所示。
https://towardsdatascience.com/ai-ml-practicalities-more-data-isnt-always-better-ae1dac9ad28f
4所示。
https://royalsocietypublishing.org/doi/10.1098/rsta.2018.0145
5。2015 - b.pdf https://www.dhi.ac.uk/san/waysofbeing/data/data -克罗恩-克劳福德
6。
//www.dile1000.com/informatics/blog/how - -医疗保健工作者能保持- - -最新研究- 340590
本·曼斯菲尔德的创始人ClinOwl