大数据有什么大不了的呢?
大数据和数据密集型实验室
数据密集型科学研究的本质目前驾驶大数据解决方案的出现,可以收集、分析、和运输非常大量的数据在多个位置。
维基百科将大数据定义为“一组数据集大而复杂,所以很难过程使用现有的数据库管理工具。挑战包括捕获、存储、搜索、共享、分析和可视化”。
实验室几十年来一直在处理大量的数据,每年体积大大增加,这一趋势正在向更大的数据集。问题一直是如何管理和矿山数据相关的信息。在当前的数据密集型环境,数据管理任务执行的难度呈指数增加。
有趣的是大数据是如何改变的本质在实验室数据管理,关系数据库和桌面分析和可视化包如此有效之前不胜任这一任务。相反,大数据利用大规模并行软件上运行大量的服务器,通常比任何一个业务能负担得起。
这样一个解决方案是一个开源的NoSQL数据库设计大量的数据在web和云应用程序交付。NoSQL数据库表不使用,因此通常不使用SQL查询语言。他们用的是一个分布式的、容错体系结构管理多余地在多个服务器上的数据。
NoSQL数据库不取代数据库如Oracle RDBMS,相反,他们提供了一个全新的方法来管理数据,因为他们允许应用程序收集并分析大量的信息从许多来源。
生命科学实验室尤其受到大数据趋势的影响。基因组时,例如,pb级别的网络新兴更好地支持基因组研究和新兴临床需求。
也有不断增长的需求管理大数据使用云计算平台,将大量的下一代DNA测序和研究数据在高速长距离。执行这些活动的挑战的云被解决。这个领域一直由Genentech的早期采用者之一大数据和云计算解决方案来支持他们的研究。
也许实验室应该见过这个即将到来的,因为它是更好的仪器产生的必然结果更多的数据更快,然后需要更好的分析解决方案,但是事后总是20/20。