中国新闻网-上海新闻
上海分社正文
中国天眼海量数据怎么存储?浪潮信息探索“科学数据存储样板”
2021年10月18日 20:27   来源:中新网上海  

  中新网上海新闻10月18日电(郑莹莹)在2021第六届IDC数字化转型年度盛典上,由浪潮信息参与建设实施的“中国科学院国家天文台FAST数据中心方案”项目荣获“未来数字基础架构领军者”大奖。本次获奖背后,中国天眼基于浪潮分布式存储平台构建了天文大数据平台,为天文大数据存储和处理提供了“样板”。

  中国科学院国家天文台FAST数据中心组组长黄梦林谈及当时考虑的因素:“一个是容量要大,我们机房地域有限,需要高密度存储。而且我们需要一定的稳定性,因为我们的数据量大,但备份做得不是那么好。我们存储数据,希望它的稳定性非常好,保证我们只有一份数据但是也不会丢。”

  浪潮信息首席架构师叶毓睿介绍,像FAST这样的数据存储在浪潮信息的应对场景中属于一个品类,这个品类就是非结构化数据,包含了视频、音频以及大的图象等。他指出,这类场景需要有非常大的扩展性,能够存放很多数据;而当数据到达一定量的时候,有一个方面的挑战也会凸显出来,那就是运维管理。

  科研数据作为支撑国家科技创新的战略资源,正在成为科学研究与发现的新型驱动力,是科研领域重要的生产要素。科研数据往往具有数据密集型范式的特点,具有不可重复性、高度不确定性、高维、计算高度复杂等特征,科研人员需要利用大量数据的相关性、可取代因果关系和理论与模型,基于数据间的相关性能够获得新知识、新发现。

  中国天眼FAST在得到业界广泛认可的同时,也正遭遇海量数据考验,随着时间推移和科研任务的深入,中国天眼源源不断产生海量观测数据:FAST将采集到的原始数据,通过高速网络将数据传输至数据中心进行存储和处理,支撑起相关的科研工作。

  另外,FAST数据即使经过十几年甚至几十年也可能有新的发现,所以按照天文数据研究的惯例,这些原始数据不能删除,需要进行长时间保存,预计FAST未来数据总量将达到EB级,对数据存储平台的容量需求不断增长。

  因此灵活、可弹性扩展的数据基础设施成为中国天眼的刚需。

  目前中国天眼和浪潮存储已有两次“握手”,中国天眼从2019年开始与浪潮存储进行合作,经过一年多时间,浪潮存储运行的稳定性得到了验证,到了2021年双方再次握手,推进中国天眼数据中心扩容。

  浪潮存储基于超大规模分布式存储平台,在一个存储平台内部署高性能和高密度两种节点,以数据之力助阵中国天眼在宇宙未知领域探索中发挥作用。

  在中国天眼项目中,浪潮存储独创性地在一套分布式存储平台里部署了面向HPC和AI场景的高性能H节点和面向海量数据场景的高密度M节点,采用Infiniband EDR 100G无阻塞传输通道,并基于iTurbo智能加速引擎实现冷热数据分级存储:以高性能节点提升天文大数据存储、处理和分析的效率,以高密度节点“海纳”天文级数据,基于智能IO均衡、智能资源调度、智能元数据管理等软件栈算法让百万级IO均衡落盘且路径更短,从而实现数据在不同层级存储之间能够根据天文业务需求实现数据自由流动,带来更加快捷的科研体验。

  传统存储方案,在系统运维、后续管理中缺少精细化管理策略,仅仅对主机运行做管控,忽略了存储最小物理单元硬盘运维。而浪潮存储提供了统一资源存储管理平台,对存储系统进行集中管理、智能监测、和故障预测报警,其硬盘两周时间预测准确率可以达到95%以上。这给中国天眼带来了智能化运维体验——从以前被动的硬盘坏了以后进行抢救变成主动提前预测,有足够时间窗口对坏盘提前进行数据重构,让百PB级的存储“巨无霸”实现自动化、智能化运维。(完)

注:请在转载文章内容时务必注明出处!   

编辑:郑莹莹  

5
本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
常年法律顾问:上海金茂律师事务所