北方网数码频道 > 在油气行业新解大数据应用基础设施 > 正文

在油气行业新解大数据应用基础设施

2014-07-30 作者:袁斌 出处: 比特网 责编:袁斌
转播到腾讯微博转播到腾讯微博

  奥巴马政府将大数据定义为“未来的新石油”,非常直观地凸显了大数据技术的重要意义。而石油行业作为这句话中的另一个主角,其中所涉及的大数据概念有更丰富的含义。以石油勘探为例,其高性能计算集群所处理的数据不仅数量大、类型多、要求处理速度快,更由于勘探行业的技术进步,在高性能计算集群中处理的每一个数据块的尺寸也在飞速膨胀。“随着油气公司对成像质量的更高要求和装备技术的进步,高密度空间采样、宽方位、点激发、点接收、大道数可控震源宽频高效采集成为发展趋势,国外已经应用日效超过万炮的高效采集技术进行野外作业,每天的数据量达到了5~10TB。”东方地球物理公司研究院处理总中心总工程师赖能和先生说,“高密度采集与处理技术有利于提高地震勘探精度,这意味着数据时代即将来临。显然,海量数据处理与地震成像是油气勘探技术新热点。”

  中间为东方地球物理公司研究院处理总中心总工程师赖能和先生

  海量数据处理要点:三高两大

  那么,要满足高性能计算环境下的海量数据应用需求,在IT基础设施建设方面又需要有哪些方面的提升?赖能和先生提出了三高两大一共5个关键点。所谓的三高,首先是指节点配置要高,包括内存、处理器、内置磁盘等;其次是指出数据网络要求高,需要应用全线速、无堵塞、低延迟的万兆以上交换网;第三,存储性能要求高,这需要采用海量并行文件系统。所谓的两大,是指需要有大规模并发处理的计算资源节点,需要有稳定的大并行处理系统。

  为什么会出现三高两大这种需求?赖能和指出,在地震处理流程中,经常会在要求在一个节点里同时输入海量数据参与运算,这就要求有数百GB的大内存、几百TB的本地硬盘和读写性能更好的磁盘介质。例如,我们就应用了很多基于至强E7处理器的8路服务器用于地震数据解释,也应用了很多基于至强E5处理器的两路服务器用于科学运算。“SSD固态硬盘能够解决大临时空间性能以及性能低的问题,从而有效解决IO瓶颈,大幅降低能耗。”赖能和说,“与传统方式相比,能够快3.5倍。”

  而在海量数据处理流程二十几个大步骤当中,数十TB的数据需要频繁的IO传输,其效率至关重要,决定了系统效率,大量人机交互处理系统响应时间和生产周期。“以83TB数据处理为例,在天河1-A上用1104CPU+GPU节点完成叠前时间偏移处理的时间,数据I/O所花时间与CPU计算时间相同。”赖能和说,“无论多大的超级计算机,设备并灵活方便地实现数据的高速输入输出是至关重要的,数据交换网络成为影响系统效率和生产效率的关键因素。”

  同时,由于海量数据处理运算时间长,这也对存储的IO性能和稳定性提出了很高的要求。一方面,数据在处理过程中每步都会有近千个任务不停地存取,数据磁盘的并发存储性能成为作业成功与否,人工交互处理机器响应时间长短的关键因素之一,只有稳定可靠的高性能存储系统才能满足海量数据处理中频繁的并发I/O和海量数据的持续存储要求,而并行文件系统的性能直接影响到整个系统性能。

  不仅如此,在地震数据处理流程中由于数据量巨大,通常需要将某一步的海量数据分解为数千个处理任务,每次同时发送近千个作业,这就需要有足够多的并发计算节点资源。此外,由于海量数据处理的运算时间很长,高密度、高精度的运算任务所需的时间都在数十个小时以上,甚至高达数千小时。因此,也只有大规模、稳定的并行系统才能满足海量地震数据处理工业生产需求。

  产品技术升级推动油气生产力

  在有了三高两大的战略指导方针之后,东方地球物理公司研究院处理总中心在基础设施建设的投入也不遗余力。“我们的业务对于计算量的需求无穷无尽,”赖能和说,“我们也在积极尝试一些新技术来提升计算性能,并且通过软件和多线程化来提高多核CPU的利用效率。“目前,东方地球物理公司研究院处理总中心已经完成了CPU和GPU、CPU和MIC(即Xeon Phi,至强融核)、MIC和CPU之间做了对比,并且已经完成基于MIC的软件测试,下一步会有相应的推广应用。“至强融核是一种非常好的协处理器加速方案,可以大大提升计算性能。”他说,“采用Xeon Phi之后,比原本使用的E5-2670处理器在性能上提升了2.6倍。”

  不仅如此,东方地球物理公司研究院处理总中心也大量部署了基于IvyBridge架构的英特尔处理器(至强E5 v2),配合固态硬盘和算法优化,使得在性能提升了6倍的同时还能节能30%。“现在,我们已经能够高效地处理日常的10TB数据。”赖能和说。而在高性能网络方面,考虑到石油行业的MPI和OpenMPI应用模式,万兆及以上以太网技术比Infiniband技术更具性能价格比,并且经过适当优化之后的性能差距也在可接受的范围之内。因此,未来东方地球物理公司研究院将针对万兆以太网的应用进行更多的大规模尝试。"过去两年我们投入了大量资源将千兆网改成万兆网,并增加内存,效果非常明显,性能提升了两倍以上。”赖能和说。

  存储是HPC应用中最难解决的问题。“无论哪一家的存储系统都不是十全十美的,都只是针对某一种应用的性能好,不能对所有应用都很好,这其中不仅有硬件因素也需要软件调优,特定的存储硬件需要与处理器、网络等其他设备适配才能最优。”赖能和说。“存储不是越贵越好,而应该是适合于应用软件应用的。对某个特定的应用软件,需要配置特定的存储和网络、配置不同的并行软件系统,性能上会有很大的差异。”据悉,相比于2013年,东方地球物理研究院的数据采集量增长了近三倍,每天都上百TB的数据需要存储和应用。

  此外,对于在忙时租用计算资源的做法,这也是东方地球物理研究院正在探索的方向。据悉,对一些计算量非常大,而且周期很短的应用,东方地球物理研究院会将负载在国家测算中心运行。目前,东方地球物理研究院的软件都已经部署安装在天河上了,需要应用的时候把许可证放开即可。

  小结

  处理海量数据的主体必然是高性能计算集群,这也是目前能源行业的主要IT应用模式。为迎接前文所述的海量数据处理挑战,这就需要在在海量数据处理、系统稳定性和系统性能等方面进行提升。基于自身的应用场景实践,东方地球物理公司研究院处理总中心在软件并行高效化、处理器运行效率最大化等方面取得了显著的成效,并且通过不同异构模式的探索,进一步降低了数据中心的能耗,提升了处理速度。

数码秘闻 业界观察
酷图欣赏
花花世界
日本发现1.5米长巨型娃娃鱼报道指出,这种娃娃鱼是日本本土品种,在日本被称为“大山椒鱼”,又称“日本长寿娃娃鱼”。由于这种娃娃鱼视力不好,所以很少从水中爬出。警察接到市民报警后紧急赶到了现场,在一旁守候希望大娃娃鱼能够安全爬回到水中。……
新潮消费

2020年可穿戴设备出货量将达到2.136亿 市场分析公司IDC预测,今年的可穿戴设备出货量将同比增长29%,达到1亿190万件。其中健身追踪器设……

今日休闲