2015年10月国务院正式印发的《促进大数据发展行动纲要》,是我国促进大数据发展的第一份权威性、系统性文件,从国家大数据发展战略全局的高度,提出了我国大数据发展的顶层设计和总体部署,是指导我国未来大数据发展的纲领性文件。国际数据资讯公司IDC预计2020年全球数据量将达到35ZB的体量,其中20%将在中国产生。可以预见大数据的发展对各行各业的推进以及人们认识事物的方式都将产生深远的影响,越来越多的国家、研究机构都认识到,大数据蕴藏费巨大的价值和潜力。
海洋地理信息系统MGIS是指海底、海面、水体、海岸带及海上大气等自然环境与人类活动为研究对象的海洋领域研究的工具和工作平台,对多种海洋空间数据进行收集、存储、整合、处理和管理,为平台使用者提供空间分析、模拟预测、可视化表达以及决策辅助等服务。为更好适应海洋数据爆炸式增长,实现海洋数据的实时共享,MGIS已与web技术紧密结合,为用户提供快速便捷的数据服务。大数据的认知方式有别于传统思维,大数据是以“全面而非抽样”“效率而非精确”“相关而非因果”的理念解决问题。海洋信息化是国家信息化的重要组成部分,充分利用大数据,挖掘海洋大数据对国计民生的最大价值,是海洋信息化战略努力的方向。而海洋地理信息系统作为海洋数据管理、处理分析和共享的有力工具和平台,将大数据关键技术“分布式存储”和“分布式处理”应用MGIS平台,打造全时、全信息、高效率的海洋地理信息平台,更好地为海洋信息化战略服务。
一、大数据时代
各种类型传感器的应用,世界各大IT巨头对大数据的深度开发,万物物联的时代即将到来。随着物联网、互联网、云计算等技术的迅速发展,人、机、物三元世界的高度融合,引发了数量模指数级的增长,数据量积累到一定程度其资源性愈加凸显,开发价值愈加大,大数据已深入到生活的方方面面,世界已进入大数据时代,大数据被称为将引发生活、工作和思维变革的一次革命。
⒈大数据的特点
随着对大数据研究的深入,大数据不仅仅是数据“大量化(Volume)”,而且包含了“快速化(Velocity)”“多样化(Varirty)”和“价值化(Value)”等多种属性。大数据每年以50%的速度增长,遵循大数据“摩尔定律”,大数据具有多维性质,而不同维度之间有着天然的联系;大数据类型多样,其中只有10%是结构化数据论坛数据采集,90%为是非结构化数据,非结构化数据与人类密切相关;目前数据从生产到消耗的时间窗口非常短,为了获得更多的决策支持,就要求大数据的处理速度足够快;大数据是全面而非抽样的,全信息记录,使得大数据具有价值密度低、但商业价值高的特点。
⒉大数据面临的挑战
大数据的到来催生出新的科学范式,图灵奖获得者Jimgray博士将人类的科学研究史总结为4种范式,即实验研究阶段、理论研究阶段、计算研究阶段和数据驱动研究阶段。可以看出,大数据正在引发科学研究思维与方法的变革。虽然大数据提出较早,但普遍进入大众视野是最近10年才开始的,大数据技术已取得了较大的发展,但也面临着以下几个方面的挑战。
⑴数据采集
“大数据技术”顾名思义不难发现,数据是其根本,数据采集是大数据技术的第一步。目前通常采用的数据采集技术是利用ETL工具将多源异构数据源中的关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓中,成为联机分析处理、数据挖掘的基础,实时采集的数据可作为流计算的输入,进行实时处理分析。大数据多样化给数据的转换、集成带来了挑战,如何正确地转换和完整的集成是数据采集需要面临的问题。
⑵数据储存和管理
传统的数据库追求高度的数据一致性和容错性,扩展性不足,在面对非结构化和半结构化的数据时,存储能力一般。利用分布式文件系统、数据仓库、关系数据库、N0SQL数据库和数据库等,实现对结果化、半结构化海量数据的存储和管理。当前,已有的存储技术的提升较数据量的增长落后很多,设计合理的分层存储架构成为大数据存储的关键。
⑶数据处理与分析
目前大数据处理和分析所采取的关键技术是利用分布式并行编程和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。大数据的多样性、多源异构性加大了数据集成和处理的难度,开展大数据不同类型格式向标准化格式转化研究,建立大数据多源融合体系。
⑷数据隐私和安全
在从大数据挖掘潜在的巨大商业价值和科学研究价值的同时,需要关注数据隐私和数据安全的问题。如何构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全是人们更为关心的问题。此外,还有需要面临的挑战,如打破数据壁垒,实现数据共事;广泛的技术培训,培养大数据人才;宣传大数据思维,用大数据思维看待问题,正确认识数据驱动的方法。
二、大数据下海洋地理信息系统的发展
⒈海洋地理信息系统概述
地理信息系统(GIS)是海岸带资源与环境综合管理的方便有效的技术手段,基于海洋的特点,如海水的流动性,海水深度明显的周期变化有别于陆地,有较强的时间性,海洋地理信息系统(MGIS)需要处理空间和时间同步的数据。
海洋环境的复杂多样,需要综合管理社会、经济、资源、环境等多样性数据,要求MGIS具有多功能性和智能化的特点。MGIS综合性地跨学科融合了海洋学、遥感、测绘学、计算机科学、信息科学、社会学、生态学以及灾害学等目前相关的研究者大多基于自身所在的学科背景,将MGIS作为一种辅助分析或决策的具来使用,而将多学科、多背景系统融合的研究则鲜有研究。在大数据时代,MGIS将会迎来快速而创新性的发展,使MGIS更广泛地适应海洋科学发展的特点和构建“数字海洋”的信息系统。
⒉海洋时空大数据仓库
时空规律蕴含在数据之中,集成的数据越多,发掘出规律的可能性越高。以往的学者认为海洋数据包含海洋水文、海泮生态环境、海洋气象气候、海洋化学、海洋经济、海洋物理等方面经典的大数据。2010年前后以物联网、云计算和大数据为标志,开启第三次信息化浪潮,海洋大数据已经不再限于海洋自然科学数据,与海洋相关的社会数据,如网络社交新媒体等也应纳入海详大数据的范畴。MGIS与大数据技术相结合论坛数据采集,使海洋信息数据的建库和管理向科学化、便捷化、实肘化、智能化和应用社会化的方向发展。
数据是运用大数据技术的基础,构建海洋时空大数据仓库是MGIS在大数据时代发展的基石。以大数据的采集和存储模式为基础,结合MGIS数据的特点,将数据分为传统MGIS时空数据集、多源传感器与遥感数据和多源泛在时空信息资源3类。将时空数据以场景为基础,构建多尺度图元镶嵌的几何模型,通过増量和快照相结合的方式,表达缓慢变化的自然场景。对于社会和自然变化较为剧烈的过程,如涉海安全事故、风暴潮、海啸等突发事件,以离散事件、过程快照和流媒体等不同类型来进行表达,使泛在时空信息聚合。通过时间、地点、事件等关键要素,建立与自然表达场景的映射与关联。海洋时空大数据仓库构建的组织关系如图1所示。
图1 海洋时空大数据仓库
⒊基于大数据的多环境多层次智能决策预警系统
传统的MGIS应用已经十分广泛,用于海洋功能区的管裡和规划、海岸带的管理和规划、海洋环境的管理和保护、海洋资源的开发管理与保护、海洋环境的监测、评价与预报,海洋防务数据的管理、分析和辅助决策等方面。技术的革新有助于提高人们对问题的认知水平,从不同的角度和层次看待问题,获得更好的解决问题的途径。技术最终是要服务于应用,大数据技术与海洋地理信息系统相结合的落脚点、未来的发展方向将是构建多环境要素的多层次的实时的决策预警系统。依据大数据的“相关而非因果”思维,在多样而全面的数据仓库中,应用多环境模态发现深度学习模型,快速而准确地找到规律,预测事物的进一步发展,为决策者提供依据。为建立该预警系统,首先,在MGIS平台上构建海洋环境、大气环境、生态环境、经济环境、社会环境等海洋时空大数据仓库,以大数据云计算为支撑,集成多源时空数据资源和集成,实现尺度适应的高性能多模态数据访问机制;其次,使用耦合时空多尺度过程模型与算法,建立时空模态发现的高性能计算框架,挖掘出多环境变量多层次时空响应关系;最后构建实时高效的多源数据采集和处理系统,耦合多主题多因子海洋环境问题时空预测的深度神经网络预测模型库,研究建立典型情景与专家交互式情景设定双驱动的环境预警链,实现面向海洋环境问题的多层次智能决策预警系统。基于大数据的多环境多层次智能决策预警系统的框架见图2。
图2 基于大数据的多环境多层次智能决策预警系统
⒋大数据下海洋地理信息系统面临的挑战
大数据时代,海洋地理信息系统主要面临以下3个挑战。首先是思维的转变,当今海洋学问题主流处理方式仍然是模型驱动,而数据的极大丰富使人们可以不用模型和假设,实现从模型驱动到数据驱动的思维转变,以大数据思维解决MGIS中遇到的新型问题,从复杂的时空数据中挖掘出隐含的规律和知识。其次是数据和技术的共享,海洋数据的敏感性和大数据关键技术的垄断性是阻碍大数据发展的最大障碍。最后是多学科复合型人才的培养,大数据和云计算技术的提升,使全要素的数据驱动成为可能,拥有多学科背景,具备跨学科综合能力的人才更为急需。
三、结语
结合大数据的概念和特点,探讨了海洋地理信息系统未来可能的发展趋势,以海洋地理信息系统为平台,建立海洋时空大数据仓库,以大数据、云计算和深度学习算法为技术支撑,将基于大数据的多环境多层次智能决策预警系统作为应用的落脚点。最后认为思维转变、技术壁垒和人才培养等3个方面是大数据和海洋地理信息系统将要面临的问题。
【作者简介】本文作者/陈鹏 王少朋李玉婷陈坤 刘逸洁,分别来自南京师范大学虚拟地理环境教育部重点实验室和国家海洋信息中心。文章来自《海洋信息》(2019年第2期),参考文献略,用于学习与交流,版权归作者及出版社共同拥有,转载也请备注由“溪流之海洋人生”微信公众平台整理。