核应急航空监测多源数据集成及融合技术研究
王瑞军 张文峰
生成PDF 清样下载 引用

复制成功

导出题录

参考文献( GB/T 7714-2015 ) 复制

王瑞军 张文峰,. 核应急航空监测多源数据集成及融合技术研究[J]. 数据与科学,2024.4. DOI:10.12721/ccn.2024.157034.
摘要:
核应急航空监测多源数据包括核设施航空辐射环境、地面辐射环境、地形信息、地质信息、地理信息、人文信息、气象信息等多源异构数据。当前核应急航空监测数据与应用之间存在紧耦合问题,导致数据复用性差,难以快速支撑下游应用。本文在系统应用数据集成及融合技术的基础上,聚焦多源、异构、海量、时空相关核应急航空监测数据的汇聚、治理与服务、集成及融合,研究提出了基于数据湖技术的核应急航空监测集成及融合底座架构,包括由数据采集与清洗层、数据存储层、数据计算与分析层、数据服务层、数据治理层构成的技术架构,并对部分关键技术选型通过实验进行验证,可供核应急航空监测数据中心建设提供参考。
关键词: 核应急航空监测多源数据集成及融合数据湖技术数据服务
DOI:10.12721/ccn.2024.157034
基金资助:

1 引言

核应急航空监测数据是典型的大数据,具有大数据的“4V”特点(即Volume、Variety、Velocity、Value),同时还表现出多期次、多来源、多频率、多格式异构、多行业等特点[1]-[2]。数据湖技术在核应急航空监测中可以组织处理大量的监测数据,并进行实时分析和决策支持[3]-[5]。通过数据湖技术,可以将来自不同数据源的数据以原始格式存储在集中的数据库中,包括图像数据、文本数据等。可以提供灵活的数据访问和分析能力,以满足复杂的监测需求。在核应急航空监测中,数据湖技术可以用于存储和分析飞行数据、辐射监测数据等。通过数据湖架构,不同类型的数据可以被整合和关联,以便进行综合分析和预测。

传统的数据库和数据仓库存在一些问题,例如无法进行跨数据库的数据共享以及集成困难等。虽然数据仓库在某种程度上缓解了这些问题,但是在存储和查询多元化数据结构、进行非结构化和结构化数据的交叉分析等方面存在局限。在这种情况下,数据湖成为了高效的解决方案。数据湖以原始数据的原始格式进行存储,并提供公共访问接口,支持多元化结构化数据分析、实时分析、数据预测分析和跨领域分析等操作。数据湖的能力可以实现组织的数据资产价值并加速数字化转型。然而,目前现有的多源数据集成及融合数据湖文献存在一些问题,例如概念模糊和信息不完整,未能提供全面的架构设计和实施策略。

鉴于当前学术界对于多源数据集成及融合数据湖体系架构的研究不足以及对其认知不系统的问题,本文旨在分析数据湖与数据仓库之间的差异,并探讨目前数据湖系统所面临的挑战。同时,本文还对基于核应急航空监测多源数据底座的技术架构进行研究,并探讨了核应急航空监测多源数据底座的多源数据集成及融合架构。从架构体系的角度出发,详细阐述了核应急航空监测数据湖的结构、宗旨以及作用,并进行设计可行性验证。

2 数据湖概念及特点

2.1 数据湖概念

数据湖是一个存储所有类型数据的集中式存储库,可以存储结构化(如关系型数据库中的表)、半结构化(如 CSV、日志、XML、JSON)和非结构化数据(如电子邮件、文档、PDF)的原始格式,无需预先进行结构化处理[6]-[8]。数据湖可以整合各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储等,成为一个可以存储所有规模数据,并运行不同类型大数据工具的平台。数据湖提供了全局的、统一的企业级数据概览视图,解决信息孤岛问题,为多源异构数据的统一管理和数据挖掘隐藏价值提供可能。

2.2 数据湖的特点

数据湖具有以下几方面的特点:

(1)存储原始格式数据:数据湖可以存储原始的、未经处理的各种数据,包括结构化、半结构化和非结构化数据,这些数据可以来自不同的数据源。

(2)无需预先定义模式:与传统的数据仓库不同,数据湖不需要提前规划或定义数据模式。数据湖能够更快地处理大量数据,并支持不同类型的分析需求。

(3)大数据技术融合发展:数据湖集成了各种大数据技术,如数据仓库、实时和高速数据流技术、数据融合等,支持数据的处理、分析和挖掘等操作。

(4)支持多维度分析:支持从多个角度和维度对数据进行分析,存储和管理复杂的历史、实时和未来数据,为企业决策制定提供全面的数据支持。

(5)统一数据管理平台:作为统一的数据管理平台,可以解决多源异构数据的统一管理问题,避免信息孤岛,提供全局视图。

2.3 数据湖与数据仓库

数据湖和数据仓库是两种不同的数据存储架构,有以下几个方面不同(表1)。

表1  数据仓库和数据湖的对比表1.png3 多源数据集成及融合数据湖架构

基于数据湖的核应急航空监测多源数据底座技术架构如图1所示。该技术架构包括五层,分别是数据采集和清洗层、数据存储层、数据分析和挖掘层、数据服务层和数据治理层。其中,数据采集和清洗层负责核应急航空监测数据的来源和清洗操作,数据存储层将数据存储到数据库中,数据分析和挖掘层则利用大数据和深度学习等技术对数据进行分析和挖掘,数据服务层提供数据查询、索引等应用以及领域知识库、知识图谱推理等工具,数据治理层则提供管理工具以保障数据湖中数据的及时性、齐全性和准确性。

2.png图1  基于数据湖技术的核应急航空监测多源数据底座总体技术架构图

3.1 数据采集与清洗层

数据采集与清洗层的目标从各个数据源获取原始数据,并进行采集、去重、清洗和归并操作,以确保数据能够高效地存储和管理。同时,可以利用ETL(提取—转换—加载)工具来完成数据的转换和加载过程。经过长期的核应急信息化建设,已经建立了多个不同类型的数据采集系统,这些系统采集的数据包括结构化数据、时序数据和图件类大文件。数据湖需要充分考虑系统采集的数据结构,获取系统的元数据,明确核应急数据资产,形成核应急数据清单,并明确核应急数据采集的内容、采集方式、存储方式和管理方式。

核设施及周边采集数据内容涉及核设施航空辐射环境、地面辐射环境、地形、地质、地理信息、人文信息、气象信息、水文信息、机场、交通、通信、电力等各类专题数据以及国家、省级、核设施单位、决策分析研判平台提供的数据等,这些数据分别从各自不同的角度,共同描述了核应急场景下完整的实际时空信息。如此庞大多样的数据来源,先对所有多源异构数据从多个维度进行内容分析,进而梳理建立分类体系框架,为后续大数据管理,数据库建库过程理清数据脉络。

通过分析核实施周边各类数据的相关性,数据的时空属性特点,兼顾格式差异,将核设施多源数据分为基础数据,监测数据,决策数据三大类组成。

基础数据以核设施地理实体为中心,周边一定范围内,核应急事件下的需要使用周围固定环境要素,基础数据细分类根据主体表达对象为中心,围绕相关业务数据,形成四块数据子分类,分为基础地理信息数据、公共基础信息数据、核设施基础数据、监测设备数据。监测数据指在核应急事件过程中,通过多种技术手段,按照不同监测参数从不同渠道获取的各种监测数据,包含航空监测数据、航空辐射环境数据、地面辐射环境数据、气象数据等。决策数据包括航空监测过程数据、航空监测分析数据、决策分析研判数据、指挥中心数据。

3.2 数据存储层

数据存储层是将经过清洗和处理后的数据存储到数据湖中。通常情况下,数据湖平台支持多种不同类型的存储方式,例如对象存储、分布式存储和列式存储等,以满足不同的业务需求和数据管理要求。针对核应急航空监测数据的特点,本文提出了基于Hadoop的分布式存储和面向结构化数据的传统数据仓库的混合式方案,并使用HDFS、PostgreSQL、MinIO和Elasticsearch等组件来保证最优的存储效果。同时,还设计了统一的数据模型和主数据,以确保异构数据的统一描述和有效组织,从而提供统一的全局数据访问和管理。

核应急航空监测数据湖平台需要支持多种不同类型的数据库,包括PostgreSQL和MongoDB等。支持的文件类型包括文本文件(如TXT、CSV)、Excel文件、JSON文件、XML文件、MapGIS格式、ArcGIS格式、AutoCAD格式、三维模型、音视频和栅格数据(如JPG和BMP等图片格式)。支持WebService、RestFul等接口类型,接口格式支持JSON和XML等。监测图件等体量小且分散的数据适合使用文件存储方式;音视频文件则可以保存为对象存储。

3.3 数据计算与分析层

在数据湖中,数据计算与分析层是指在数据湖中进行数据处理、转换和分析的组件或功能。它通常包括以下几个方面的功能:

数据集成和整合:数据计算与分析层可以将来自不同数据源的数据进行集成和整合,将分散的数据统一到数据湖中,形成一个统一的数据视图。这样可以消除数据孤岛,提供更全面和一致的数据基础,支持跨数据源的分析和挖掘。

数据分析和挖掘:数据计算与分析层通过应用各种数据分析和挖掘技术,对数据湖中的数据进行深入分析和挖掘。包括统计分析、机器学习、数据挖掘等方法,以发现数据中潜在模式、关联规则和趋势。

实时计算和流式处理:数据计算与分析层可以支持实时计算和流式处理,对数据湖中的实时数据进行快速处理和分析。这种实时性的处理能力可以用于监测和预警系统、实时风险管理等场景。

3.4 数据服务层

数据服务层是数据湖的重要组成部分,主要负责将数据以安全、高效、易用的方式提供给数据消费者使用。该层提供的主要服务包括:(1)数据查询服务。数据湖提供了多种查询方式,以支持用户从多个角度进行数据查询,包括关联查询、语义查询、时空查询等,以满足不同用户的需求;(2)高速索引服务。为了提高用户常用数据的查询效率,可以使用ElasticSearch、Apache Solr、Amazon Elasticsearch等高速索引技术,为这些数据建立索引。通过建立索引,可以大大缩短数据查询的响应时间,提高查询效率;(3)大数据分析服务。可以通过使用Mahout、R语言、TensorFlow等开源大数据分析工具,对数据湖中的数据进行预处理、建模、挖掘与分析全过程;(4)领域知识库构建与知识图谱推理服务。我们立足于核应急数据湖,建立核应急知识库与知识图谱,为核应急数据挖掘与分析、数据精准检索、三维建模等提供支撑;(5)数据湖微服务。将数据湖的数据查询、获取及非结构化数据解析等功能模块发布成数据服务。

3.5 数据治理层

数据治理层是数据湖的重要组成部分,负责管理和控制数据湖中的数据,确保数据的合规性、准确性、完整性和安全性。数据治理层的主要功能包括以下几个方面:(1)数据质量管理:确保数据的准确性和完整性,通过数据清洗、数据验证和数据标准化等手段,去除重复数据、统一数据格式等;(2)数据安全与隐私保护:保护数据的安全和隐私,通过数据加密、数据备份和恢复、访问控制等手段,确保数据的机密性和完整性;(3)数据元数据管理:管理数据的元数据,包括数据的来源、定义、类型、格式、关系等;(4)数据合规性管理:确保数据的合规性,通过数据审计、数据分类分级、数据脱敏等手段;(5)数据生命周期管理:管理数据的生命周期,包括数据的采集、存储、处理、分析、共享和销毁等环节,以避免数据的冗余和浪费。

4 应用前景及展望

核应急航空监测多源数据集成及融合数据湖作为一种新兴的数据管理和分析平台,在未来具有广阔的应用前景和发展潜力。

(1)提升数据处理能力:核应急航空监测数据湖可以集成多源数据,包括传感器数据、卫星数据、气象数据等,实现对大规模数据的高效处理和管理。提升数据处理能力,加快数据的获取、清洗和分析过程,支持更准确、及时的核应急航空监测工作。

(2)支持智能分析与决策:通过数据湖平台的建设,实现对海量数据的存储和分析,结合人工智能和机器学习技术,进行数据挖掘、预测分析和模型构建等工作。有助于发现数据中的隐藏模式和规律,提供更准确的数据分析结果。

(3)促进跨部门协同合作:核应急航空监测涉及多个部门和机构之间的协同合作,数据湖的建设提供统一的数据平台,促进数据共享和交流。不同部门和机构可以共享和访问同一份数据,减少数据孤岛和信息壁垒。

(4)推动科学研究和创新发展:核应急航空监测数据湖为科学研究和创新发展提供了数据资源和分析平台。研究人员可以利用数据湖中的数据进行深入的数据分析和模型验证,探索新的监测方法和技术。

(5)实现精细化监测与预警:通过数据湖平台建设,实现对核应急航空监测数据的精细化监测和预警。结合实时数据采集和分析技术,及时发现异常情况和风险,提前采取相应的措施,保障核应急航空监测工作的快速和安全有效性。

参考文献

[1] 陈凌,文富平,骆志平,等.CIAE辐射安全防护事业的起步与发展[J].原子能科学技术,2020,54(增刊):260.

[2] 房江奇,杨金政,安政伟,等.核事故辐射环境航空监测实例及思考[J].中国辐射卫生,2021,30(1):53-58.

[3] 陈永南,许桂明,张新建.一种基于数据湖的大数据处理机制研究[J].计算机与数字工程,2019,47(10):2540-2545.

[4] 张桂刚,李超,毛湘科,等.区块链数据湖架构研究[J].计算机与数字工程,2023,51(1):86-92.

[5] 陈前远,杨维耿,赵顺平,等.我国开展的辐射环境水平调查现状与展望[J].辐射防护,2021,41(6):481-487.

[6] 裴秋艳,汪进,陈春花,等.面向核应急多源异构数据的数据库模块设计研究[J].核科学与工程,2020,40(3):413-418.

[7] 胡军军,谢晓军,石彦彬,等.电信运营商数据湖技术实施策略[J].电信科学,2019,35(2):84-94.

[8] 谷洪彬,杨希,魏孔鹏.基于数据湖的高校大数据管理体系和处理机制研究[J].计算机时代,2020,(5):109-111.

作者简介:王瑞军(1985.5-),男,汉,高级工程师,2009年毕业于东华理工大学地球化学专业,主要从事核应急、辐射环境监测和多源数据处理研究工作

》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。