|
第7 卷第2 期 20 5 年6 月 地球信息科学 G E O 一IN F O R MA TI O N S CIE N CE Vo l . 7 , N o . 2 Ju n e , 2(X) 5 省级海洋动力环境监测分布式 数据仓库的设计与构建 樊明辉’, 陈崇成’, 池天河’, (l 福州大学福建省空间信息工程研究中心, 福州35 (X 刃3 ; 2 中国科学院遥感应用研究所, 北京10 101 ) 摘要: 建立分布式的数据仓库系统能够满足分布式的大数据量数据管理和多层次决策支持的数据要求, 本文探讨 了数据仓库分布与集中的利弊, 提出了建立省级海洋动力环境分布式数据仓库的体系结构, 分析了数据仓库的元 数据和系统的开发模式。 关键词: 分布式; 海洋动力环境; 数据仓库; 开发模式 中图分类号: P7 31 .2 1 引言数据仓库的体系结构; (3) 分布式数据仓库的数据 分布模型; (4 )分布式数据仓库的开发策略 。 “ 台湾海峡及毗邻海域海洋动力环境实时立体 监测系统” 是“ 数字福建” 工程的一个重要组成部 分 , 其建设目标之一是构建一个多层次 、 跨地域的 省级分布式数据仓库 , 该数据仓库综合集成多种数 据源, 利用网络集成、网络通信、分布式计算技术, 将分布在多个海洋监测站点和监测系统的多种数 据格式、多种主题的实时监测数据加以综合组织和 管理 。 该系统具备以下几个特点: ( 1) 各子监测系统具有相互独立性; (2) 总中心 负责系统的运行、监控 、调配和安全, 是系统的运行 中枢和指挥中心, 系统的决策信息由总中心作出; (3) 各子数据中心零星分布于全省海岸带各个站点 和内陆部分城市 , 地域上距离比较远; (4 ) 子监测系 统之间存在数据重叠现象, 系统之间往往具有一致 的公用数据, 而且这种公用数据所占比例较大。 本文通过上述环境监测分布式数据仓库的应 用实例 , 研究分布式数据仓库的构建方法, 探讨具 有多层次特点的总中心和多级子中心数据仓库的 数据分布策略 、 数据共享机制和数据获取方法, 主 要内容包括: ( l) 分布式数据仓库元数据的管理; (2) 分布式 2 数据仓库的集中与分布 数据仓库的建立是通过抽取现有业务系统的 业务数据 , 并对多个同构或异构数据源进行有效集 成 , 从而形成一个面向主题的、相对稳定反映历史 变化的数据集合。 数据仓库的集成性就决定了其数 据来源的广泛性和多样性, 而多源、异地的数据分 布形式给数据的集成提出了挑战 。 数据仓库环境有单一中央集成和分布式两种 类型Il] , 已建成的大部分数据仓库都是集中式的中 央数据仓库环境 , 数据仓库的理论研究也以单一的 中央数据仓库为主。这种情况产生的原因有二 , 首 先 , 数据仓库本身就是数据的集合 , 只有大量的数 据集中存储才有意义; 其次 , 数据仓库装载的是全 局数据 , 只有总部( 总中心)才使用这些数据。因此, 如果数据在多个局部站点集中, 站点之间的数据存 取和传输将是一个棘手的问题。 建立分布式数据仓库需求来源于3 个方面121 : ( l) 各个数据仓库分中心具有相对独立的业务系 统 , 分中心的数据完全满足自身的业务需要。 除了 收稿日期: 20() 5一O卜19 · 资助项目: 国家“ 十五’, 863 计划海洋监测技术主题领域重点项目专题四— “ 海洋动力环境立体监测动态信息服务集成示范 系统” (编号: AA 63 04 0 1)。 作者简介: 樊明辉(197 4一) , 男, 湖北黄冈人, 中科院遥感所博士研究生, 从事空间决策支持系统、数据仓库与数据挖掘和w , bGI S 研究。伪n m h @f2 0 . e d u . e n 2 期樊明辉等: 省级海洋动力环境监测分布式数据仓库的设计与构建 要求业务系统的正常运行之外 , 分中心还要求针对 本中心的事务进行分析 、 综合以及决策; (2) 总中心 需要掌握各个分中心在某一时间段内的整体运行 情况, 对整个系统进行统一监控和综合分析 , 并作 出战略决策; (3) 总中心和分中心之间构成层次级 别 , 这种级别不仅仅限于两级的简单模式 , 往往具 有多层的复杂模式。 集中式数据仓库能够避免数据的冗余, 系统规 模大 、 结构简单, 数据仓库的分析数据由业务系统 直接抽取阎。 对应于同级别的集中式数据仓库 , 分中 心无需改变原有的操作平台和数据环境 , 因而分布 式数据仓库的构建成本、 软硬件代价相对要低一 些 。分布式数据仓库十分便于扩展 , 分中心可以在 必要时方便地被添加或拆除 , 而且数据量理论上说 可以无限增长。 分布式数据仓库的建设能够避免使 分中心的数据库结构受到大的影响, 分中心具有独 立的数据控制权限, 分中心的业务也能够照常运 转 。 对于一个大型系统而言 , 建立一个中央集中的 数据仓库还是建立一个分布式数据仓库取决于系 统的需求 。台湾海峡及毗邻海域海洋动力环境实时 立体监测系统的目标是建设一个多平台监测、多数 据中心、多服务对象的多层次信息服务网络 , 初级 数据通过环境监测网(包括动力环境监测站点 、海 洋监测调查船和一些可资利用的数据) 等监测平台 采集, 在监测网上建立二级数据中心和一级数据中 环境监测网二级数据中心一级数据中心数据中心共享部门 副 数字福建 海洋与 履 崛到 . ~ 愉动卜局 }霄翡豪纂站十海洋监 }雕籍票纂查卜6 3计测系统 厥壑研究成果监}盖易繁悠刽测数据 ‘i麟侧级海洋 岸基久监测中心站 肠据环保 示范区在建部门 点监侧数据下层诵 海洋环 境监侧 中地心海洋监测调查睛扮词监测区级中心海洋站 船监侧数据 示范区可资利I 用资源监刹数卜 据资料l 其他 部门 图1 系统数据分层采集、传输、存储和共享示意图 Fi g . l A s ketC h m aP o f data e o l ec ti on , d a ta tran s 而s s i o n an d da ta s t o 鸭e 心( 图1 ) 。 该系统的主要特点是: ( l) 组成环境监测网的 现场监测系统、 监测平台的监测数据内容多种多 样 , 其中包括水文监测数据 、雷达数据、潮流数据 、 江河人海口环境质量数据等, 这种数据决定了监测 主题的多样性; (2 )现场监测系统、监测平台具有自 己的业务系统 , 能够独立完成数据的传输 、采集 、存 储, 能够很方便地维护数据; (3 ) 二级数据中心的数 据主要由环境监测网提供, 另外还有一些研究成果 监测资料 , 一级数据中心数据大部分由二级数据中 心提供, 另外还综合了一些可以利用的数据资料 。 现场监测系统 、各数据中心之间不发生数据交换, 系统低层与中 、高层之间可以进行数据交换 。 针对该系统以上特点 , 为其建立一个高度集中 的中央数据仓库就不太合适 , 可以充分利用现有网 络监测系统和多层分中心, 建立具有分布式的局部 数据仓库和全局数据仓库的分布式数据仓库系统 。 虽然局部数据仓库和全局数据仓库之间会有一定 的数据冗余, 但相对于中央数据仓库来说, 分布式 方式能更好地支持各分中心和总中心的决策需求 。 3 数据仓库的体系结构 ( l) 局部数据仓库位于系统的区域数据中 地球信息科学20 5 年 , ~ - 一~ 一~ - 一~ , .I.rJ11引“ 总中心局部数据仓库, ~ - 一~ ~ 一~ - 一,J I- 总中心全局数据仓库 - - - - - 一- - - . J - ~ - - - ~ - - ~ . 日 11:11“盯.lI’J 级数据中心 仓仓综合 , - 一性尸, 尸, - 一, . 区城级监施中心. r ~ - 竺于, 竺, - 一, . 区顺教监侧甲心. 局部数据仓库l 局部数据仓库n 二级数据中心 ‘ ~ - - - - - 一- - 曰 仓 转换 . . . . . . . . . . . . 传输仓传输 海洋监测网 图2 分布式数据仓库系统体系结构 Fi g . 2 Th e 峨hit e c t u re Of di s tri bu t e d da ta ware hou s e 叮ste m 心—地区级的海洋监测中心, 数据来源于海洋监 测网的监测系统、监测平台, 监测设备包括海洋光 学浮标 、 大型海洋环境监测浮标 、 实时传输潜标 、远 程高频地波雷达、海床基动力要素综合自动监测系 统、 自定位水下潮流监测仪、海洋声探测浮标 、 水下 流浪潮综合测量仪 、 船基海洋环境监测系统 、区域 性卫星遥感综合应用系统和岸基站海洋环境监测 系统 。每种监测设备都有各自不同的数据传输方 式, 数据通过有线或者无线数据传输网传输到区域 数据中心数据库存储 。 在一级数据中心也相应地建立一个局部数据 仓库 , 该局部数据仓库专门针对一级数据中心的本 地数据而建, 用以支持本地的业务需求 , 数据粒度 与同位于一级数据中心的全局数据仓库不一致 , 物 理上也是隔离的。 区域数据中心往往需要依靠局部数据仓库提 供决策数据支持, 从环境监测设备采集到的数据作 为区域数据中心数据仓库的数据源, 这些数据经过 清洗 、转换、综合后存放在关系型数据仓库中, 这些 数据经过轻度综合而成 , 各个局部数据仓库分属于 不同的地域, 并且局部数据仓库具有多个数据主 题。 (2 )全局数据仓库位于系统顶层的一级数据中 心—海洋渔业局海洋环境监测中心。 全局数据仓 库的数据是综合各个局部数据仓库中的数据得到 的, 是系统内部公共和集成的数据 , 内容包括外部 数据源和整个系统内部公共的、历史的和集成的信 息 。 全局数据仓库不是把数据源简单地堆积 , 而是 对局部数据仓库中数据的重组 、综合和集成 。 全局数据仓库的内容涉及到整个系统的各个 层次 , 对应于局部数据仓库的异构性, 全局数据仓 库则有一个公共的数据结构, 数据是从局部数据仓 库映射到全局数据仓库中, 而不是将局部数据仓库 直接传输到本地存储。 全局数据仓库的数据是在局 部数据仓库之上抽取而来 , 抽取发生在局部数据仓 库相应的数据抽取完成之后闻。由于各个局部数据 仓库的主题、 结构因各自的业务特点而各异, 在各 个区域数据中心, 从局部数据仓库到全局数据仓库 的映射方式也不相同。 (3) 元数据在整个分布式数据仓库中起着非常 重要的作用, 通过它可以协调不同地域局部数据仓 库中的数据结构 , 帮助数据仓库取得一致性和相容 性 , 元数据位于数据仓库细节数据的顶层 。 元数据主要分为业务元数据和技术元数据气 2 期樊明辉等: 省级海洋动力环境监测分布式数据仓库的设计与构建 业务元数据纪录了区域监测中心的日常运行信息, 这些信息描述了监测中心的业务规则和业务活动, 包括所管辖的监测设备的地理位置 、信息传输手 段 、软硬件配置信息、信息的处理方式、 数据更新时 间和频率等。 技术元数据主要包括数据仓库的数据 源, 数据的清洗 、 抽取和转换信息、数据的映射 、 数 据仓库采用的数据模型和数据结构 、数据一致性维 护情况等 。由于各个区域监测中心的业务是分开 的, 因此全局数据仓库和各局部数据仓库都有各自 独立的元数据系统 。 元数据的维护和管理借助于元数据库的实现 ( 图3 ) , 元数据库能够存储和维护元数据 , 提供定 义、 修改和访问元数据的接口和参数, 确保当系统 新的需求出现以后, 能够适应这种需求的变化 , 达 到元数据的通用性 、可重用性和可扩展性 。 图3 元数据管理系统( 引自文献[6] ) Fi g. 3 T he m a n a ge me nt 叮ste m for m e ta d a t a (e it e d 加m r e fe re n e e [6]) 度大、 技术难度高的系统工程, 因此需要多方配合 才能顺利完成 。 系统采用自顶向下和自底向上结合的联合方 式构建闭, 这种方式综合了两种构建方式的优点, 既 保持了自顶向下方式统一规划的全局性 , 又利用了 自底向上方式能够快速实现的优势, 使得数据仓库 系统建设的速度和效益达到统一。 针对数据比较分散和区域数据中心之间业务 重叠的特点, 首先自底向上建立区域中心和总中心 局部数据仓库 。由于数据存储于不同的地域 , 不同 地域之间不存在数据冗余的问题[8] , 各个区域分中 心同时开发各自的局部数据仓库 , 一般来说, 每个 区域分中心的开发研制任务都能较快地独立完成, 区域分中心对其具有独立的控制权并很快从中受 益。在自下而上完成局部数据仓库建设以后, 总中 心通过综合分析各个局部数据中心的数据仓库主 题 、 数据内容和数据结构特点来构建全局数据仓库 模型, 全局数据仓库模型需要考虑到局部数据仓库 之间的协调问题 , 并能够集中反映各个区域数据中 心的综合业务。该全局数据仓库模型应从简单的业 务模型开始 , 逐步扩充、拓展而成 , 全局数据仓库的 数据源可能是局部数据仓库也可以是区域分中心 业务系统 。总中心将全局数据仓库模型传送到各个 区域分中心, 区域分中心依照该模型, 将细节数据 转换成系统可集成的数据形式并传至到总中心, 未 转换的细节数据仍然保存在原地, 经转换后的综合 数据传送到总中心。 4 结语 元数据库提供多种接口供系统内部和外部调 用, 通过这些接口所在模块, 用户可以根据需要定 制个性化的元数据服务, 包括浏览和查询元数据 、 建立元数据模型、创建E TL( 抽取、 转换 、装载) 工 具 、建立关系数据模型和数据仓库模型的映射 、进 行多维数据联机分析处理(OLA P) 等 。 (4) 要构造一个分布式的数据仓库系统 , 多个 数据仓库需要在异地建造, 每个局部数据仓库都可 以作为一个数据仓库项目独立完成 , 它与系统是一 种松散藕合的关系。 如何管理和协调多个数据仓库 项目的开发成为一个重要的问题。 由于本系统的建设涉及到众多的监测平台 , 需 多个部门共同参与, 是一项建设人员众多、空间跨 本文分别分析了集中式和分布式数据仓库的 利弊, 并以福建省海洋动力环境监测数据仓库的建 设为例, 提出了一个多级数据中心、异地分布的分 布式数据仓库体系结构, 分析了该数据仓库的局部 数据仓库和全局数据仓库的特点, 并给出了相应的 开发策略。 参考文献 【1] w H In m on 著. 王志海等译. 数据仓库. 北京: 机械工业 出版社, 2 。以〕, (5 ): 1 1 6 一14 3 . [2 l 韩览山, 邵贝恩. 面向集团型企业的混合型分布式数据仓 库构建. 计算机集成制造系统一CI M S , 20 3 , . 9( l): 8 0 一8 4. 【3 』S hu ig e n g Z ho u , A o y in g Zh o u , X i ao 钾n g Ta o , Y u nfa H u . 地球信息科学20 5 年 H i e rarc h ie al ly di s tri b u te d data ware ho u s e . P r o e e e d in gs of t he FO u rt h I n t e m a ti o n al Co n fe r e n e e lE x h山iti o n o n H igh Pe rfo rm an e e Co 哪u t in g in As ia 一P a e ili e Re gi o n · [4 ] 刘新民, 原鹏, 郑彦. 分布式数据仓库的一致性维护. 江西通信科技, 20 2 , ( 1 2 ) : 1一8. [5 l 龚声蓉, 熊璋, 宋京民一种分布式多媒体数据仓库模 型. 计算机工程与设计, 2 侧X】, ( 4) : 26 一28 . [6] 罗昌隆, 黄梓龙. 数据仓库的元数据模型的探讨. 南京邮 电学院学报( 自然科学版) , 2 以犯, 20 (4 ) : 80 一82 . [7 』崔志明, 陈建明 . 分布式商业数据仓库技术的研究. 微 电子学与计算机, 20() 1 , (2) : 18 一21 . [8] 王春花, 黄厚宽. 分布式数据仓库技术. 计算机应用, 1 999 , 1 9 ( 1 0 ) : l (X) 一104 . 【9] S P a n da B, Pe 示2 0 W. Re du e in g Re 叩o n s e Ti m e in a Di s tri b u t e d D a ta Ware h o u s e Sy s te m·S ou th e as t e m 兮7 · ,E n g i能e ri 飞N e w Ce n to ry ’, Pmc e e di n g s . IE E E , 12 一1 4 AP ri l , 1 997 , 4 8 一5 1. [1 0」C娜ham N T , Gre e n D G , 儿d e y M·D i stri bu te d Data Ware ho us es se Th e Ro le of Ad aP tiv e l 几FO rm a t io n A ge nts · I n d u s tri al E leC tm ni e s So e i e ty , 2创刃. IE CO N Z口叹】. 2 6 th A n u a l C o n fe re n e e of th e IE E E , 2 2 一2 8 o e t . 2 0( 刃, 4 : 2 7 9 2 ~ 2 7 97 . [1 11 A lb 此c ht J, 此h n e r w ·o n 一lin e A n al yt ie al P rOC e s s in g in D is tri bu ted Data Wa re ha u s e s . Data b as e E n gi n e e ri n g an d A p p lie ati o n s Sy m p o s i u m , 19 8. P I’O c e e d in g s . IDE AS 兮8. 】n t e rn ati on al , 8 一1 0 J u ly 199 8, 7 8 一8 5 . 112 』Bau e r A , 比hn e r w . o n So lv in g th e V ie w Se le e ti o n P ro ble m in D is tri bu te d D a ta Wa r e ho u s e A r e h it e c t u r e s . C o n fe re n e e o n Sc ie n l ifi e an d Sta t l 拓c al D a ta bas e M a n a g e m e 城20() 3 . 15 th In te m a tio n al , 9 一1 1 July Z(X) 3, 4 3~ 5 1 . D e s i g n a n d C o 刀因t r u e ti o n Of a P ro v inc i al L e v e l D i s t ri b u t e d D a ta Wa re h o us e ab ou t o c ea n D y na m i c a l E n 城r o nm en t FA N Min gh u i ’, CH E N Ch o n ge h e n g , , CH I Ti a n h e , 2 ( I 助以诫介响用王‘比动n Res e arc hi ng ce 吹r of 阿俪乃训诚。, 声运ho u Un 初e o uy, 坷俪丹仇, inc 。了5 次刃2 , ch i叫 2 加碗晓of R e n 切t e se ns 吨A P lic 以勿二, CA S , Be ij 吨I co I OI , Ch ina ) A b s t r a ct : Th e e o n s t ru e t i o n Of d istri b u t e d d at a w are h o u s e e a n e o n t ri b ut e t o m an a g e m e n t of 脚at q u an ti t y Of d a t a an d h i e r arc h y d e e i s io n s u p p o rt , t h i s p 即e r d i s e u s s e s th e ad v a n t a ge s an d t h e d i s a d v a n t a g e s of e o n e e nt rat i o n an d d e e e n t ral i z at i o n fo r a d at a w a re h o u s e , p o i n t s ou t a fra mewo rk fo r D i s t ri b u t e d D at a Ware h o u s e ab o u t Oe e an Dy n a m i c al E n v i ro n me n t a t p ro v i n e i al l e v e l an d an al y s e s th e m e ta d at a an d th e d e v e lo p i n g mo d e Of th e d a t a w a r e h o u s e . Ke y w o r ds : d i s t ri b u t e d : o e e an d y n am i e al e n v iro n me n t ; d at a w are h o u s e : d e v e l o P ing mo d e
|