021-64837998 021-52662128 kf@glf.com.cn
20160803091833465

带你体验商业银行的数据仓库

摘要:系统仓库的建设不是一蹴而就的,和其它信息系统项目一样,数据仓库也应该在一系列计划和阶段性安排的基础上开始建设工作,数据仓库的规划和设计要从一开始就从项目实施的角度进行考虑。

1、数据仓库数据架构
数据仓库归根结底是解决数据如何组织和使用的问题,其数据架构是首先要考虑的问题,要从包括数据流向、数据模型、数据标准、数据质量、数据管控、数据保留策略和容量规划等方面来考虑数据仓库系统架构。

(1)数据流向
确定数据仓库数据流的走向,例如先将源数据加载到用于数据暂存的临时数据区,然后通过数据加工将详细历史数据、客户信息、账户信息、交易信息等数据存储到基础数据区,之后定期进行信息汇总,将数据存储到汇总数据区,最后将应用分析所需的数据存储到应用数据区。

(2)数据模型
随着数据仓库建设经验的积累,各行业都有自己比较成熟的数据仓库数据模型,这些成熟的数据模型可以为建筑数据仓库提供有益的参考和指导。

(3)数据标准
数据标准化是一项关键工作,必须由专职数据管理员从事,并制订配套的管理流程。数据标准化包括数据映射和执行规则,还包括统一的业务定义。

(4)数据质量
银行在建设数据仓库的同时,最重要的就是要考虑如何提升数据质量,没有质量的数据仓库,其应用价值几乎为零。

(5)数据管控
数据管控的目的是统一数据管理体系框架,需要从管理策略和管理方法着手,进行数据规划、数据标准制定、数据质量管理等相关工作。

(6)数据保留策略和容量规划
数据仓库的存储资源也是有限的,因此必须从预期数据量到实际动作中的数据使用情况来做好数据保留策略和容量规划,确保数据仓库有一定余量又不至于投入过多不必要的资源。

2、数据仓库体系结构
数据仓库是储存、管理信息数据的一种组织形式,数据仓库的不同部分组合在一起就组成了数据仓库的体系结构,常见的数据仓库体系结构有自顶向下及自底向上、单纯数据仓库、单纯数据集市和虚拟数据仓库等体系结构,不同的数据仓库体系结构针对不同的数据治理需求。

(1)自顶向下及自底向上的体系结构
自顶向下的数据仓库体系结构,就是在数据仓库之上建立数据集市,构建数据仓库的工作量最大,一般放在最前面来完成,一旦完成核心工作,数据的一致性和规范性得到保障,数据集市就可以专注为用户提供高性能服务。在这种设计方法中,数据集市是数据仓库的子集,两者的集成很容易实现。

767bdd9307fe442591dba2ee9a404910       
自顶向下的数据仓库体系结构要求一次性完成最核心也是最大的数据仓库部分,存在实施周期长、费用高的缺点,于是与之相对的,自底向上的数据仓库体系结构就逐步发起起来,其结构如下图所示。

b0c1829086f54963a9b30f329f8e1797       
自底向上的数据仓库体系结构是先构建独立发展的数据集市,然后在这个基础上建立全局的数据仓库。采用这种构建方法,应该在一开始就有全局的考量,在数据集市的构建过程中有相对统一的设置,为最后的集成打下基础。

(2)单纯数据仓库体系结构
这种数据仓库的体系结构比较简单,就是从数据源提取的数据经过转换后加载进入数据仓库,然后通过数据仓库直接提供给前端数据处理应用,这种结构比较适用于数据量不大或者数据应用比较简单的情况。

f9beed6406824b3288af98a21366b491
(3)单纯数据集市体系结构

在单纯数据集市体系结构中,全局范围数据仓库并不存在,数据处理应用需要连接一个或多个数据集市进行数据调用,严格来说,这并不是数据仓库的一种实现,而是数据仓库的一种中间形态。

1e4e3661b51a4b9fb853ae3f852d2521
(4)虚拟数据仓库体系结构

在虚拟数据仓库体系结构中,数据的集成存放是不存在的,而数据处理应用连接的统一数据源中是中介层,它包含存取数据和集成数据的规则和手段,并为数据仓库的用户提供虚拟的数据仓库视图。真正的数据集成发生在用户发出查询请求时,这种情况对事务处理系统的实时要求很高。虚拟数据仓库体系结构中的核心是中介层,它为数据处理应用提供统一的接口。

d4eecd0450504be3b2fbd4ec0b4e7f02