hadoop三大核心组件

@却熊3317：能简述下hadoop的主要组件吗 -
缪唐13024425850…… 目前开源hadoop只包含hdfs,mr,和yarn,yarn是hadoop2新增组件.hdfs是hadoop分布式文件系统,主要采用多备份方式存储文件,可以对接hive和hbase等产品并存储对应数据.mapreduce是大数据处理并行框架,用户可以编写自己的程序调用mr框架并行的处理大数据,在调用过程中可以调整m和r的数目.不过总的来说编程相对复杂,因此诞生了hive.yarn作为新生控件,主要管理hadoop各个模块运行过程中的任务调度,目前主要有公平调度与容量调度两种模型.如果需要其他组件,需要单独下载安装.

@却熊3317：请简要描述一下hadoop,spark,mpi三种计算框架的特点以及分别适用于什么样的场景 -
缪唐13024425850…… hadoop包括hdfs、mapreduce、yarn、核心组件.hdfs用于存储,mapreduce用于计算,yarn用于资源管理. spark包括spark sql、saprk mllib、spark streaming、spark 图计算.saprk的这些组件都是进行计算的.spark sql离线计算,spark ...

@却熊3317：大数据的Hadoop是做什么的? -
缪唐13024425850…… 提供海量数据存储zd和计算的.需要java语言基础.Hadoop实现了一个分布zd式文件系统(Hadoop Distributed File System),简称HDFS.有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供专高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算属回.

@却熊3317：hadoop用在云计算上具体能做什么| -
缪唐13024425850…… Hadoop主要组件是三个, hdfs, mapreduce和 core. HDFS是分布式文件系统,mapreduce是分布式计算平台. 他们组后后可以完成海量数据存储和数据分析的工作. 但是Mapreduce得模型只能处理一些简单的业务,这是他们的受限之处. 对于他们在性能上和可靠性上的问题,hadoop开源本身的发展正在解决问题.产品:BM 的BigInsight, Oracle的 datebase appliance国内使用Hadoop作为数据分析平台的更是多多,比如baidu

GBASE南大通用案例

本项目案例由GBASE南大通用投递并参与“数据猿年度金猿策划活动——2023大数据产业年度创新服务企业榜单/奖项”评选。

近年来，随着5G、大数据、人工智能、物联网等技术的飞速发展，各类数据呈现大规模、多样性的指数级增长，企业需要同时处理海量结构化数据、半结构化数据以及非结构化数据。相较其他行业，商业银行在智能时代更依赖数据要素对业务的支撑，业务流程亟待更丰富、更准确、更高效的数据服务，通过挖掘数据价值，推动业务创新。

面对愈发强烈的数字化转型需要，河北银行在数据应用建设中，结合行内原数据湖，引入南大通用GBase 8a MPP数据库对数据平台升级迁移，形成了MPP+Hadoop技术栈的湖仓一体数据服务体系。

河北银行原数据平台基于Netezza一体机搭建,是行内重要的基础平台类系统。2019年，IBM宣布停止该款一体机所有支持，同时，行内原有的数据平台面临着诸多问题和挑战。

数据完整性不够。原数据平台存储空间不够，导致关键分析结果和整合后的数据无法长期保存，难以满足使用周期较长的数据服务。而数据平台与大数据平台作为全行数据基础平台，二者相互独立、缺少融合，现有数据架构和技术体系无法实现多样数据的采集，全域数据汇聚能力不足。

数据规范性不高。数据标准方面，源系统数据标准不一，数据平台缺乏数据标准的间接落标，导致未能形成可见、易用、好用的数据资产。数据模型方面，缺少针对数据模型的有效管理，数据开发不规范，数据使用低效，数据资产化能力不足。

数据时效性不强。数据平合资源使用率触及容量瓶颈且无法扩展，算力不足，无法按时完成分析任务，处理时间较上线初期已延迟7小时，严重影响关键报表的时效性。此外，由于缺少辅助工具支撑，数据研发周期长，进而导致交付效率低。

实施时间：

项目开始时间：2022年10月

项目完结时间：2023年8月

应用场景

智能银行时代的来临，业务模式正在发生深革，业务流程需要更丰富、更准、更高效的数服务支撑服务。国有行、股份制行和头部城商行均曾面临基础数不完整、数国质量差、数据服务时效低等问题，且大多于3至5年前就已开始数据"建梁立柱"工作，成果已逐渐显现。目前，已持续推出各类数产品，不断挖掘数据价值，极大提升了业务创新能力。

河北银行的数据平台主要用于存储来自核心系统、个贷系统、网银系统、零售系统等各业务系统的数据。新一代数据平台由Netezza一体机升级为支撑海量复杂业务数据、可水平拓展的分布式架构，采用完全自研的国产分布式逻辑数据仓库GBase 8a以适应各业务系统数据量的不断增长和数据类型的复杂化。

在河北银行数据平台的数据处理层主要由GBase 8a MPP Cluster替换原有的IBM-Netezza一体机数仓所承接的前端采集、数据汇总等数据处理任务，完成数据比对、入库、汇总等工作。在数据集市层分为信用风险、资金稽查、报表应用、数据挖掘等数据集市。其中 GBase 8a MPP集群替代了原IBM-Netezza一体机数据仓库的所有功能，完成基础数据跑批工作和相关业务模块数据汇总业务，并根据业务应用不同搭建对应的数据集市支持报表工具和各个业务系统的数据访问。

河北银行大数据平台通过GBase 8a的列存储、智能索引、高压缩等技术，有效减少磁盘I/O访问量，在查询统计分析方面较原有系统有很大幅度的提升；支持即席查询和多维分析；支撑各种复杂的BI应用分析展示。作为数据调度平台的基础平台，实现模型、指标、ETL的统一管理，为金融行业其他用户提供方案级复用。

面临挑战

河北银行原数据平台基于Netezza一体机搭建,是行内重要的基础平台类系统。

2019年，IBM宣布停止该款一体机所有支持，同时，行内原有的数据平台面临着诸多问题和挑战。主要体现在：

(1) 数据完整性不够。原数据平台存储空间不够，导致关键分析结果和整合后的数据无法长期保存，难以满足使用周期较长的数据服务。而数据平台与大数据平台作为全行数据基础平台，二者相互独立、缺少融合，现有数据架构和技术体系无法实现多样数据的采集，全域数据汇聚能力不足。

(2) 数据规范性不高。数据标准方面，源系统数据标准不一，数据平台缺乏数据标准的间接落标，导致未能形成可见、易用、好用的数据资产。数据模型方面，缺少针对数据模型的有效管理，数据开发不规范，数据使用低效，数据资产化能力不足。

(3) 数据时效性不强。数据平合资源使用率触及容量瓶颈且无法扩展，算力不足，无法按时完成分析任务，处理时间较上线初期已延迟7小时，严重影响关键报表的时效性。此外，由于缺少辅助工具支撑，数据研发周期长，进而导致交付效率低。

结合监管要求，河北银行综合考量行内数字化转型对数据能力建设需要，选择引入南大通用GBase 8a MPP数据库，建设新一代“湖仓一体”数据平台，以应对原数据仓库技术支持难以为继，且数据能力方面存在的不足。

数据支持

河北银行湖仓一体技术平台以Hadoop平台为主存储，以南大通用GBase 8a分布式数据库为计算引擎，集两者优势合为一体，加工效率大幅提升，新架构在充分利用行内现有资源的前提下，支持弹性资源扩展，湖仓交互方案经过反复论证实践，安全、高效、稳定，目前已完成老数据平台所有数据源入湖入仓，整体数据入仓平均时间相比老平合缩短2.5小时。新平台以数据准确性、完整性和时效性为目标，经过6个月的试运行检验，湖仓一体技术平台已具备成熟的服务能力。

整个数据平台基于16台物理机构建，GBase 8a承载所有结构化数据的存储和计算任务，实现了数据抽取工具的无缝对接，保证了原系统所有的功能替代。目前已形成数据标准300余项、词根3500余项、标准代码20项，实现数据仓库基础层模型539个、共性层28个模型的标准化落地。

应用技术与实施过程

一、总体架构

河北银行原数据仓库主要用于存储来自各个业务系统的数据，包括核心系统、个贷系统、网银系统、零售系统等。各系统数据量不断增长，数据复杂，如何选择替代原有netezza系统的新的数据仓库系统是整个项目的难题。另外，替换netezza之后，需要与现有的Hadoop系统对接，保证系统数据可以在两个系统间流动。

河北银行整个数据平台基于16台物理机构建，GBase 8a承载所有结构化数据的存储和计算任务，实现了数据抽取工具的无缝对接，保证了原系统所有的功能替代。同时，同上层应用厂商配合，顺利完成业务迁移任务。GBase 8a进行数据的加工、处理并为生产高价值数据提供可靠、稳定保证。依靠GBase 8a自身特性，与现有Hadoop系统无缝对接，承载全行数据模型落标与统一数据整合集成，形成各个数据层的数据组织与模型。新一代数据平台和数据湖有效融合，基于两套数据生态，进行合理的数据分层，形成一套完整的采、管、存、用的数据全流程管理体系。

二、数据仓库核心组件

GBase 8a MPP Cluster产品总共包含三大核心组件及辅助功能组件，其中核心组件包含分布式管理集群GCWare、分布式调度集群GCluster和分布式存储计算集群GNode，所有组件的功能分别为：

GCWare：组成分布式管理集群，为集群提供一致性服务。主要负责记录并保存集群结构、节点状态、节点资源状态、并行控制和分布式排队锁等信息。在多副本数据操作时，记录和查询可操作节点，提供各节点数据一致性状态。

GCluster：组成分布式调度集群，是整个集群的统一入口。主要负责从业务端接受连接并将查询结果返回给业务端。GCluster会接受SQL、进行解析优化，生成分布式执行计划，选取可操作的节点执行分布式调度，并将结果反馈给业务端。

GNode：组成分布式存储集群，是集群数据的存储和计算单元。主要负责存储集群数据、接收和执行GCluster下发的SQL并将执行结果返回给GCluster、从加载服务器接收数据进行数据加载。

GCMonit：用于实时监测GCluster和GNode核心组件的运行状态, 一旦发现某个服务程序的进程状态发生变化，就根据配置文件中的内容来执行相应的服务启动命令，从而保证服务组件正常运行。

GCware_Monit：用于实时监测GCware组件的运行状态, 一旦发现服务进程状态发生变化，就根据配置文件中的内容来执行相应的服务启动命令，从而保证服务组件正常运行。

GCRecover & GCSyncServer：用于多副本间的数据同步。一旦发生多副本间数据文件不一致则调用该进程进行同步，从而保证多副本数据文件的一致性。

三、数据库仓库的分层

在数据仓库内部，从功能上可以划分为ODS层，BDS层及GDS层三个逻辑层次。ODS（Operational Data Storage）层即为贴源层，用于存放从业务系统直接抽取出来的数据，这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。BDS（Base Data Storage）层全称为基础数据层，主要加工任务为在数据库按照对象的需求建模成功之后，对ODS层的数据进行加工和整理。GDS（General Data Storage）即公共数据层，主要目的是为了满足上层应用加工的需求，对BDS层中的数据按照主题或需求进一步进行加工整合，完成轻度数据汇总或宽表加工等任务。

四、集群部署方案

该集群环境支撑不同业务系统，由于两个环境存在数据传输，从应用及管理便捷等方面评估，将采用虚拟集群技术进行部署。集群采用联邦架构，支持虚拟集群技术。结合项目需求与集群功能特点，将采用3节点部署GCluster、GCware与GNode服务作为虚拟集群支撑一类业务，其余13节点部署GNode服务作为虚拟集群B支撑其他业务。

五、系统建设关键过程

1、数据库的兼容性

原来部署于国外产品之上的数据与任务迁移至国产数据库的兼容性：

▶表、视图结构迁移：

● 语法兼容：一般符合SQL标准的数据库，90%以上可以语法兼容，差异点修改简单可批量替换。

● 原厂MTK迁移工具：实现表结构迁移。

● 数据迁移过程中考虑的问题：

① 数据分布键：在分布键的选取上原则是一致的，一般延用源表上的分布健。

② 压缩策略：数据库可以指定每个表的压缩算法。

▶数据迁移：

● 全表数据或部分快速导出导入。

▶业务逻辑迁移：存储过程、函数、脚本等迁移

● 对于具体数据库提供原厂的迁移脚本工具，如TD、Netezza等；

● 持ODBC、JDBC等通用数据库接口；

● 支持UDF自定义函数和存储过程，支持多种编程接口；

● 可以用SQL、Java、Python、C、R等语言进行应用开发。

▶第三方工具对接

● BI工具：MSTR、Cognos、R3 Query、SAS、SPSS等；

● ETL工具：Datastage、Kettle、Informatica等；

● 中间件：WebSphere、Tuexdo、Hibernate、Weblogic、Tomcat等。

2、新系统架构重构

修改原系统的设计，包括数据分布及任务重组，以适应新的系统架构，特别是国产数据库的架构特点。

GBase 8a MPP为大规模分布式并行集群系统，采用基于列存储的完全并行的MPP + Shared Nothing的分布式联邦架构，采用多活Coordinator 节点、数据节点的两级部署架构，可以扩展至上千节点，满足业务规模增长的要求。

业务数据要重新规划，分组、分片；任务要重新整合划分；满足计算效率、更好的横向扩展、高可用、双活集群增量数据同步的要求。

3、新系统业务验证

新系统运行结果需要进行数据稽核业务验证：数据稽核包括原始数据稽核、加工处理过程间数据稽核，以及应用访问类数据稽核。

数据进行稽核时可采用先总后分的原则：

▶总量稽核：对数据的总量进行验证，总量指标包括：总记录数，度量指标的总值、均值、最大值、最小值等。

▶分量稽核：在总量正确的前提下，对每个维度上的数据分布情况进行查询。

▶全面核查：对于数量大难以校对的场景，如加工处理生成的中间及最终数据集，可将现行系统以及新建系统上处理的结果直接入库进行完整比对，利用查询语句直接对比数据集间的差异。

4、新旧系统的增量数据同步

ETL前端每日增量数据被分为I（Insert型、update后值）和D（delete或update前值）两种类型数数据，经过ETL过程分别将两类数据加载至sdata层stg和delstg表中，再通过ETL程序进行与odata层数据的增量合并。

5、双轨运行转单轨运行的计划及步骤

系统在整个切换过程中，安全、平稳过渡是第一位的，需要完成切换前置工作、切换方式及切换时间点的确定。

▶前置工作

主要包括：

● 完成一个业务周期内业务运行；

● 对外接口报送及接收接口、上层应用调用接口运行正常，与系统上下游环境对接调用无误；

● 与现行系统数据完全一致，增量数据正常同步；

● 完成数据稽核及性能优化。

▶切换方式

对于双轨并行时一般都采用旧系统为主，新系统为辅，在时机成熟的时候在切换到新系统运行。

▶切换点的选择

一般情况下，可以选择一个业务周期结束，下一个业务周期开始的时候进行切换。

5、风险处理机制

在特殊情况下可能导致系统没有正常切换或者切换以后系统运行不稳定，在这种情况下，必须启动应急预案来解决，在数据库层面原库可继续进行数据同步及加工处理实现双轨，一旦出现紧急情况，整个系统切回原系统，数据访问切回原库。

6、新旧系统的整体性能比较

新系统上线后，要进行新旧系统的性能比较，进行性能调优以达到更高的性能表现。

性能优化是一个循序渐进的过程，各阶段涉及不同的内容，也有相应的侧重点，常规来讲应保证一定的顺序性，优化的原则应遵循从固化（规划阶段）到静态（设计阶段），再到动态（开发运维阶段）的优化原则。

1、固化（规划阶段）

该阶段主要涉及资源类因素，前期如存在不合理，则后续难以优化调整，基本只能保持现状，调整成本高，影响全局，包括网络环境、硬件配置、节点数量等

2、静态（设计阶段）

相对于固化难于调整的优化因素，该部分因素调整性相对要强，即调整成本和影响范围相对固化类因素要低，但应避免推迟到后期调整，以免产生更大的成本及影响。

● 应用建议：如适合应用处理的逻辑由应用处理，不建议交由数据库处理；数据库上应运行适合的场景，不合适的业务不迁或早迁出；

● 调度策略：如对核心业务的数据优先供数，通过血缘关系优化调度，设置合适的并发度提升处理效率；

● 加工策略：如尽量进行增量加工处理，避免每次全量加工增加处理负担和时间；

● 操作系统参数：如磁盘读取策略、网络及内核参数等；

● 数据库参数：如各Heap堆大小、算子Buffer大小、并发量等；

● 数据库模型：如表的分布策略、表的压缩算法等，由于数据库模型往往涉及多个应用场景，因此在调整分布策略后可能对部分场景造成影响。

3、动态（开发运维阶段）

该部分优化因素主要针对个别用例或小范围用例进行针对性调整，易于操作，调整成本和影响范围小。

● Sql改写：如调整表达式使得索引生效，调整表关联顺序等；

● 索引：如增加或者调整hash索引；

六、数据仓库关键技术介绍

1、高效透明压缩技术

高效透明压缩技术能够按照数据类型和数据分布规律自动选择最优压缩算法，尽可能减少数据所占的存储空间，降低查询的 I/O 消耗，提升查询性能。并设置了库级，表级，列级压缩选项，灵活平衡性能与压缩比的关系，而且压缩与解压缩过程对用户是透明的。

从 I/O 资源消耗节约的角度来看，对 I/O是主要瓶颈的分析系统而言，相较于传统的行式数据库，高效透明压缩技术可以带来约一个数量级的性能提升。

图 3-2自适应透明压缩示意图

1）压缩比可达到1:3至1:20甚至更优，远远高于行存储；

2）节省50%-90%的存储空间，大大降低数据处理能耗；

3）内置数十种不同等级的压缩算法。上图展示了一种对数值型数据的压缩算法；

4）压缩态下对I/O要求大大降低，数据加载和查询性能明显提升。

2、智能索引

智能索引是一种粗粒度索引，数据存储时每65536行数据打成一个DC包，每个数据包在加载数据时自动建立智能索引，包含过滤信息和统计信息，在数据查询时不需要解包就能得到统计值，可进一步降低I/O，对复杂查询的优化效果明显。如下图所示，左侧的“SmartIndex of Col 1”即在第一列数据上，以各数据包（DC）为单位建立的智能索引。

图 3-3智能索引示意图

1）表中的所有列自动建立，不需用户手工建立和维护；

2）索引本身占空间很少，扩展性很好，数据膨胀仅百分之一；

3）建立索引的速度快，后续的数据包建立索引的速度不会受到前面数据包的影响。

与传统数据库索引技术相比，智能索引建立在数据包上（粗粒度索引），并且每个字段均自动建有索引，而传统索引建立在每行数据上（细粒度索引），因此访问智能索引要比访问传统索引需要更少的I/O（几万分之一）。同时，智能索引所占空间大约是数据的百分之一，而传统数据库索引则要占到数据的20~ 50%。

3、并行技术

GBase 8a MPP Cluster 针对数据加载和数据查询实现了自动高效的并行处理技术，充分利用SMP多核CPU资源并行处理海量数据。

同时GBase 8a MPP Cluster 具有智能的算法适配功能。例如灵活的 Join 处理方式，支持 Hash Join、Nest-loop Join、Merge Join等。针对不同的数据分布及特征，会智能地选择不同算法进行处理。这也充分解决各种行业应用中 Join 操作，特别是 10 个以上的多表Join操作带来的性能压力。

GBase 8a MPP Cluster每个GNode节点都能够独立实现数据的计算和存储。集群接口驱动可以有效实现对上层应用请求的负载进行均衡（应用调用接口驱动的连接串中配置集群管理节点的多个IP，接口驱动的内部进行连接的负载均衡）。应用层请求响应节点完成SQL解析并生成执行计划，协调集群相关节点并发参与计算和处理，极大地提高了整个集群节点的并发度，充分发挥了集群性能。

4、高性能

GBase 8a MPP Cluster的列式存储和计算技术，通过针对列数据特点的高效透明压缩技术和智能索引，节省了近3个量级CPU和I/O资源消耗，分析查询性能比传统行式数据库高 50 到 1000 倍。同时，CPU 和 I/O 资源的大幅节约，也大幅提升了数据装载、数据导出、数据处理和备份恢复等操作的性能。

GBase 8a MPP Cluster的无共享 MPP 架构具有线性扩展能力，能支撑成百上千个节点规模的集群。非对称部署的集群节点上可以多线程并行地执行查询、数据装载、数据导出、数据处理和备份恢复等任务，节点越多，处理能力就越强，单个任务资源消耗和时间开销就越少。

5、备份和恢复

大数据不仅仅对数据处理和分析查询的性能带来挑战，对备份和恢复的要求也更高。因为数据量巨大，如果备份和恢复的速度跟不上，在意外、故障或灾难发生时，无法及时使数据库得到恢复，系统和业务的可用性就无法得到保障。

GBase 8a MPP Cluster提供全面的备份和恢复功能，包括：

1）全量备份和恢复；

2）增量备份和恢复：允许恢复到任意一个备份上。

6、OLAP函数

GBase 8a MPP Cluster 提供OLAP函数，用于支持复杂的分析操作，侧重于对决策人员和高层管理人员的决策支持。可根据分析人员的要求，快速灵活地进行大数据量的复杂查询处理，以便他们准确掌握企业的经营状况，了解被服务对象的需求，制定正确的方案。

7、大规模并行计算

GBase 8a MPP Cluster采用MPP技术，主要特点有：

1）分布式并行计划器，结合集群特征，对算子行进分布式处理，生成适合的分布式执行计划；

2）通过基于规则和基于代价的优化，保证执行计划的高效；

3）调度器采用异步IO等技术，确保调度的高效、可靠。

8、高可用能力

GBase 8a MPP Cluster通过冗余机制来保证集群的高可用特性：

1）可提供1个或2个副本数据冗余；

2）副本间数据自动同步；

3）复制引擎自动管理数据同步；

4）多分片机制降低节点故障的木桶效应；

5）节点发生故障时，系统自动切换至其它节点进行工作，保证业务连续性；

6）支持双活集群部署。

集群副本数和分片数可进行灵活配置，可配置副本分片到集群的任意一个节点上，可以根据配置在主机性能高和存储空间大的节点分配更多的主本和副本。

当节点出现异常时，可以将异常服务器的负载均匀分布在副本所在的几台正常的服务器上。这样就最大限度防止由于故障切换后木桶效应而引起的显著的性能抖动。

节点故障对应用透明，不会中断正在执行业务，一旦故障结点恢复正常，GBase 8a MPP Cluster会从其他节点上的数据恢复该节点数据，在完成更新后立即提供服务。

图 3-4数据分片和副本分片的灵活配置

9、高性能扩展能力

GBase 8a MPP Cluster能够通过增加服务器节点对系统的计算和存储能力进行扩容，且扩展过程可进行监控、暂停、恢复、取消等灵活的监控及管理；系统支持在线扩展，性能线性提升，无需中断当前系统的运行，且支持一次扩展多个节点；可支持实例级、库级、表级等多级别灵活扩展方式。

GBase 8a MPP Cluster具备高性能扩展能力：

1）在线动态扩展集群节点；

2）每个节点可以处理100TB有效数据，同时提供计算和存储能力；

3）执行调度节点和数据计算节点可以按需独立扩展。

图 3-5 GBase 8a MPP Cluster扩展技术示意图

上图中最后一个“执行调度节点”和“数据存储及计算节点”是在原有节点基础上新扩展的节点，可以扩展调度节点，也可以扩展存储和算子节点。因为GBase 8a MPP Cluster采用高性能单节点的MPP架构，因此进行集群扩展时，可以保证平滑扩展和性能的线性增长特性，如下图所示：

图 3-6 GBase 8a MPP Cluster高性能高扩展示意图

10、高性能数据加载能力

GBase 8a MPP Cluster数据加载功能实现了所有数据运算节点并行处理数据及复本转发技术，具备很高的加载性能：

1）在单台数据服务器的情况下，集群加载可以达到数据服务器硬件资源性能的上限；

2）随着数据服务器和集群节点数的增加，集群加载性能可以持续提升。

图 3-7 GBase8a MPP Cluster数据加载示意图

11、多租户能力

GBase 8a MPP Cluster可以通过虚拟集群技术实现租户间的物理或者逻辑隔离。

在虚拟集群内，通过资源管理和资源组灵活配置不同应用和用户的资源配额和查询优先级，同时在完善的权限授权管理机制下，使得不同的应用以及不同类型的任务可以同时运行在一个集群中，但它们相互之间又得到必要的隔离，就好象运行在透明的“沙箱”一样。

外部合作

中电金信作为应用开发商，充分利用GBase 8a和大数据平台，尤其是GBase 8a 的计算、存储和扩容能力，助力河北银行实现数据高度整合与数字化建设过程中的数据能力复用，并围绕夯平台、治数据、建服务、触场景四大方向，助力河北银行实现“湖仓一体”。

商业变化

新一代湖仓一体技术平台以南大通用GBase 8a分布式数据库为计算引擎，以数据湖为主存储，集“湖仓”优势，加工效率大幅提升，在充分利用行内现有资源的前提下，支持弹性资源扩展，湖仓交互方案经过反复论证实践，安全、高效、稳定。目前已完成原数据平台所有数据源入湖入仓，整体数据入仓平均时间相较缩短2.5小时，数据的准确性、完整性和时效性经过实践验证得到明显改善。为全行数据整合能力提升和数据体系标准重构提供了助力，真正实践了自主分析、敏捷用数的理念，达到了数据赋能业务的预期。

客安网