保险行业长期数据保存技术方案_第1页
保险行业长期数据保存技术方案_第2页
保险行业长期数据保存技术方案_第3页
保险行业长期数据保存技术方案_第4页
保险行业长期数据保存技术方案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

保险行业长期数据保存技术方案

数据作为保险企业最核心的资产需要长期有效的保存,保险行业集中交易等核心数据更需要得到长期的保存,以便后期审计和溯源。目前,各家保险行业的集中交易等核心数据主要保存在高端集中存储阵列,格式化数据存放于SAN存储,日志数据主要存放于NAS存储中,超过10年的日志数据归档于磁带或者磁盘中。随着数据量越来越大,非结构化数据呈现爆发式增长,现有技术方案和架构出现了一些痛点:非结构化数据存放于传统集中式存储会造成一部分性能的浪费;数据量爆发式增长后扩展困难;数据未分级管理容易造成数据混乱……针对以上痛点,保险企业需要尝试用新技术、新架构解决当前的问题。技术路线选型多样化:NAS文件、对象、分布式、光盘、磁盘等等多条路线,需要根据数据类型进行选择,以及在追求数据存储性价比的同时,保证数据的长久安全存储,能进行数据的分级管理,在线数据、近线数据、离线数据分开管理,能最大程度的发挥存储的性能。社区上个星期组织了线上交流,围绕“保险行业核心数据长期保存技术方案应该如何选择”,特别邀请保险行业专家和戴尔科技的专家和众多保险行业同行一同参与,本文是本次活动中大家分享的精华内容梳理总结,包括四个方面:保险行业分布式存储选型与容量规划、如何实现保险行业的数据长期保存,如何实现保险业务数据分级存储与灾备,以及活动达成的共识,希望给保险同行实现长期数据保存技术的过程带来帮助。通过本场交流活动达成了一些交流共识如下,仅供参考:1)

保险行业存储产品的选择要围绕业务需求来规划,从业务入手,综合考虑数据的类型、负载压力、数据量、对数据访问时延要求、成本等等综合考虑。2)长期保存的数据使用频率最多的那一少部分数据存储在高端集中式闪存阵列、本地NVMe磁盘等;中频访问的数据放到HDD存储或SSD+HDD混合存储上;低频离线数据放到磁盘、光盘或是磁带存储。3)

保险业务在线数据为高频访问,或者对数据的消费存在极短的响应时间要求的;近线可存在一定的时间容忍度,为非实时交易;离线数据访问频率极低,通常用于数据备份、或长期极低频访问场景,如备份数据。4)根据保险监管要求,重要客户数据都必须异地灾备,客户影像资料文件也属于需异地灾备数据。

一、保险行业分布式存储选型与容量规划

保险行业存储产品的选择要围绕业务需求来规划,从业务入手,综合考虑数据的类型、负载压力、数据量、对数据访问时延要求、成本等等综合考虑。

1、分布式存储建设中的问题,硬件兼容性,同一集群扩容中的硬件兼容性?【问题描述】分布式存储建设中的扩容遇到的问题:因为时间不同硬件设备发展的不同,因此扩容时就经常遇到原来的硬件已经升级了,而硬件升级后就有了对兼容性的要求,固件、操作系统版本、内核都有了区别,对于分布式存储的建设就带来了挑战,因此有没有什么好的办法或者厂商能解决这个实实在在存在的问题。同一分布式存储集群中能否兼容较新的硬件,对分布式存储运行稳定都是一个挑战,现实中已经遇到过类似问题。@zhangleo某大型保险集团高级工程师:1)现在分布式存储基本都支持不同配置的设备组成一个资源池;2)也是组建不同的硬件资源池进行统一命名。@bai030805戴尔科技

高级系统工程师:在对象存储方面,Dell的ECS产品的软件是可以兼容不同代的硬件的,可以允许不同代的硬件在一个存储池中。@asuro太平洋保险

系统架构师:硬件伴随着摩尔定律快速更新和迭代,将不同时期的硬件混建在一个资源池内会导致木桶效应,不能充分发挥新硬件的性能和特性,也会引发兼容性问题。所以,通常情况下会将不同的硬件组成不同SLA的资源池,按需进行分配和数据迁移。2、分布式存储、对象存储的容量管理?【问题描述】对于对象存储、分布式存储的容量,如果有效地管理容量、预估容量,多副本、纠删码等等细节的管理,以上相关的参考、规范及经验,以及相关指导。@qixiaoding戴尔科技

架构师:选好基础架构,一些技术限制无法避免,就要先有预期。比如,hadoop选了3副本,再通过应用做了容灾。实际至少要有6副本保证这个数据合规。但是,厂商的技术和开源的技术是不一样的,商业化产品有自己的纠删和副本选择,兼听则明。容量管理有几条水线,自己要提前设置好。我们通常建议将90%设为红色告警线,即容量严重不足,无法应对突发场景,必须马上扩容,这里说的是马上,而不是按传统的半年为周期的采购流程。还有,我们一般也不建议设置硬的容量使用限制,如果设置了,可能带来不必要的维护工作。3、对于分布式存储的选型,有什么标准、建议以及避坑经验分享?【问题描述】要进行分布式存储的选型,在项目初始界面,有什么标准、建议以及避坑经验分享?@amanyzes系统架构师:存储产品的选择还是要围绕业务需求来规划,从业务入手,综合考虑数据的类型,对数据访问时延要求、成本等等综合考虑。@dwy华通

产品总监:主要考虑数据类型,负载压力,数据量等因素。4、对于非机构化数据,如何能有效并安全的从文件存储迁移至对象存储以及迁移至对象存储后如何做目录分级?【问题描述】目前已大量的非结构化数据存放于NAS存储,想迁移至对象,如何能安全迁移至对象存储,以及如何去验证这个迁移的数据是否准确以及完整,以及如何在对象里面做目录分级。@richardhandr戴尔科技

系统工程师:可以通过专业的服务实现NAS到对象存储的迁移。@asuro太平洋保险

系统架构师:这个问题取决于以下两点:1)从文件存储迁移至NAS存储,通常依赖于对象存储厂商提供的解决方案实现。2)对于迁移至对象存储后做目录分级管理,更多的依赖于应用的实现和数据消费方式。5、关于对象存储的相关问题?【问题描述】随着对象存储的应用场景的增多,有关它的问题也随之而来,总体上说有如下几个:1)对象存储的升级:对象存储厂商基本上也是一季度一升级,基本都是采用在环境上直升的方式,即使是在测试环境上进行了相关的升级测试,但是在生产环境上的升级也有这么多意想不到的问题,现实中经常遇到,遇到问题后厂商现场人员基本无解决能力,只能是远程联系研发解决,对生产使用会有很多影响。因此有没有什么好的方法、场景、案例应对升级带来的隐患,这问题估计大多数用户一定会遇到。2)分布式存储的跨机房部署、远程复制:跨机房部署后,交换机的二层连接到底对分布式存储的一致性和运行有无影响,厂商基本上是说没有问题,可以对于网络来说,跨机房后网络的不同,对于依赖tcp传输的分布式存储的影响,在现实中就遇到过。分布式存储如何跨机房部署

,分布式存储能否实现远程复制以支持灾备,都是是生产过程中急需要有明确答案的问题。@asuro太平洋保险

系统架构师:对于第一点,通常是建设开发测试、生产、灾备等多个同技术栈的资源池,拉开开发测试、灾备、生产环境的版本升级工作周期,先在开发测试、压测环境进行升级及压测,验证一段时间后,再升级生产环境。对于第二点,目前分布式存储的可靠性和特性的丰富度来讲,的确和传统的集中式存储存在差距。具体的存储方案如何满足业务需求,还是要结合业务特性要求来进行设计。举例来讲,数据复制是否仍然需要通过存储复制完成,是否有其他实现手段来提升业务连续性,降低对存储的依赖。二、如何实现保险行业的数据长期保存

保险行业长期保存的数据更多的依赖于业务诉求和监管诉求,其中监管在金融领域有更强的要求。理论上来讲,对于长期保存的数据也有考虑数据恢复的环境留存的问题,需要将数据真正可恢复的环境同步留存。

1、数据长期保存方案中,如何看待IT设备生命周期因素的影响?【问题描述】制定数据长期保存方案,除了要考虑容量扩展外,还要考虑到IT设备的生命周期,那么老旧的IT设备的替换方案是怎样的?怎么保证方案中新旧IT设备之间的兼容性?@asuro太平洋保险

系统架构师:任何介质和技术都有其生命周期,所以在数据长期保存场景,不是数据一次性备份完成后就不再关注了,需要制定计划,按照既定频率将长期保存的数据转储到新的介质中保存。@bai030805戴尔科技

高级系统工程师:设备的更新换代是难以避免的,在进行架构设计的时候,尽量在进行设备选型时考虑,设备本身具有在线软件硬件更新功能。此外,可以系统架构层面,有的客户会设计一个中间件平台,这个平台会屏蔽底层各类存储技术的接口差异,从而简化上层应用的对接各种存储技术的复杂度,同时该平台还具备在线数据迁移的功能,从而降低新旧存储技术更新对业务的影响。@richardhandr戴尔科技

系统工程师:我们的对象存储ECS在同一个存储池中可以跨代共存,这样数据就可以在新旧设备间在线迁移了。2、如果后续产品和架构改造升级,长期保存的数据如何处理?@asuro太平洋保险

系统架构师:长期保存的数据更多的依赖于业务诉求和监管诉求,其中监管在金融领域有更强类的要求。理论上来讲,对于长期保存的数据也有考虑数据恢复的环境留存的问题,需要将数据真正可恢复的环境同步留存。@annoymous:平稳运行十年以上的系统在各数据中心应该不会超过30%,大部分系统都得作升级改造,包括架构的优化,或者新建类似系统,现有系统停用,如果老i系统的长期保存数据不作调整,随着运维人员调整,交接的不全面,过不了几年,新的运维人员可能就不知道怎么回事了,因此,个人觉得,如果能对历史数据调整,适应新环境调用是最好,至少大家还熟悉,但涉及历史数据迁移这个工作量确实又不少,一般建议开发人员编写数据迁移工具,对数据进行调整,个人意见请参考@qixiaoding戴尔科技

架构师:如果不能下线,尝试虚拟化。如果能下线,尽早迁移,尽快备份。@richardhandr戴尔科技

系统工程师:数据放在对象存储上的话,对外的接口是一致的。如果是对象存储本身的升级,大多具有软件定义特性,数据可以在线从过保硬件迁移至新硬件,对外访问接口保持一致。3、保险行业的影像文件长期保存能否给一些建议解决方案?@asuro太平洋保险

系统架构师:可以考虑用对象存储保存,其中需要长期留存且低频访问的数据,可以采用分级归档的方式转储到低成本存储上。@qixiaoding戴尔科技

架构师:看一下数据量,如果数据量就几个TB,用传统存储就行。如果数据量很大,又有云访问,用对象存储。如果只是局域网访问,用分布式NAS。@richardhandr戴尔科技

系统工程师:影像通常用对象存储。4、长期保存的数据使用何种存储架构才能实现快、好、省的效果?@richardhandr戴尔科技

系统工程师:如果要快,需要借助于一些SSD介质加速技术,去重技术;如果要省,需要借助一些大容量磁盘技术,纠删码等提高容量利用率的技术,如果要好,需要这些技术进行融合。目前从我们的视角看,PowerProtectDD+ECS的方案对于长期数据保存而言还是不错的架构。@bai030805戴尔科技

高级系统工程师:如果有条件的话,可以根据数据的特点进一步的细分,将可压缩、可消重的数据采用具备消重、压缩特点的存储来进行保存,从而进一步优化整体的存储效率。@nkj2021金融行业

系统架构师:长期保存的数据使用频率最多的那一少部分数据存储在高端集中式闪存阵列、本地NVMe磁盘等;中频访问的数据放到HDD存储或SSD+HDD混合存储上;低频离线数据放到磁盘、光盘或是磁带存储。5、如何保证长期保存数据的有效性?【问题描述】长期保存数据,意味着数年前的数据。由于数据不断的增加,数据量会变得很庞大。请问有什么便捷手段可以对海量的长期保存数据进行校验或者验证?谢谢!@bai030805戴尔科技

高级系统工程师:主流的对象存储都可以在数据写入时,计算并保存数据的校验值,并在后台周期性的进行数据校验,当检测到数据出现问题时,通过纠删码技术进行数据重建,从而保证长期保存下,数据一定是完整的。@asuro太平洋保险

系统架构师:这点目前没有太好的解决方案,多数的校验手段只能针对数据存储本身,但是对于数据的业务有效性更多的还是要依赖于业务应用的实现来校验。@annoymous:对象存储有多站地复制技术,生产站地写入后,同步到灾备站地,灾备站地可以配置应用验证数据的有效性6、长期保存数据如何规划备份?@潘延晟

系统工程师:如果数据有需要持久保存的需要。一般可以这样来构建:1)通过备份一体机做近线备份,保存最近几个月的数据,数据的备份和恢复速度都比较快。2)通过D2D2T一类的功能把备份一体机的数据再归档到磁带库或者光盘库上来实现长久的海量归档保存。海量持久的数据保存上。磁带还是性价比比较高的选择。只不过磁带的备份速度受驱动器限制。要多线程的话就要有多个驱动器,所以用备份一体机来弥补近线数据速度上的不足。@asuro太平洋保险

系统架构师:1)建立分级备份归档体系:D2D2T,甚至到蓝光等介质2)建立定期转储策略,包括在线近线离线的转储策略,包括备份介质的定期复制策略3)建立数据过期机制@duansq某寿险

技术经理:若类似影像文件等基本不作修改,仅仅是增加,且基于NAS或SAN存储数据,长期保存的数据也可以从业务角度或时间维度进行拆分存储,每年挂载一个文件系统,新增文件系统仅仅保存当年数据,且可以按照日期进行备份;历史数据每年底做一次全备份,基本能保持两份以上的完整数据,确保不丢失数据@戴尔科技wanggy高级系统工程师:1)数据治理:将数据进行分类,尽量做到细粒度,实现分类保存。能在应用上分开是最合理的方式。2)数据生命周期规划:按照金融业的监管指引要求,将内部数据进行完成的数据保存规划,制定保存策略,剔除大量冗余数据。3)保存介质规划:长期保存的数据通常按照副本数量进行管理。可按照容量、服务水平、性能、成本进行综合评估,选择相应的介质。但多数环境仍然使用备份系统进行归档长期保存,建议使用DD去重技术加上对象存储技术,实现去重写入对象存储,提高可管理性和经济性。7、PowerProtectDD方案如何满足数据长期保存需求?【问题描述】数据的长期保存除了扩展性以外,不可避免的需要考虑软硬件的生命周期。在PowerProtectDD方案中,软硬件生命周期是怎样的?当数据留存期限超过现有软硬件生命周期后,方案如何考虑?软硬件的维保,设备留存会是一个不得不面对的问题?如果新旧设备替换,那么设备兼容性呢?数据流动便捷性呢?@wanggy戴尔科技

系统工程师:PowerProtectDD的技术方案中,数据保存期限超过期限之后也是不可避免的要进行软件和硬件的升级换代,主要有以下几种方式:1)DD设备支持更换引擎操作,可以保持原有磁盘设备,直接更换处理引擎完成引擎的升级,实现硬件的升级换代。2)DD支持的CloudTier功能支持将数据去重迁移到对象存储,利用对象存储的无缝升级功能,实现硬件的升级换代3)DD设备微码的兼容性一般都在上下3个大版本之间提供复制功能,由于采用了去重技术,复制的数据量可以做到最低,实现快速的数据跨设备的迁移。DD提供了整机复制、存储单元复制、目录复制、文件复制等多个级别,实现按照需要的数据迁移。4)DD提供了纯软件版本DDVE,支持部署在本地私有云或者公有云上,实现纯软件的方案,更加增强了部署的灵活性,使用标准硬件,可根据实际容量和性能需要进行定制化部署。因此,针对备份数据的长期保存,由于DD具备良好的去重性能和并发作业数量,使得长期数据保存的成本得到了大大的降低。三、如何实现保险业务数据分级存储与灾备保险业务在线数据为高频访问,或者对数据的消费存在极短的响应时间要求的;近线可存在一定的时间容忍度,为非实时交易;离线数据访问频率极低,通常用于数据备份、或长期极低频访问场景,如备份数据。

1、在线数据、近线数据、离线数据有哪些不同的数据特征?数据划分的规则有哪些可以参考?@qixiaoding戴尔科技

架构师:从另一个角度,存储设备的视角解释一下这几个词:保险大部分数据都是在线数据,例如影像数据,十年前客户影像资料可能随时被调用。近线,原来是说磁带备份系统里面的备份数据可以无缝地被恢复使用。因为原来的数据存储太贵,存储不够用了,就放在磁带里面降低成本。现在很少看到这个词了。离线,归档的数据,归档后,系统里没有这部分数据,只存储于归档的介质里面了。外置存储普及、容量提升、价格下降后,在存储领域,近线这个词基本上被热温冷取代了。离线也很少被提到了,尤其是大数据兴起、发现数据价值后,数据基本上会一直保存在系统里,或者是换一个便宜的设备,连着电,不会再用磁带保存然后删掉了。@asuro太平洋保险

系统架构师:通常情况下,在线数据为高频访问,或者对数据的消费存在极短的响应时间要求,比如银证交易;近线可存在一定的时间容忍度,为非实时交易,比如报表类业务;离线数据访问频率极低,通常用于数据备份、或长期极低频访问场景,如备份数据。2、保险行业的互联网渠道业务数据存储有哪些建议解决方案?【问题描述】保险行业的互联网渠道业务的数据有如下特点:1.小文件多2.一定时间内突发

3.如果前台理赔效率跟进不及时的话,面临着回查的时间比较久的问题,请问对于这类型数据存储有哪些建议解决方案?@asuro太平洋保险

系统架构师:可以考虑采用分布式对象存储作为后端支持,针对回查时间久的问题,需要具体分析其潜在瓶颈,有针对性的做方案设计。@qixiaoding戴尔科技

架构师:互联网渠道也不是实时的,最多能够做到准实时。自动化或AI的引入能够改善理赔效率,人工核保能否被取代是个问号,或者说是理想的未来。有人,就有效率问题,目前看新技术只是用来降低工作量,辅助决策。数据的存储与数据的处理,最好是在一起,不要远程调用。理赔需要的数据保存在云端吗?这个问题的回答需要考虑监管,也需要考虑技术。互联网业务的入口可能在云端,实际数据的处理逻辑发生在本地,数据也存储在本地,这是通常的做法。只要不在云端,就需要考虑与现有的IT架构的整合。刚刚进入系统需要处理的数据就是热数据,需要对应热数据的架构。案件了结,就变成温数据。案件过期,就变成冷数据。热数据:快、稳定,最好架构也简单。3、保险行业中文件如何分类、分级存储,对应的存储容量如何规划?【问题描述】保险行业中有结构化数据(核心数据、过程数据)、非结构化数据(双录、影像、共享文件),不同的文件有不同的存储年限要求,针对数据文件如何进行高性价比的分类、分级存储方案?同时各存储容量系统如何进行有效的容量规划?@asuro太平洋保险

系统架构师:这个问题本质上是一个综合性IT资源管理问题,通常的考虑是:1)从数据管理层面,形成数据管理机制。根据数据访问的特征,数据访问的频率,实时性的要求(比如:跑批报表类,实时交易类,非实时查询类等等),综合评估进行数据冷热分层定义。在业务开发时就要形成数据分区分表归档机制,形成数据分层。2)从存储成本优化方面,配套不同成本、性能、容量的介质。举例来讲:高频访问高时效性要求的数据通常用高速介质提供,比如:高端集中式闪存阵列、本地NVMe磁盘等;中频访问的数据放到HDD存储或SSD+HDD混合存储上;低频离线数据放到磁盘、光盘中。@qixiaoding戴尔科技

架构师:由于保险公司业务数据的存储和使用特点,想要删除部分数据非常难实现,也就意味着所有的数据基本上都是长期保存。结构化数据,建议在应用层上考虑数据分层的实现。其实,这件事情完全可以通过硬件的升级来解决,比如更快更强的硬件资源,主要是因为大部分保险公司的核心结构化数据并不多。应用的做与不做,要平衡未来支出的成本和现在更改的成本和急迫性。非结构化数据,要平衡应用现在和应用未来。举例,如果大量新数据由新应用产生,新应用又采用云原生,对应存储的最佳选型就是要具备S3能力。搭建资源池时,就要有S3的池。新老数据共存,就会要求资源池具备NFS、CIFS和S3的能力。建议由资源池提供数据分层能力,对应用透明,应用不用去区分考虑数据的冷热,直接用就行,这样在不变动应用的情况下可以满足保险公司对非结构化数据的使用要求——所有数据随时可以被调用。4、非结构化文件如何进行灾备?【问题描述】根据保险监管要求,重要客户数据都必须异地灾备,客户影像资料文件也属于需异地灾备数据,随着业务处理从线下转向线上,客户手机上照相机像素倍增,产生影像文件大小也逐年增长,如何在有效带宽上提升影像文件传输效率,降低数据传输成本,是否有较成熟解决方案?@asuro太平洋保险

系统架构师:如果可以采用公有云,可以利用公有云的带宽进行数据的收集留存和异地容灾。如果不能采用公有云,则需要考虑数据中心链路传输过程中的压缩实现,可以是应用做数据打包归档传输,也可以考虑通过其他数据压缩传输类硬件满足需求。@annoymo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论