资管产品大数据统计工具研究——基于宁波银行大数据应用体系的探索
资管产品大数据统计工具研究
——基于宁波银行大数据应用体系的探索
宁波银行课题组 林莹 朱晶怡
摘要
近年来,资管业务发展迅猛,对金融统计提出了更高的要求,同时商业银行也纷纷寻求数字化业务转型。本文以此为背景,在宁波银行大数据应用体系的基础上,研究如何借助新的金融科技工具,构建资管产品大数据统计分析工具,以实现资管产品统计的统一标准、多维校验、灵活查询、汇总共享,为加强宏观审慎,防范金融风险提供有力的技术支持。
一、研究背景及意义
(一)资管产品统计任重道远
资管业务是指金融机构接受投资者委托,对受托的投资者财产进行投资和管理的金融服务。自2002年9月我国第一款理财产品诞生以来,受益于经济改革的持续推进和居民财富的逐步积累,资管业务迈入了蓬勃发展的快车道。2012年全行业规模为28万亿元上下,到2017年末已经增长至123万亿元左右,2018年末基本持平。资管产品的快速发展,在一定程度上顺应了社会投融资多元化的需求,但是其结构复杂、多层嵌套,风险隐蔽性大,产品关联、杠杆叠加,风险传染性强,并且已全面覆盖银行、证券、保险等金融行业,很可能成为当前金融风险的“放大器”。
加强宏观审慎,防范金融风险,维护金融稳定是中央银行的重要职责,而金融统计是防范金融风险、维护金融稳定的重要基础。2018年3月,为全面贯彻党的十九大精神,国务院公厅发布了《关于全面推进金融业综合统计工作的意见》(以下简称《意见》),《意见》指出,基于宏观审慎的资管产品统计是金融业综合统计的主要推进领域。同年4月,中国人民银行、中国银行保险监督管理委员会、中国证券监督管理委员会、国家外汇管理局日前联合印发《关于规范金融机构资产管理业务的指导意见》,标志着资管行业将全面整顿、回归本质。
在此背景下,金融业资产管理产品统计任重道远,旨在实现对银行、证券、保险业资产管理产品的全面有效监测,反映交叉性金融产品的关联性,发现金融风险的传染性,实现资金链条的穿透性,为识别和防范系统性金融风险提供完整、坚实、可靠的数据基础。
(二)应用大数据技术是资管产品统计的大势所趋
大数据时代加速了金融业的发展,商业银行等金融机构纷纷布局大数据战略,而新的金融机构、金融创新产品的不断涌现,对金融资管产品统计分析的时效性和交互性提出了更高要求。2018年中国人民银行科技工作会议指出,应积极推进金融科技关键领域研究与监管科技实践探索。应用大数据技术是资管产品统计探索的重要方向。
大数据技术基于开源的分布式数据平台,可以处理一般数据库难以储存、管理和分析的大容量数据,其核心在于对多类型、海量数据的分析处理能力,从中挖掘出有价值的信息。“大数据”的内涵可以用大数据的4V(Volume、Velocity 、Variety、Value)特点来描述:一是Volume(规模性),即数据规模大;二是variety(多样性),即数据维度多;三是Velocity(高速性),即数据处理速度快;四是value(价值性),即数据真实性和价值性高。
对照大数据工具的四个特征,传统的统计分析工具具有以下弊端:一是在数据规模方面,传统的封闭式数据仓受制于服务器,数据承载量的可扩展性极低,且扩容成本高昂;二是在数据多样性方面,传统的关系型数据库无法处理半结构化或无结构化数据,数据处理的范围受限;三是在处理速度方面,随着数据量增加,数据仓的加载速度会越来越缓慢,如要新设统计维度,更是需要通过专业人员对数据模型进行复杂的维护,限制了分析的灵活性和时效性;四是在数据价值方面,传统的数据管理系统虽然可以实现数据的存储和查询,但是无法将所存储的数据有机整合,无法进行深度的发掘和分析,只能进行简单的运算,所获得的结果已经远远不能满足监管复杂的统计分析的需求。
综上所述,传统的封闭式数仓平台向开源的分布式数据平台的变迁已经不可逆,随着资管业务的扩张,基于后者的大数据统计工具的普及是大势所趋。资管产品大数据统计工具的应用,将有助于提高金融资管产品统计分析的时效性和交互性,为防范金融风险、维护金融稳定提供有力的技术支持。
二、资管产品大数据统计工具设计
我行自2016年就开始自主研发打造大数据平台,在数据治理的实践中取得了显著的成效。本文借鉴了我行现有大数据应用体系,结合最新技术发展理念,对资管产品大数据统计工具的建设提出设想。
资管产品大数据统计工具是一款基于分布式数据库的大数据分析引擎,其核心亮点在于可以提高对海量数据的实时查询性能,并在此基础上进一步实现数据的统一标准、多维校验、灵活查询、汇总共享等,从而提高统计分析的效率。与传统统计工具相比,该工具具有成本低、扩展性较好、可靠性高、分析灵活等特点(对比见图1)。
图1 传统统计工具与大数据统计工具比较
(一)系统架构设计
系统的架构从整体上分为三个层次:源数据层、大数据平台层、分析应用层。其体系结构如图2所示。
图2 大数据统计工具架构
源数据层:源数据层可由多个数据库构成,是资管业务相关数据的集合,包括内部报送数据、外部关联数据等。借助大数据技术,源数据层能够实现对包括数据库数据源、文本数据源、程序数据源等各类数据源的统一配置和管理,通过集中处理之后统一存入到大数据平台,从而构成数据快速分析和管理的基础。
大数据平台层:通过数据ETL(Extract-Transfer-Load, 提取、转换和加载)功能,源数据层的数据被统一加载到大数据平台层。大数据平台层基于分布式数据库技术,支持海量数据的持久存储和灵活管理。该层主要包括两个系统:一是大数据平台,用来存储数据,并通过流计算技术处理数据,是统计分析的基础和关键性构件。二是标签系统,用来管理数据。标签系统是本工具的一个重要创新点,系统能对大数据平台层数据的每一个信息维度都打上相应的“数据标签”,如基础统计指标编号标签、行业分类标签等,并且每个数据标签都有具体定义或口径。在完成上述数据加工后,大数据平台层继续将处理好的数据实时供应到分析应用层。
分析应用层:该层主要包括数据查询构件、标签构件、报表构件、数据分析构件、数据展示构件和数据共享构件等, 可向用户提供数据百度、标签设置、自助报表、数据分析、可视化展示、图表共享等功能。基于分析应用层,利用前端工具, 数据分析人员能够轻松进行各类统计指标查询以及各类报表的定制、生成、发布、共享等工作。
(二)系统功能设计
系统的功能主要包括四个方面:无限量数据存储、全方位数据校验、标准化数据管理、多元化统计应用。
1.无限量数据存储
一是数据存储扩容强。在数据存储方面,相比于传统的数据仓技术,运用分布式架构的大数据平台具有更好的可扩展性,集群数据容量和计算能力可以轻松扩展至上千个节点,面对资管产品的快速发展以及跨市场、跨机构相互交叉带来的数据爆发式增长,用户不用再担心数据量增长而带来的性能与扩展问题。
二是数据整合无边界。近几年资管产品发展已经全面覆盖银行、证券、保险等金融行业,为了进行跨行业、跨市场的资管产品信息汇总和关联分析,实现对整个资管行业的全面有效监测,数据整合是其中的必要环节。大数据统计工具支持跨库跨表数据整合, 源数据可以来自多个数据库,并通过大数据平台统一管理,方便用户灵活查询、即时分析。
2.全方位数据校验
一是数据校验全景式。大数据统计工具通过综合采集互联网数据、专网数据等各类渠道信息,可以对报送数据进行全景式的数据校验。例如,可外接“企查查”、“天王星”等外部企业信息查询平台,自动抓取企业工商信息、股东信息、年报信息等,与金融机构报送的明细数据中的企业规模和分类等进行自动关联和校验,检验数据的准确性;又如,可外接中国理财网、Wind资讯等资管产品信息相关网站,获得资管业务相关信息,检验数据的真实性,从而形成数据交叉校验的全景信息视图,消除数据校验中的信息不对称,为全方位数据校验提供信息支撑。
二是数据校验智能化。大数据统计工具通过关联分析、模型挖掘等技术,能根据指标校验逻辑库自动建立数据校验模型,用户可以通过模型测试和优化得到完善的校验工具,用它进行当期数据的逻辑校验和对比历史数据的软校验。大数据统计工具还能根据校验结果自动生成错误分析报告,以便于用户快速定位错误原因,及时修正错误数据,保证数据的准确性。
3.标准化数据管理
一是统计标准可查询。“数据标签”是标签系统的基础数据组件,标签系统的标准化是资管产品统计标准化的基础。落地标签系统标准化,首先是要使用各类“统计标准”对所有标签进行规范定义。例如对“行业分类”标签,按照《国民经济行业分类》(GB/T 4754-2017)的相关标准执行定义,对“企业规模”标签,按照《中小企业划型标准规定》(工信部联企业[2011]300号文印发)或《金融业企业划型标准规定》(银发[2015]309号文印发)执行定义。在大数据统计工具中,统计标准和数据标签可通过“数据百度”搜索引擎进行查询(功能示意图见图3),在“数据百度”中输入需要查询的统计标准或数据标签,用户可以清楚地了解它们的含义、口径和用法。标签系统标准化的建设以及“数据百度”功能的完善,保障了统计口径的统一、准确,同时满足包括固定报表、明细数据、可视化分析、数据挖掘等日常用数的所有需求,为统计数据质量的提升打下了坚实的基础。
数据百度
图3 数据百度示意图
二是数据标签可配置。上文在介绍“标签系统”时已大致提到,“标签”的作用是对数据的各种信息维度进行标注。举例来看,如果统计分析人员需要分析“资管产品在6月末投资的大型制造业企业债券在所有企业债券的占比”(以下简称“占比”),传统的数据提取流程:数据需求àSQLàEXCEL,或数据需求à历史报表à EXCEL手工处理,响应速度为天级。而借助大数据工具的标签系统,首先,使用基础标签“企业规模分类-大型”、“行业分类-制造业”,配置得到“大型制造业企业”标签,再通过机构、日期、币种、业务种类的选择,即可得到分析结果。数据提取流程:数据需求à标签配置à数据清单,响应速度为秒级。通过统一的标签系统的建设,用户形成“了解标准、使用标签、自助分析”的自主探索模式,无需通过科技人员即可在线进行业务数据的提取与分析,实现毫秒级返回任意组合查询,大大提高了统计分析的时效性和结果精准度。
4.多元化统计应用
一是统计报表自定义。在标签系统的基础上,大数据统计工具可以实现报表的自定义制作。自定义报表的制作通过“自助报表”功能实现。例如制作上文举例中的“占比”报表。传统的报表开发流程:报表需求à科技开发à测试上线,需要历时几个月才能完成。而使用自助报表功能,用户在完成配置“大型制造业企业”、“所有企业”这两个标签后,只需要在“自助报表”功能界面拖拽这两个标签到指定位置,并选择机构、日期、币种、业务种类等信息,即可得到所需数据,最后编辑表格样式,即可生成自定义报表。报表制作流程:报表需求à自助报表编辑à自助报表生成,仅需几分钟就可完成原来需要几个月的流程,而且后续维护简便,格式调整灵活,大大提升了统计分析的灵活性。
二是多维分析更强大。基于大数据平台和标签系统对明细级数据的统一存储和管理,大数据统计工具可以通过明细钻取、标签匹配、横向对比、筛选排序、透视汇总等方法,对数据进行更多维度的灵活透视。例如在“占比”分析中,运用大数据工具,不仅可以迅速查询到“占比”,还可以进一步查询到“大型制造业企业债券投资余额按地区分布情况”、“各地区余额较上期变化”、“变化较大的地区具体涉及的债券发行企业”等,轻松实现统计分析的精细化。
三是分析结果可视化。大数据统计工具通过结合可视化工具,建立可视化分析场景。可视化场景通过“监管驾驶舱”功能实现。在自定义报表生成后,用户可使用“监管驾驶舱”快捷生成“指标仪表盘”,用简洁的图表清晰展示数据价值。例如前文案例中的“占比”分析,在完成自定义报表制作后,点击“监管驾驶舱”——“指标仪表盘生成”,选择图表样式为“饼状图”,即可得到图像化的大型制造业企业债券占比分析,统计结果一目了然。如果有多项数据关联分析,还可以进一步将多个数据分析结果进行拼装,在“监管驾驶舱”——“驾驶舱样式”界面选择需要的数据呈现样式,快捷制作多维分析的图像化统计分析报告。
四是定制图表可共享。通过统一的用户管理系统,建立一套类似于微信的系统内用户对话和信息共享机制,通过定向发送、朋友圈发布等功能,某个用户制作的自定义报表或图表可以共享给系统中的其他用户。其他用户通过保存该图表样式,可以进一步优化调整图表,得到新的自定义报表。如上述的“占比”表格和饼状图生成后,通过图表共享功能,被共享的用户可以在各自的系统中使用该报表,如果把时间更换为5月,即可得到5月该统计项目的结果,如果在该表的基础上需要新增指标,通过自助编辑表样即可。该功能不仅能减少重复拖拽的人力消耗,还能便捷地优化报表,提升分析质量。当然,在实现便捷共享的同时,本工具也充分考虑到数据安全性问题,通过配置用户管理系统的敏感信息控制功能,可在系统层面充分保障信息的安全。
三、资管产品大数据统计工具应用实例
金融业资管产品统计制度包括产品基本信息、产品募集、资产负债、资产证券化及收益权转让基础资产、除回购和拆借外贷款明细、特定目的载体交易对手明细、产品终止信息这七个模块,支持从资管产品规模、资管产品关联性、进入实体经济的资管资金总量和结构、进入金融市场的资管资金总量及来源、资管产品杠杆率、资管产品收益率、资管产品期限结构这七个方面对资管产品进行监测分析。因此资管产品大数据统计工具的基础分析模块也可以按照以上七个方面设立。
结合本文第二部分所述资管产品大数据统计工具的“数据存储、数据校验、数据管理、统计应用”这四大功能中的“数据管理”和“统计应用”功能(前两种功能较为基础,已在前文详述,此处不再举例),本文以资管监测的其中两大模块:资管产品规模、资管产品关联性为例,介绍资管产品大数据统计工具的使用。同时,为便于分析比较,本文的案例对于同一分析需求,同时列举手工汇总、传统工具(固定报表、多维分析)、大数据工具三种分析途径,以增强读者对大数据工具的理解。
(一)案例1:资管产品规模分析
资管产品规模旨在统计全部及各类别资管产品资产负债的总量,以及剔除交叉持有后的规模,用于评估资管产品对货币供应量、贷款、社会融资规模等重要总量指标的影响,提高宏观调控政策的有效性。本案例中,产品规模下设两个指标:合并资管产品总规模、各类资管产品规模占比,其中合并资管产品规模是指剔除金融系统内部的关联交易后得到无重复统计的资管产品总规模,各类资管产品占比用于分析监测各类型资管产品的总体规模分布,该指标包含了资管产品相互交易金额。
1.手工汇总
人民银行下发资管产品规模调研通知,各金融机构填写相关数据并发送给当地人民银行,各级人民银行将数据检查核对后,将数据汇总成全市、全省、全国的数据进行分析。
2.传统工具
步骤一:使用多维报表系统汇总指标“700000资产合计”、“772000特定目的载体份额”的全国合计数,以及每类资管产品规模的全国合计数。
步骤二:将数据导出到EXCEL,在EXCEL中设置公式,计算相关指标。
步骤三:根据计算结果写作分析报告。
3.大数据工具
步骤一:根据基础统计指标建立标签库(示例见图4)。
图4 资管产品规模分析标签库示例图
一级标签:
各统计指标,如700000资产合计、772000特定目的载体份额。
二级标签,在一级标签的基础上自定义公式即可设置:
●资管产品总规模=所有资管产品Σ700000资产合计(一级标签)
●产品相互交易规模=所有资管产品Σ772000特定目的载体份额(一级标签)
●A类资管产品规模=所有A类资管产品Σ700000资产合计(一级标签)(A取银行表外理财、证券类资管产品、保险类资管产品等)
三级标签,在二级标签的基础上自定义公式即可设置:
●合并资管产品总规模=资管产品总规模(二级标签)-资管产品相互交易规模(二级标签)
●A类资管产品规模占比= A类资管产品规模(二级标签)/资管产品总规模(二级标签)
步骤二:拖动标签,选择机构、日期、币种等信息,自动生成图表并保存(示例见图5、图6)。
图5 资管产品规模分析示例
图6 资管产品规模分析饼状示意图
步骤三:选择监管驾驶舱样式,生成仪表盘(示例见图7)。
图7 资管产品规模分析驾驶舱示意图
步骤四:保存与分享。通过保存功能将自定义报表的表样和数据存储,以便于后续查看和使用;通过分享功能将该表共享给系统内的其他用户,以便后续使用和调整报表。之后各期的分析不再需要重复上述操作,只需要更换报表日期即可。
(二)案例2:资管产品关联性分析
资管产品关联性分析是指通过逐层统计资金来源方和运用方交易对手,反映资管产品之间、资管产品与金融机构表内资金之间的相互交易,识别风险源头和传染路径;反映资管资金在金融体系内部循环的程度,支持控制资产负债过度扩张,防止资产泡沫。本案例使用资管产品嵌套指数、资管产品资金在金融体系内循环指数和不同机构性质资管产品关联性指数三个指标来监测。
手工工具、传统工具参照案例一。
大数据工具:
步骤一:根据基础统计指标建立标签库(示例见图8)。
图8 资管产品关联性分析标签库示例图
一级标签:
各统计指标,如700000资产合计、772200信托公司资管产品、772300证券公司及其子公司资管产品、821271银行非保本理财等。
二级标签:
●SPV资产比例=ΣSPV总资产/Σ资产合计
●金融关联资产比率=Σ(存放同业+同业存单+回购和拆借+中央银行债券+金融债券+SPV+金融衍生品)/Σ资产合计
●i类资管产品对j类资管产品债权比率=ΣSPVij /Σi类资管产品资产总额,其中:i、j分别为银行理财产品、信托计划、证券投资基金、券商资管产品、保险资管产品中的一种,SPVij表示i类资管产品直接投资于j类资管产品。
三级标签:
●资管产品嵌套指数= SPV资产比例,越接近于1表示资管资金直接投资于SPV的比重越高,即嵌套程度越高。
●资管产品资金在金融体系内循环指数=金融关联资产比率,越接近于1表示资管资金在金融体系内部循环程度越高。
●不同机构性质资管产品关联性指数= i类资管产品对j类资管产品债权比率,越接近于1表示不同市场之间的风险传染性越高。
步骤二:拖动标签,选择机构、日期、币种等信息,自动生成图表(示例见图9、图10)。
图9 资管产品关联性分析示例
针对行号1 资管产品嵌套指数13.37%,可以再下钻,看究竟是与哪一类金融机构发行的资管产品关联比例比较高。
图10 资管产品规模分析环形示意图
步骤三:选择监管驾驶舱样式,生成仪表盘(示例见图11)。
图11 资管产品关联性分析驾驶舱示意图
步骤四:保存与分享。
(三)三种统计分析途径比较
通过以上两个案例,对比三种统计分析途径,我们可以看到,手工汇总方式的数据采集、核对、汇总流程较长,且后续采集同类数据都需重复整个过程,相较于其他两种方式便捷度低,时效性滞后;传统的多维报表和固定报表,虽然能较快较准确地获得数据,但是后续每一次统计都需要重复整个过程,且报表需求的变更也需要依赖科技开发,便捷度、灵活度低;而大数据工具无论是从数据采集便捷度、统计分析即时性、统计数据准确度、信息共享高效性、后续取数便捷性、需求变更响应度、图表制作便捷性等方面都占有绝对优势,为资管统计的高效性和可靠性提供了强大的技术支撑。
表1 三种途径对比一览表
四、资管产品大数据统计工具应用前景展望
近年来,我国金融体系的关联性与复杂性大幅提高,金融风险的积聚、扩散、传染更加隐蔽和迅速,宏观调控难度加大,服务于宏观审慎的金融业综合统计的重要性和紧迫性越来越强。资管产品管理是我国宏观审慎管理的关键点,资管产品统计是当前金融业综合统计的主要推进领域。随着金融业综合统计立法工作的完善、金融统计标准化的建设的推进、金融统计信息共享平台的搭建,除银行业外,证券业、保险业等两大金融类机构的数据也将纳入资管产品统计系统,资管产品统计数据量爆发式增长是必然的趋势,预期在不远的未来,资管产品大数据统计工具将在资管统计中贡献如下方面的价值:
(一)提升监管穿透力
“穿透式”监管是当前监管体制改革的侧重点,是指监管机构将资金来源、中间环节与最终用途串联起来,以实质重于形式的理念对业务风险进行甄别,从而形成全面的宏观审慎性监管,防范系统性风险的发生。大数据统计工具有助于提升监管穿透力。首先,从数据处理的角度看,大数据统计工具通过贯穿全流程的数据质量检验程序,从系统层面保证了数据的准确度,全面提升统计监测的效力;第二,从数据挖掘的角度看,大数据统计工具通过标签系统的应用,实现数据的多维度灵活透视,有效提升统计分析的精细度;第三,从数据整合的角度看,大统计数据工具能有效整合现有各类统计系统,并形成融合金融监测数据系统、国库数据系统、征信数据系统、反洗钱数据系统、清算中心数据系统等多个权威数据系统的资管业综合统计信息平台,实现统一、高效、便捷的部门合作和信息共享,为调研统计人员提供了更广阔的调研视野,以更充沛的数据支持监管穿透力提升,更好地服务于风险监测和宏观调控。
(二)提升监管时效性
宏观形势不断发展变化,监管统计必须紧跟经济金融热点,才能保证其对货币政策决策具备有效的参考价值。大数据统计工具通过对数据采集、加工、储存、汇总和有效提取等过程的优化,大大提高了数据处理的稳定性和高效性;通过标签系统、自助报表系统、信息共享系统等功能的搭建,实现数据一次采集、快速加工、多方共享,极大地提高了统计分析的效率,为金融宏观调控提供及时的数据支撑,从根本上提升了监管的时效性。
(三)提升风险预警力
大数据统计工具通过关联分析、模型挖掘、机器学习等创新技术,根据历史风险案例和现有的风险监测体系,构建与宏观统计相协调、与资管市场发展相适应、科学合理的资管产品风险预测核心指标体系和分析框架,从而提高统计数据使用效率,准确、有效地刻画经济运行规律,提升监管风险预警力,增强形势分析的科学性和前瞻性。
参考文献
[1] 阮健弘. 金融统计创新与发展[M]. 北京:中国金融出版社,2018.
[2] 管清天.商业银行资产管理业务统计研究[J].金融纵横,2017(09):43-51.
[3] 苟文均.穿透式监管与资产管理[J].中国金融,2017(8):17-20.
[4] 谢琪琦,袁泉. 基于监管科技视角的资管业务流动性风险防范研究[J]. 区域金融研究,2019(2):50-55.
[5] 杨柳. 我国银行资管业务发展沿革与蜕变[J]. 中国银行业,2019(3):20-22.
[6] 王迪昀. 金融综合统计从资管统计突破[J]. 金融博览,2018(6):16-17.
[7] 王丽娟. 金融机构资产管理业务发展与风险防控[J]. 青海金融,2015(12):28.
[8] 王轶昕,程索奥. “穿透式”监管背景下商业银行资产管理业务转型发展研究[J]. 金融财税研究,2018(7):56-63.
[9] 刘启滨. 金融行业的大数据管理探讨[J] .信息化论坛,2012(11):12.
[10] 刘琼.理解大数据用好大数据[N] .中国计算机报,2012-6-11.
[11] 李学龙,龚海刚. 大数据系统综述[J]. 中国科学:信息科学,2015(45):1-44.
[12] Lohr S. The age of big data[J]. New York Times, 2012, 11.
[13] Noguchi Y. Following digital breadcrumbs to big data gold[J]. National Public Radio, 2011.
“袖财”是一个提供专业交流,展现财务人生活和风采、了解财税动态和提供职业规划资讯的平台。
友谊、学习、共享,领袖财务!