党的十九大报告提出要“推动互联网、大数据、人工智能和实体经济深度融合”,进一步突出了大数据作为国家基础性战略性资源的重要地位,掌握丰富的高价值数据资源日益成为抢占未来发展主动权的前提和保障。
数据是资产的概念已经成为行业共识。然而现实中,对数据资产的管理和应用往往还处于摸索阶段,数据资产管理面临诸多挑战。首先,大部分企业和政府部门的数据基础还很薄弱,存在数据标准混乱、数据质量层次不齐、各条块之间数据孤岛化严重等现象,阻碍了数据的共享应用。其次,受限于数据规模和数据源种类的丰富程度,多数企业的数据应用刚刚起步,主要集中在精准营销,舆情感知和风险控制等有限场景,应用深度不够,应用空间亟待开拓。再次,由于数据的价值很难评估,企业难以对数据的成本以及其对业务的贡献进行评估,从而难以像运营有形资产一样管理数据资产。
国际上,1990 年以来,以国际数据管理协会(DAMA,Data Management Association International)、能力成熟度模型集成(CMMI, Capability Maturity Model Integration)为代表的组织机构长期从事数据管理的研究,形成了一定的理论成果。在这些理论的指导下,我国金融、电信、能源、互联网等信息化较为先进的行业,已经积累了丰富的数据资产管理经验。这些经验的总结对于补充完善数据管理理论体系、推进数据资产管理在各个行业的普及和发展有着重要意义。
为了促进数据资产管理的研究,我们组织编写了《数据资产管理
实践白皮书》。本白皮书分为四大部分:第一部分介绍了数据资产管理的概述及变革中的数据资产管理呈现出来的特征趋势;第二部分从实践角度出发阐述了数据资产管理的主要内容;第三部分重点介绍了数据资产管理的实施步骤、实践模式、技术工具和成功要素;最后结合实践经验,介绍了电信、金融、政务、医疗和工业等相关领域的数据资产管理案例。本白皮书在《数据资产管理实践白皮书 3.0》的基础上,以全面盘点数据资产、不断提升数据质量、实现数据互联互通、提高数据获取效率、保障数据安全合规、数据价值持续释放等角度, 通过权威数据和典型事件,生动剖析了数据资产管理的重点内容和目标。在原有管理职能的介绍下,尝试说明数据资产化管理的关键活动步骤,并在实施步骤方面,增加了各实施阶段的具体输出物,并增加了“数据价值管理工具”和“数据服务管理工具”,更好的指导企业搭建数据资产管理平台,开展数据资产管理相关工作。
本白皮书可以为政府和企业开展数据资产管理工作提供参考,也可以作为相关产品和服务提供商的参考依据。由于时间仓促,水平所限,我们的工作还有很多不足。下一步,我们还将广泛采纳各方面意见建议,进一步深化相关研究,持续完善白皮书内容,在已有版本的基础上,适时修订发布新版。我们诚邀各界专家学者参与我们的研究工作,积极献言献策,共同完善国内数据资产管理理论和方法论体系, 为促进大数据与实体经济深度融合做出积极贡献。
目 录
一、 数据资产管理概述
众所周知,数据是资源,伴随着大数据时代支撑数据交换共享和数据服务应用的技术发展,不断积淀的数据开始逐渐发挥它的价值, 因此,业界提出可以将数据作为一项资产,“盘活”数据以充分释放其附加价值。但是事实上,如果缺乏恰当有效的管理手段,数据也可能会成为一项负债。同时,相较于实物资产,数据资产的管理目前还处于初级阶段,数据质量、数据安全、资产评估、资产交换交易等精细管理、价值挖掘和持续运营也较为薄弱。
数据资产管理是现阶段推动大数据与实体经济深度融合、新旧动 能转换、经济转向高质量发展阶段的重要工作内容。本章将阐述数据 资产管理的定义与内涵,分析数据资产管理在大数据领域的重要意义, 并对数据资产管理在大数据发展中的趋势进行分析,探讨数据资产管 理在企业中的实践模式。
(一) 数据资产管理的定义与内涵
- 1. 数据资产管理的概念
数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
数据资产管理(DAM,Data Asset Management)是指规划、控制
和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。数据资产管理需要充分融合业务、技术和管理,以确保数据资产保值增值。
- 2. 数据资产管理的内涵
数据资产管理在大数据体系中的定位如图 1 所示,它位于应用和底层平台中间,处于承上启下的重要地位。对上支持以价值创造为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理。数据资产管理包括两个重要方面,一是数据资产管理的核心管理职能,二是确保这些管理职能落地实施的保障措施,包括战略规划、组织架构、制度体系等。
图 1 数据资产管理在大数据体系中的定位
数据资产管理贯穿数据采集、存储、应用和销毁整个生命周期全过程。企业管理数据资产就是对数据进行全生命周期的资产化管理, 促进数据在“内增值,外增效”两方面的价值变现,同时控制数据在整
个管理流程中的成本消耗。在数据的生命周期开始前,企业先期制定数据规划、定义数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。数据资产管理一般来说包括统筹规划、管理实施、稽核检查和资产运营四个主要阶段,详见第三部分数据资产管理的实施要点。
- 3. 数据资产管理的演变
数据管理的概念是伴随上世纪八十年代数据随机存储技术和数据库技术的使用,计算机系统中的数据可以方便地存储和访问而提出的。国际数据管理协会( DAMA, Data Management Association International)在 2009 年发布的数据管理知识体系 DMBOK1.0①中, 将数据管理定义为规划、控制和提供数据资产,发挥数据资产的价值。
DAMA 数据管理体系将数据管理划分为 10 个领域,分别是数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理和数据质量管理。其中,数据治理是高层次的、规划性的数据管理制度活动,其关键管理活动包括制定数据战略、完善数据政策、建立数据架构等,注重数据的使用者、使用方式、使用权限等合规性制定,强调开展数据资产全生命周期管理前的基础工作,关注数据资产管理中的相关保障措施。
2015 年,DAMA 在 DBMOK2.0 知识领域将其扩展为 11 个管理
① The DAMA Guide to the Data Management Body of Knowledge
职能,分别是数据架构、数据模型与设计、数据存储与操作、数据安全、数据集成与互操作性、文件和内容、参考数据和主数据、数据仓库和商务智能(BI,Business Intelligence)、元数据、数据质量等。
在数据资产化背景下,数据资产管理是在数据管理基础上的进一步发展,可以视作数据管理的升级版。主要区别可以从三方面看:一是数据管理的视角不同,数据资产管理强调数据是一种资产,基于数据资产的价值、成本、收益开展全生命周期的管理。二是管理职能有所不同,数据资产管理包含数据模型、元数据、数据质量、参考数据和主数据、数据安全等传统数据管理职能,同时整合数据架构、数据存储与操作等内容,将数据标准管理纳入管理职能,并针对当下应用场景、平台建设情况,增加了数据价值管理职能。三是管理要求有所升级,在“数据资源管理转向数据资产管理”的理念影响下,相应的组织架构和管理制度也有所变化,需要有更专业的管理队伍和更细致的管理制度来确保数据资产管理的流程性、安全性和有效性。
(二) 数据资产管理的重要性
数据作为越来越重要的生产要素,将成为比土地、石油、煤矿等更为核心的生产资源,如何加工利用数据,释放数据价值,实现企业的数字化转型,是各企业面临的重要课题。虽然充分有效挖掘数据价值的过程中充满了障碍,但是数据资产管理逐步扫平了这些障碍。
- 1. 数据价值难以有效发挥的原因
当前企业在数据资产管理中面临诸多问题,这些问题阻碍了数据的互联互通和高效利用,成为了数据价值难以有效释放的瓶颈,主要包括以下几点:
一是缺乏统一数据视图。企业的数据资源散落在多个业务系统中, 企业主和业务人员无法及时感知到数据的分布与更新情况,无法快速 找到符合自己需求的数据,也无法发现和识别有价值的数据并纳入数 据资产。
二是数据孤岛普遍存在。据统计,98%的企业都存在数据孤岛问题②。而造成数据孤岛的原因既包括技术上的,也包括标准和管理制度上的,这阻碍了业务系统之间顺畅的数据共享,降低了资源利用率和数据的可得性。
三是数据质量低下。糟糕的数据质量常常意味着糟糕的业务决策, 将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等 问题。根据数据质量专家 Larry English 的统计,不良的数据质量使企业额外花费 15%到 25%的成本③。而数据能够被当作资产,并发挥越来越大的价值,其前提是数据质量的不断提升。
四是缺乏安全的数据环境。数据安全造成的风险主要包括数据泄露与数据滥用等。根据数据泄露水平指数(Breach Level Index)监测,
② https://dzone.com/articles/data-silos-are-the-greatest-stumbling-block-to-an
③ https://searchdatamanagement.techtarget.com/podcast/Data-quality-trends-with-expert-Larry-English
自 2013 年以来全球数据泄露高达 130 亿条④,其中很多都是由于管理制度不完善造成。随着各个机构数据的快速累积,一旦发生数据安全事件,其对企业经营和用户利益的危害性将越来越大,束缚数据价值的释放。
五是缺乏数据价值管理体系。大部分企业还没有建立起一个有效管理和应用数据的模式,包括数据价值评估、数据成本管理等,对数据服务和数据应用也缺乏合规性的指导,没有找到一条释放数据价值的“最优路径”。
- 2. 数据资产管理是充分发挥数据价值的必经之路
数据资产管理通过解决释放数据价值过程中面临的诸多问题,以体系化的方式实现数据的可得、可用、好用,用较小的数据成本获得较大的数据收益,具体体现在以下六个方面:
一是全面掌握数据资产现状。数据资产管理的切入点是对数据家当进行全面盘点,形成数据地图,为业务应用和数据获取夯实基础。从资产化管理和展示数据的角度出发,数据地图作为数据资产盘点的输出物之一,不承载具体数据内容,却可以帮助业务人员快速精确查找他们想要的数据。其次,数据地图作为企业数据的全盘映射,帮助数据开发者和数据使用者了解数据,并成为对数据资产管理进行有效监控的手段。
二是提升数据质量。早在 1957 年的时候,计算机刚刚发明的时
④ https://www.breachlevelindex.com/
候,大家就意识到数据对于计算机决策的影响,提出 Garbage In Garbage Out⑤的警示。2001 年,美国公布《数据质量法案(Data Quality
Act)》,提出提升数据质量的指导意见。2018 年,中国银行保险监督管理委员会发布《银行业金融机构数据治理指引》,强调高质量的数据在发挥数据价值中的重要性。数据资产管理通过建立一套切实可行的数据质量监控体系,设计数据质量稽核规则,加强从数据源头控制数据质量,形成覆盖数据全生命周期的数据质量管理,实现数据向优质资产的转变。
三是实现数据互联互通。数据资产管理通过制定企业内部统一的数据标准,建立数据共享制度,完善数据登记、数据申请、数据审批、数据传输、数据使用等数据共享相关流程规范,,打破数据孤岛,实现企业内数据高效共享。同时搭建数据流通开放平台,增强数据的可得性,促进数据的交换流通,提升数据的服务应用能力。
四是提高数据获取效率。Gartner 统计,数据分析人员或数据科学家需要花费 70%到 80%的精力在数据准备上。数据资产管理通过搭建数据管理平台,采取机器学习等相关自动化技术,将大量前期的数据准备时间和交付项目的时间缩短,提升数据的获取和服务效率, 让数据随时快速有效就绪,缩短数据分析人员和数据科学家的数据准备时间,加快数据价值的释放过程。
五是保障数据安全合规。保障安全是数据资产管理的底线,数据
⑤ https://en.wikipedia.org/wiki/Garbage_in,_garbage_out
资产管理通过制定完善的数据安全策略、建立体系化的数据安全措施、执行数据安全审计,全方位进行安全管控,确保数据获取和使用合法 合规,为数据价值的充分挖掘提供了安全可靠的环境。
六是数据价值持续释放。存储和管理数据的最终目的是实现数据的价值,数据资产管理将数据作为一项资产,并通过一个持续和动态的全生命周期管理过程,使数据资产能够为企业数字化转型提供源源不断的动力。从企业高管到业务人员及技术人员,全员都要以持续释放数据价值为理念来重视数据资源管理工作。管理方面,建立一套符合数据驱动的组织管理制度流程和价值评估体系。技术方面,建设现代化数据平台、引入智能化技术,确保数据资产管理系统平台持续、健康地为数据资产管理体系服务。
(三) 数据资产管理是各方关注的重要议题
数据资产管理不仅仅是单一机构的课题。近年来,地方政府层面越来越重视数据资源的管理,开展了很多工作。在新一轮的政府机构改革中,设置专门的数据管理机构成为热点,已有贵州、山东、重庆、福建、广东、浙江、吉林、广西等省份设置了厅局级的大数据管理局, 统筹推动地方“数字政府”建设,促进政务信息资源共享协同应用。早在 2017 年 7 月,贵州省大数据发展领导小组办公室印发实施了《贵州省政府数据资产管理登记暂行办法》,成为全国首个出台政府数据资产管理登记办法的省份。
行业层面,金融行业高度重视数据资产管理工作。2016 年 12 月
30 日,中国证券业协会发布《证券公司全面风险管理规范》,明确指出证券公司应当建立健全数据治理和质量控制机制。2018 年 5 月, 银保监会(原银监会)发布《银行业金融机构数据治理指引》,要求银行业应该将数据治理纳入公司治理范畴。2018 年,中国支付清算协会针对非银行支付机构数据资产管理状况开展了调研。医疗行业,
2018 年 9 月,国家卫生健康委员会印发《国家健康医疗大数据标准、安全和服务管理办法(试行)的通知》,2019 年 4 月,国家卫生健康委办公厅印发《全国医院数据上报管理方案(试行)》及《全国医院上报数据统计分析指标集(试行)》,充分发挥健康医疗大数据作为国家重要基础性战略资源的作用。在工业领域,在工业和信息化部信息化与软件服务业司指导下,工业互联网产业联盟(AII)联合中国信息通信研究院发布了《中国工业企业数据资产管理调查报告(2018)》。国家层面,数据合规性与数据跨境流动成为各国关注重点。2017
年 6 月 1 日正式生效的《中华人民共和国网络安全法》第三十七条规定:“关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的个人信息和重要数据应当在境内存储。因业务需要,确需向境外提供的,应当按照国家网信部门会同国务院有关部门制定的办法进行安全评估”。2018 年 5 月 25 日,一般数据保护条例(GDPR)正式在欧盟实施。各国对于数据跨境流动的关注则包含了数据主权、隐私保护、法律适用与管辖、乃至国际贸易规则等内容。
(四) 数据资产管理的现状与发展
随着管理数据对象越发复杂,数据处理技术越发成熟,数据应用范围越发广泛,数据资产管理在数据处理架构、组织职能、管理手段等方面逐渐呈现了一些新的特点和发展趋势。
图 2 大数据背景下的数据资产管理特点特征
- 1. 数据管理对象变化
数据作为数据资产管理的对象,在近些年体现出规模海量、来源多样、格式繁杂、采集实时等特征。在数据量方面,单一机构的数据规模由以前的 GB 级上升到 TB 级,甚至 PB 级、EB 级,数据增速快。在数据格式种类方面,除传统的结构化数据之外,文本数据、图
像数据、语音数据、视频数据等半结构化数据或非结构化数据占比越来越大,种类日益丰富。在数据来源方面,数据既包括内部数据,也包括来自第三方的外部数据,既包括传统业务处理采集的业务数据, 也包括手机终端、传感器、机器设备、网站网络、日志等技术产生的数据。同时,由于秒级或者毫秒级的响应将帮助企业更快地洞察与分析数据,实时数据正在成为企业数据重要的管理对象,目前实时数据采集和处理已广泛应用于互联网、零售、电力、交通等多个行业,利用物联网、实时数据库等技术实现交易实时处理、生产实时监控、交通实时调控等。
- 2. 处理架构更新换代
处理架构的更新换代体现以下几个方面。一是数据处理的底层架构向云平台和分布式系统迁移。Gartner 在 2018 年针对数据和分析采用方式的调查结果表明,63%企业目前使用最普遍的信息基础架构基技术为“基于云平台的数据存储”。同时以 Hadoop、Spark 等分布式技术和组件为核心的“计算&存储混搭”的数据处理架构,能够支持批量和实时的数据加载以及灵活的业务需求。二是数据的预处理流程正在从传统的 ETL 结构向 ELT 转变。传统的数据集成处理架构是 ETL 结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT 结构,其根据上层的应用需求,随时从数据湖⑥中抽
⑥ 数据湖(Data Lake):数据湖是以其自然格式存储的数据的系统或存储库,通常是对象 blob 或文
取想要的原始数据进行建模分析。
- 3. 组织职能升级变迁
传统的管理制度体系中,数据管理职能主要由 IT 部门来负责, 是 IT 部门的一项工作,业务部门配合 IT 部门执行数据管理,提出需求。随着数据分析与业务融合越来越深入,业务部门逐步成为大数据应用的主角,因而数据资产管理在企业中扮演越来越重要的角色。出现了越来越多的企业设置专门的“数据管理”职能部门或首席数据官
(CDO,Chief Data Officer)岗位。在这种变迁背景下,数据管理的组织架构也面临革新的需求。
- 4. 管理手段自动智能
依靠“手工人力”的电子表格数据治理模式即将被“自动智能”的
“专业工具”取代,越来越多的数据管理员、业务分析师和数据领导者采用“平台工具”增强企业的数据管理能力,包括梳理元数据、管理主数据,优化数据集成、提升数据质量等。具体来说,机器学习和人工智能通过自动提取元数据,将不同的数据进行关联并分析;通过配置和优化主数据,使主数据的管理更加便捷和准确;通过语义分析实现相同数据源的连接,简化数据集成流程;通过增强数据的分析、清理
件。 数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。 数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。来源:维基百科
和识别,提升数据质量。同时,随着智能优化技术不断引入到数据管理活动中,数据间的多维关系将被自动化识别和可视化展现,帮助用户高效探索数据和分析数据,降低数据使用门槛,有助于非专业人士成为数据科学家,扩大数据的使用对象和应用范围。
- 5. 应用范围不断扩大
数据资产管理的使用不仅仅局限于拥有海量数据或强大数据处理能力的机构,任何一个机构都可以成为数据资产化管理的实践者。选择一个小型且效果明显的项目实施数据资产管理,也可以成为逐步构建完整数据资产管理体系的良好开端。此外,数据资产的应用范围已经从传统的企业内部应用为主发展为支撑内部和服务外部并重,数据资产应用和服务范围的扩大成为企业战略发展的一部分,实现数据资产保值到增值的跨越。
二、 数据资产管理的主要内容
数据资产管理框架如图 3 所示,包含 8 个管理职能和 5 个保障措施。管理职能是指落实数据资产管理的一系列具体行为,保障措施是为了支持管理职能实现的一些辅助的组织架构和制度体系。本章主要描述具体的管理职能和保障措施的详细内容。
图 3 数据资产管理体系架构
(一) 管理职能
数据资产管理的管理职能包括数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理以及数据共享管理等 8 个方面,详细阐述如下。
- 1. 数据标准管理
数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,通常可分为基础类数据标准和指标类数据标准。
基础类数据标准一般包括参考数据和主数据标准、逻辑数据模型
标准、物理数据模型标准、元数据标准、公共代码和编码标准等。指
标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标一般不含维度信息,且具有特定业务和经济含义,计算指标通常由两个以上基础指标计算得出。
数据标准一般包含 3 个要素:标准分类、标准信息项(标准内容) 和相关公共代码和编码(如国标、行标等)。其中标准分类指按照不同的特点或性质区分数据概念;信息项是对标准对象的特点、性质等的描述集合;公共代码指某一标准所涉及对象属性的编码。
数据标准管理是指数据标准的制定和实施的一系列活动,关键活动包括:
- λ 理解数据标准化需求;
- λ 构建数据标准体系和规范;
- λ 规划制定数据标准化的实施路线和方案;
- λ 制定数据标准管理办法和实施流程要求;
- λ 建设数据标准管理工具,推动数据标准的执行落地;
- λ 评估数据标准化工作的开展情况。
数据标准管理的目标是通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性,推动数据的共享开放,构建统一的数据资产地图,为数据资产管理活动提供参考依据。
- 2. 数据模型管理
数据模型是现实世界数据特征的抽象,用于描述一组数据的概念
和定义。数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。数据模型所描述的内容有三部分:数据结构、数据操作(其中 ER 图数据模型中无数据操作)和数据约束,形成数据结构的基本蓝图,也是企业数据资产的战略地图。数据模型按不同的应用层次分成概念数据模型、逻辑数据模型、物理数据模型三种类型。
概念模型:是一种面向用户、面向客观世界的模型,主要用来描述现实世界的概念化结构,与具体的数据库管理系统(DBMS, Database Management System)无关;
逻辑模型:是一种以概念模型的框架为基础,根据业务条线、业务事项、业务流程、业务场景的需要,设计的面向业务实现的数据模型。逻辑模型可用于指导在不同的 DBMS 系统中实现。逻辑数据模型包括网状数据模型、层次数据模型等;
物理模型:是一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构。物理模型的设计应基于逻辑模型的成果,以保证实现业务需求。它不但与具体的 DBMS 有关,而且还与操作系统和硬件有关,同时考虑系统性能的相关要求。
数据模型管理是指在信息系统设计时,参考业务模型,使用标准化用语、单词等数据要素来设计企业数据模型,并在信息系统建设和运行维护过程中,严格按照数据模型管理制度,审核和管理新建数据模型,数据模型的标准化管理和统一管控,有利于指导企业数据整合, 提高信息系统数据质量。数据模型管理包括对数据模型的设计、数据
模型和数据标准词典的同步、数据模型审核发布、数据模型差异对比、
版本管理等。数据模型管理的关键活动包括:
- λ 定义和分析企业数据需求;
- λ 定义标准化的业务用语、单词、域、编码等;
- λ 设计标准化数据模型,遵循数据设计规范;
- λ 制定数据模型管理办法和实施流程要求;
- λ 建设数据模型管理工具,统一管控企业数据模型。数据模型是数据资产管理的基础,一个完整、可扩展、稳定的数
据模型对于数据资产管理的成功起着重要的作用。通过数据模型管理可以清楚地表达企业内部各种业务主体之间的数据相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于企业内部业务数据的统一完整视图。
- 3. 元数据管理
元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。
技术元数据(Technical Metadata):描述数据系统中技术领域相关概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等;
业务元数据(Business Metadata):描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等;
管理元数据(Management Metadata):描述数据系统中管理领域
相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。
元数据管理(Meta Data Management)是数据资产管理的重要基础,是为获得高质量的、整合的元数据而进行的规划、实施与控制行为。元数据管理的内容可以从以下六个角度进行概括,即“向前看”:
“我”是谁加工出来的;“向后看”:“我”又支持了谁的加工;“看历史”: 过去的“我”长什么样子;“看本体”:“我”的定义和格式是什么;“向上看”:“我”的父节点是谁;“向下看”:“我”的子节点是谁。元数据管理的关键活动包括:
- λ 理解企业元数据管理需求;
- λ 开发和维护元数据标准;
- λ 建设元数据管理工具;
- λ 创建、采集、整合元数据;
- λ 管理元数据存储库;
- λ 分发和使用元数据;
- λ 元数据分析(血缘分析、影响分析、数据地图等)。元数据管理内容描述了数据在使用流程中的信息,通过血缘分析
可以实现关键信息的追踪和记录,影响分析帮助了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响,有效评估变化该元数据带来的风险,逐渐成为数据资产管理发展的关键驱动力。
- 4. 主数据管理
主数据(Master Data)是指用来描述企业核心业务实体的数据, 是企业核心业务对象、交易业务的执行主体。是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础。从业务角度,主数据是相对“固定”的,变化缓慢。主数据是企业信息系统的神经中枢,是业务运行和决策分析的基础。例如供应商、客户、企业组织机构和员工、产品、渠道、科目 COA、BOM 等。
主数据管理(MDM ,Master Data Management)是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。主数据管理的关键活动包括:
- λ 理解主数据的整合需求;
- λ 识别主数据的来源;
- λ 定义和维护数据整合架构;
- λ 实施主数据解决方案;
- λ 定义和维护数据匹配规则;
- λ 根据业务规则和数据质量标准对收集到的主数据进行加工清理;
- λ 建立主数据创建、变更的流程审批机制;
- λ 实现各个关联系统与主数据存储库数据同步;
- λ 方便修改、监控、更新关联系统主数据变化。
主数据管理通过对主数据值进行控制,使得企业可以跨系统的使用一致的和共享的主数据,提供来自权威数据源的协调一致的高质量主数据,降低成本和复杂度,从而支撑跨部门、跨系统数据融合应用。
- 5. 数据质量管理
数据质量是保证数据应用效果的基础。衡量数据质量的指标体系有很多,几个典型的指标有:完整性(数据是否缺失)、规范性(数据是否按照要求的规则存储)、一致性(数据的值是否存在信息含义上的冲突)、准确性(数据是否错误)、唯一性(数据是否是重复的)、时效性(数据是否按照时间的要求进行上传)。数据质量是描述数据价值含量的指标,就像铁矿石的质量,矿石的质量高,则炼出来的钢材就会多;反之,矿石的质量低,不但练出来的钢材少了,同时也增加了提炼的成本。
数据质量管理是指运用相关技术来衡量、提高和确保数据质量的规划、实施与控制等一系列活动。数据质量管理工作中的关键活动包括:
- λ 开发和提升数据质量意识;
- λ 定义数据质量需求;
- λ 剖析、分析和评估数据质量;
- λ 定义数据质量测量指标;
- λ 定义数据质量业务规则;
- λ 测试和验证数据质量需求;
- λ 确定与评估数据质量服务水平;
- λ 持续测量和监控数据质量;
- λ 管理数据质量问题;
- λ 分析产生数据质量问题的根本原因;
- λ 制定数据质量改善方案;
- λ 清洗和纠正数据质量缺陷;
- λ 设计并实施数据质量管理工具;
- λ 监控数据质量管理操作程序和绩效。
通过开展数据质量管理工作,企业可以获得干净、结构清晰的数据,是企业开发大数据产品、提供对外数据服务、发挥大数据价值的必要前提,也是企业开展数据资产管理的重要目标。
- 6. 数据安全管理
数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。企业通过数据安全管理,规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能。
数据安全管理的关键活动包括:
- λ 理解数据安全需求及监管要求;
- λ 定义数据安全策略;
- λ 定义数据安全标准;
- λ 定义数据安全控制及措施;
- λ 管理用户、密码和用户组成员;
- λ 管理数据访问视图与权限;
- λ 监控用户身份认证和访问行为;
- λ 定义数据安全强度,划分信息等级;
- λ 部署数据安全防控系统或工具;
- λ 审计数据安全。
数据安全管理的目标是建立完善的体系化的安全策略措施,全方位进行安全管控,通过多种手段确保数据资产在“存、管、用”等各个环节中的安全,做到“事前可管、事中可控、事后可查”。
- 7. 数据价值管理
数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。数据成本一般包括采集、存储和计算的费用
(人工费用、IT 设备等直接费用和间接费用等)和运维费用(业务操作费、技术操作费等)。数据成本管理从度量成本的维度出发,通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案,实现数据成本的有效控制。数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。数据价值(收益)管理从度量价值的维度出发,选择各维度下有效的衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据
稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式,最大可能性的提高数据的应用价值。比如可以选择数据热度、广度等作为数据价值的参考指标,通过 ROI 评估,高效管控和合理应用数据资产。
表 1 数据成本和价值评估的维度
|
计量维度 |
各维度描述 |
数据成本评估 |
采集、存储和 计算成本评估 |
主要包括计量人工费用、IT 设备等直接费用和间接费用 等 |
运维成本评估 |
主要包括计量业务操作费、技术操作费等 |
|
数据价值评估 |
活性评估 |
活性指标主要包括数据连接度、贡献度等,数据的高连 接度和贡献度,意味着高活性和高数据价值。 |
数据质量评估 |
数据质量评估指标主要包括数据一致性、准确性、完整 性、及时性等,高数据质量意味着搞数据价值 |
|
数据稀缺性评估 |
数据稀缺性描述数据的供给数量及供给方数量的多寡, 通过与最大供给方数量或数据供给丰富程度相比较,判断数据稀缺性,高稀缺性数据意味着高数据价值 |
|
数据时效性评 估 |
数据时效性描述数据的时间特性对应用的满足程度,较 高的满足程度意味着高的数据时效性,即高数据价值 |
|
数据应用场景经济性评估 |
数据应用场景经济型描述在具体场景下数据集的经济价值,由于不同行业的规模、数据应用程度等具有差异性,因而不同的场景下的数据集,其价值会相差很大。通过比较某场景下的经济价值与所有场景中的最大经济价值相比较,判断数据应用场景经济性,高场景经济 性意味着高数据价值。 |
当前,对于数据资产评估的研究还处于早期阶段,评估方法手段
还不成熟。可能的方法包括市场法、成本法和收益法三种,三种方法的优缺点如表 所示。以收益法为例,将企业数据资产未来可能产生的收益折现为现金流进行计算。对数据资产价值的估算可以帮助企业更准确的掌握信息化投资收益,也是数据交易流通的前提之一。
表 2 数据资产价值评估典型方法比较
|
成本法 |
收益法 |
市场法 |
优点 |
容易把握和操作 |
考虑未来预期收益和货币时间价值因素,能真实反映价值,易被双 方接受 |
能反映资产目前市场状况,易被双方接受 |
缺点 |
对价值的估算往往偏低 |
预测难度大、偏主观 |
对市场环境要求高、 评估难度大 |
适用场景 |
第三方机构,不以交易 为目的,如政务数据 |
适合于数据买方 |
较少 |
进行数据价值管理的关键性活动包括:
- λ 确定企业数据集成度水平;
- λ 确定企业数据的应用场景;
- λ 确定数据存储、计算和运维的成本预算;
- λ 明确数据成本和收益的具体计量指标;
- λ 计算数据在不同应用场景下的成本和收益;
- λ 计算企业数据资产的总体成本和收益;
- λ 制定数据成本优化方案和提升数据增值方案;
- λ 审核、改进方案。
- 8. 数据共享管理
数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。数据内部共享的关键步骤是打通企业内部各部门间的数据共享瓶颈,建立统一规范的数据标准与数据共享制度,数据外部流通和对外开放可以通过数据直接交易与提供数据分析信息的两种方式实现,将数据中符合共享开放层级的信息作为应用商品,以合规安全的形式完成共享交换或开放发布。目前来看,拥有海量数据是企业开展数据资产运营的前提条件,在数据流通环境下,数据资产运营流通职能的服务对象包括了数据提供者、数据消费者、数据服务者和数据运营者四类角色。
数据共享管理的关键活动包括:
- λ 定义数据资产内部共享和运营流通监控指标;
- λ 设计数据资产内部共享和运营流通管理方案;
- λ 制定数据资产内部共享和运营流通管理办法和实施流程要求;
- λ 监控数据资产内部共享和运营实施;
- λ 监督落实数据内部共享与外部流通等合规性管理要求;
- λ 分析内部共享与运营流通指标,评价运营效果并改进。
重视数据资产管理、运营、流通可以为企业带来未来经济利益, 同时这也是数据保值增值的重要手段。数据资产运营流通是使数据资产流动和发挥价值的核心,它将推动数据价值创造模式的不断创新, 从根本上改变企业管理、社会管理和政府治理的发展趋势。
在数据资产管理的实践中,各项管理职能所涉及的管理内容之间往往存在着紧密的联系。数据资产管理的数据一般包括元数据、主数据和业务数据。数据模型管理为主数据、元数据和业务数据设计数据模型。数据质量管理按照数据标准的规定稽核各部分数据内容。元数据管理发挥承上启下的作用,承接数据标准管理和数据模型管理的阶段性成果,同时为主数据管理提供有力支撑。数据安全管理贯穿数据全生命周期,为数据资产管理各项管理职能提供了有力支撑。数据标准管理,顾名思义,就是定义数据模型、数据安全和数据质量相关规范,一般以文件形式呈现。
(二) 保障措施
数据资产管理是体系化非常强的工作,需要充分考虑企业内部 IT 系统、数据资源以及业务应用的开展现状,同时也要考虑围绕业务开展所设立的人员和组织机构的情况,在此基础上设计一套有针对性的数据资产管理组织架构、管理流程、管理机制和考核评估办法,通过管理的手段明确“责权利”以保障数据资产管理工作有序开展。数据资产管理的保障措施可以从战略规划、组织架构、制度体系、审计方式和培训宣贯五方面进行展开,本章将进行详细阐述。
- 1. 制定战略规划
从管理层、领导层出发,从顶向下全局部署数据资产管理规范从而形成全面的标准规则体系和执行调度流程。战略规划是数据资产管理成为企业战略核心任务应用的重要部分,是数据资产得到一定程度内外部应用的指导蓝图。值得一提的是,越来越多的企业单位在战略规划阶段决议成立专门的数据管理部门,以连通 IT 部门和业务部门。
- 2. 完善组织架构
典型的组织架构主要由数据资产管理委员会、数据资产管理中心和各业务部门构成。组织架构划分和角色设定如下图所示:
图 4 数据资产管理保障措施组织架构
为了让组织架构中的各个角色相互配合,各司其职,还需要明确他们相应的职责,让工作职责融入到日常的数据资产管理和使用工作
中。与上述典型的数据资产管理架构相适应的角色职责如下表。
表 3 数据资产管理组织架构角色职责
组织结构 |
角色 |
角色描述 |
角色主要职责 |
人员能力要求 |
|
|
由公司主管 |
负责领导数据资产管理工作; |
熟悉组织行为学、产品、财务知识, |
数据资产管 |
|
领导和各业 |
决策数据资产管理重大工作内 |
具备团队管理、商业分析与判断、数 |
|
数据决策者 |
|
|
|
理委员会 |
|
务部门领导 |
容和方向。在数据角色方出现 |
据和战略规划能力。 |
|
|
组成 |
问题时负责仲裁。 |
|
|
|
|
负责牵头制定数据资产管理的 |
熟悉项目管理、关联管理、质量管理 |
|
|
|
政策、标准、规则、流程,协调 |
能力,具备项目规划、跟踪和控制、 |
|
|
|
认责冲突;监督各项数据规则 |
风险识别与管控、敏捷项目管理、沟 |
|
|
数据管理中 |
|
|
数据资产管 |
|
|
和规范的约束的落实情况;负 |
通与执行和产品规划能力。 |
|
数据管理者 |
心机构的平 |
|
|
理中心 |
|
|
责数据资产管理平台中整体数 |
|
|
|
台运营人员 |
|
|
|
|
|
据的管控流程制定和平台功能 |
|
|
|
|
系统支撑的实施;负责数据平 |
|
|
|
|
台的整体运营、组织、协调。 |
|
|
|
|
配合制定相关数据标准、数据 |
熟悉 ITIL 理论、业务能力、操作系统 |
|
|
|
制度和规则;遵守和执行数据 |
技术、网络、应用架构,具备资源规 |
|
|
相关数据所 |
|
|
|
|
|
标准管控相关的流程,根据数 |
划和成本控制、质量管理、数据库和 |
|
数据提供者 |
有人和权限 |
|
|
|
|
|
据标准要求提供相关数据规 |
过程/规范设计能力,同时具备一定的 |
|
|
管理人员 |
|
|
|
|
|
范。作为数据出现质量问题时 |
大数据平台运营能力。 |
|
|
|
的主要责任者。 |
|
各业务/技 |
|
|
|
|
|
|
|
|
|
|
|
|
|
熟悉行业系统和工具、组件,数据传 |
术部门 |
|
|
|
|
|
|
|
负责数据开发,有责任执行数 |
输、存储、计算和分析,运营支持系 |
|
|
|
据标准和数据质量内容,负责 |
统,和运维效率和监控的相关知识; |
|
|
数据开发人 |
|
|
|
数据开发者 |
|
从技术角度解决数据质量问 |
具备系统规划和设计、技术开发、数 |
|
|
员 |
|
|
|
|
|
题。作为数据出现质量问题时 |
据分析和建模、测试设计能力,具备 |
|
|
|
的次要责任者。 |
一定的 DevOps 与大数据平台开发能 |
|
|
|
|
力。 |
|
数据消费者 |
数据使用人员,包含内部用户和外部 用户 |
作为数据资产管理平台数据的使用者,负责反馈数据效果,作为数据资产管理平台数据闭环 流程的发起人。 |
熟悉数据处理、业务能力、技术知识 (关联知识),具备数据规划、产品应用、数据分析、技术应用和模型与算法研发能力。 |
数据认责是数据资产管理在服务各领域、各环节工作落到实处的有效手段,通过数据角色职责开展数据认责相关工作,其主要认责流程如图 5 所示。具体认责条例、管理办法及相关制度流程由数据资产管理委员会进行制定。
图 5 数据认责机制
- 3. 建立制度体系
为了保障活动实施和组织架构正常运转,需要建立一套覆盖数据引入、使用、开放等整个生产运营过程的数据管理规范,从制度上保障数据资产管理工作有据、可行、可控。
数据资产管理规范包括元数据管理规范、生命周期管理规范、数
据质量管理规范以及数据安全管理规范等对应管理职能的具体规范。
在此基础上,规范需细化至接口设计、接口开发、模型设计、模型开发、数据开放以及服务封装等内容。规范的标准一般包括基础分类标准、命名规范要求、数据架构划分、存储与数据权限规则、元数据信息完整性要求等。规范和标准在执行的过程中执行监控规定,要求事中检查和事后监控。事中检查指的是在开发和上线时进行控制,包括命名规范,信息完整性,合理性等;事后监控指的是对存储周期,数据安全敏感信息和加密信息,权限赋权常态化检查。图 6 是可参考的
一种典型的制度体系架构举例。
图 6 一种典型的制度体系架构
- 4. 设置审计机制
为进一步保障、评估数据资产管理的规范、规划、组织机构、制度体系的执行状况,保障、评估数据资产的安全性、准确性、完整性、规范性、一致性、唯一性和时效性,需有完整的贯穿数据资产管理整个流程的审计机制。审计方式从审计体系规范建设入手,信息技术审计方法和专职人员审计方法并行。审计对象包括数据权限使用制度及其审批流程、日志留存管理办法、数据备份恢复管理机制、监控审计体系规范以及安全操作方案等体系制度规范以及敏感、重要数据。数据资产管理在实施过程中需要保障集中审计的可行性。
- 5. 开展培训宣贯
培训宣贯是企业实施数据资产管理进程中的重要组成部分,是数据资产管理理论落地实践、流程执行运作的基础,是数据资产管理牵头部门在技术部门和业务部门之间顺利开展工作的重要保障。企业需利用现有资源,合理安排员工参与数据资产管理培训、课程。促进员工有效培训和自我提高,提升人员的职业化水平,强化工作的标准化、规范化。
企业开展数据资产管理的培训教育周期、培训内容和参与方式, 包括:行业现有数据资产管理体系课程培训,行业内、外部单位优秀经验沟通与交流,主要参与培训人员部门内二次培训,企业优秀部门、员工经验、案例分享,常规员工培训中添加数据资产管理培训的课程
等。
各企业单位需将数据资产管理纳入现有晋升、薪酬、职位资格等体系范畴,建立员工职业发展通道。根据现实工作环境中完成任务的能力,设立数据资产管理相关奖项,对优秀的个人、团队进行奖励, 树立行业、员工优秀模范,引导员工树立不断学习,激发员工不断改进工作,提高工作质量和工作效率。
三、 数据资产管理的实施要点
完整的企业或机构大数据能力的构建步骤一般是“建立组织架构
→应用需求梳理→数据盘点梳理→引进平台技术→汇聚多源数据治理数据→数据应用→数据运营”等。数据资产管理以数据价值为导向, 分布在大数据能力构建的多个环节。本章将主要围绕数据资产管理, 具体阐述实施步骤、主要工具平台的功能,并基于实践经验,提出数据资产管理成功的要素。数据成熟度不同的企业或单位开展数据资产管理的具体步骤和实施内容要根据自身情况制定。
(一) 实施步骤
数据资产管理可参考按照“统筹规划→管理实施→稽核检查→资产运营”四个阶段的方法策略执行,每个阶段对应的管理职能如图 7 所示。以业务应用目标为指引,企业可以按照自身数据及管理情况制定不同的实施步骤顺序。
图 7 数据资产管理实施步骤
- 1. 第一阶段:统筹规划
第一阶段是统筹规划过程,制定数据资产管理战略规划,明确数据资产管理目标,涉及建立数据资产管理组织和制度作为保障措施, 盘点数据资产,制定数据资产标准规范等,该阶段成果是后续工作的基础。
一般情况下,数据资产管理的第一步是建立组织责任体系,根据自身情况,制定数据资产管理制度规范。需要建立一套独立完整的关于数据资产管理的组织机构,明确各级角色和职责,确定兼职专职人员,保障数据资产管理的各项管理办法、工作流程的实施,推进工作的有序开展,并逐步打造管理及技术的专业人才团队。
第一步的主要交付物包括:《数据资产管理规划》、《数据资产管理认责机制》、《数据资产管理工作指引》、《数据资产管理考核评价办法》。
第二步是结合业务盘点数据资产,评估当前数据管理能力。对基础数据的盘点是开展数据资产管理工作的前提之一,需要分析企业战略及业务现状,结合当前大数据现状及未来发展,盘点企业内外部数据现状,确立数据资产管理的目标,并逐渐实施需求调研、盘点资产、采集汇聚等专题任务。与此同时,了解企业数据来源、数据采集手段和硬件设备情况,以定位自身数据资产管理能力,规划未来数据资产管理成熟度提升方案。
第二步的主要交付物包括:《数据资产盘点清单》、《数据资产管理现状评估》。
第三步是制定数据资产相关的标准规范。在企业组织架构、制度体系和数据资产盘点的基础上,结合国际标准和行业标准,围绕数据资产全生命周期管理,制定相关的数据规范体系,包括元数据标准、核心业务指标数据标准、业务系统数据模型标准、主数据标准、关键业务稽核规则等,使得数据管理人员在工作中有明确的规则可依,同时,建立参考数据和主数据标准、元数据标准(比如元模型标准)、公共代码标准、编码标准等基础类数据标准,以及基础指标标准、计算指标标准等指标类数据标准和关键业务稽核规则。企业应逐步推动相关数据规范和标准的工作建设,使数据有效汇聚和应用,切实保障数据资产管理的流畅实现。
第三步的主要交付物包括:《数据资产标准管理办法》。
- 2. 第二阶段:管理实施
如果说第一阶段重点还在于对数据资产的定义、规划、梳理,第二阶段就是对第一阶段成果的落地实施。首先,在搭建大数据管理平台、完成数据汇聚工作的基础上,根据企业自身存量数据基础和增量数据预估,建设或采购必要的数据资产管理平台或引入第三方工具以支撑管理工作,切实建立起企业数据资产管理能力。其次,要建立安全管理体系,防范数据安全隐患,执行数据安全管理职能。再次,还需要制定和管理主数据,以明确企业核心业务实体的数据,如客户、
合作伙伴、员工、产品、物料单、账户等,从而自动、准确、及时地分发和分析整个企业中的数据,并对数据进行验证。
在第二阶段里,需要从数据资产管理的相关业务、技术部门日常工作流程入手,切实建立起企业数据资产管控能力,包括从业务角度梳理企业数据质量规则,检测数据标准实施情况,保证数据标准规范在企业信息系统生产环境中真正得到执行。针对关键性数据资产管理工作,可以借助管理工具,建立数据资产的管理流程,保证相关事情都有专人负责。
同时,企业应加强数据资产服务和应用的创新,可以围绕降低数据使用难度、扩大数据覆盖范围、增加数据供给能力等几个方面开展。通过数据可视化、搜索式分析、数据产品化等降低数据使用难度;通过数据“平民化”(如打造数据应用商店)扩大数据覆盖范围,让一线业务人员接触到更多的数据,让数据分布更加均衡;通过数据消费者、数据生产者之间灵活的角色转变,增加数据的供给能力(如形成数据众筹众享模式)。
第二阶段的工作目标主要是为企业打造核心的管理数据资产的能力,同时为企业内数据资产管理部门形成数据管理的工作环境,概括起来,就是企业数据资产可管理、可落地。
本阶段主要交付物包括:《数据资产管理办法》、《数据资产管理实施细则》(包括数据标准管理、数据质量管理、元数据管理、主数据管理、数据安全管理、数据应用管理等)。
- 3. 第三阶段:稽核检查
稽核检查阶段是保障数据资产管理实施阶段涉及各管理职能有效落地执行的重要一环。这个阶段包括检查数据标准执行情况、稽核数据质量、监管数据生命周期等具体任务。
这个阶段需要抓好三个“常态化”。
一是数据标准执行情况检查的常态化。数据标准管理是企业数据 资产管理的基础性工作,通过数据标准管理的实施,企业可实现对大 数据平台全网数据的统一运营管理。数据标准管理的检查主要从标准 制定和标准执行两个方面检查。标准制定的检查主要围绕同国家标准、行业标准的一致性,同时参考与本地标准、数据模型的结合性,包括 数据命名规范、数据类别等。标准执行的检查主要围绕标准的落地情 况,包括数据标准的创建和更改流程的便捷性、数据标准使用的广泛 性、数据标准与主数据的动态一致性等。
二是数据质量稽核的常态化。应对数据质量问题,首先要提升数据质量意识,数据质量意识包括能够将数据质量问题与其可能产生的业务影响联系起来,同时也包括“数据质量问题不能仅仅依靠技术手段解决”的理念。尽可能从数据源头提升数据质量。其次,建立一套良性循环、动态更新的数据质量管理流程,制定符合业务目标的数据质量稽核规则,明确在数据全生命周期管理各环节的数据质量提升关键点,持续评估和监督数据质量与数据质量服务水平,不断调整更新数据质量管理程序,推动数据向优质资产的转变,逐步释放数据资产
价值,为企业带来经济效益。
三是灵活配置数据存储策略的常态化。数据生命周期管理,其目标是以完全支持企业业务目标和服务水平的需求,根据数据对企业的价值进行分类分级,形成数据资产目录,然后制定相应的策略,确定最优服务水平和最低成本,将数据转移到相应的存储介质上,争取以最低的成本提供适当级别的保护、复制和恢复。借助数据生命周期管理,企业不但能够在整个数据生命周期内充分发挥数据的潜力,还可以按照业务要求快速对突发事件做出反应。
四是数据资产安全检查的常态化。在大数据时代,数据资产更容易遭受泄露、篡改、窃取、毁损、未授权访问、非法使用、修改、删除等问题。2019 年 5 月,国家互联网信息办公室发布关于《数据安全管理办法(征求意见稿)》公开征求意见的通知。企业应通过建立对数据资产及相关信息系统进行保护的体系,合规采集数据、应用数据, 依法保护客户隐私,提高数据安全意识,定期进行数据资产安全检查, 保证数据的完整性、保密性、可用性。
本阶段主要交付物包括:《数据资产管理稽核办法》、《数据资产管理问题管理办法》。
- 4. 第四阶段:资产运营
通过前三个阶段,企业已经能够建立基本的数据资产管理能力, 在此基础上,还需要具备以实现业务价值为导向,以用户为中心,为企业内外部不同层面用户提供数据价值的能力。资产运营阶段是数据
资产管理实现价值的最终阶段,该阶段包括开展数据资产价值评估、数据资产内部共享和运营流通等。
数据资产价值评估能够以合理的方式管理内部数据和提供对外服务。在大数据时代,数据运营企业关于数据价值的实现是体现在数据分析、数据交易层面。数据资产作为一种无形资产,其公允价值的计量应当考虑市场参与者通过最佳使用资产或将其出售给最佳使用该项资产的其他市场参与者而创造经济利益的能力。只有对数据资产价值进行合理的评估,才能以更合理的方式管理内部数据和提供数据对外服务。
数据资产内部共享和运营流通需要加强管理运营手段和方式方法,促进数据资产对内支撑业务应用,对外形成数据服务能力,打造数据资产综合运营能力。数据资产内部共享主要是消除企业内数据孤岛,通过相关管理制度和标准体系的建设与推动,构建企业内数据共享平台,打通各部分各系统的数据,使更多的数据可以成为资产,应用于数据分析,全面动态促进数据价值的释放。数据资产运营流通主要是实现数据资产价值的社会化,需要从数据安全管理及合规性、数据资产成本及价值创造、组织结构优化、数据质量提升等方面进行规划并不断迭代,持续优化数据资产管理能力。
本阶段主要交付物包括:《数据资产价值评估方法》、《数据资产成本管理方法》、《数据资产共享流通管理办法》。
(二) 实践模式
数据资产管理在“统筹规划→管理实施→稽核检查→资产运营” 四个阶段的方法策略执行参照下,还可以根据两个思考维度,选择一些常用的实践模式。其一是组织方式,有自上而下的顶层设计模式和自下而上的各个击破模式两种类型;其二是建设策略,有生产系统优先和数据系统优先两种类型。
- 1. 数据资产管理的建设策略
企业数据资产管理的建设策略主要包括自上而下和自下而上两种方式。如果企业将数据资产管理纳入战略规划,且企业的高层拥有较大的决策权,可以采用自上而下的建设策略,结合企业业务发展目标制定长远的数据资产管理规划。如果企业的数据管理部门具有一定的独立性,并且具备专业技能和相关经验,可以采用自下而上的建设策略,以探索数据资产管理需求为驱动力,通过问题导向,推动企业数据资产管理的逐步完善。各模式的解释详细见表 4。
表 4 数据资产管理的两种建设策略
建设策略 |
建设要点 |
优缺点 |
自上而下模式 |
规划先行,组织体系先行,随后是分阶段分步骤的建设实施。 |
有体系和节奏,规范性好,适合有分支机构的大型企业; 时间和投入成本很大,见效慢。 |
由下而上模式 |
从具体某一业务需求开始,由点及面,逐渐扩展到组织的其他业务。 |
需求驱动,快速行动,见效快; 统一整合比较困难,适合机构和业务不多的中小型机构。 |
数据资产管理自上而下建设策略的显著特点是“规范、标准先行”, 项目开展通常由数据资产管理咨询项目开头,这种模式通常有以下几 项重要活动:
- λ 调研数据资产分布现状:数据资产现状调研在数据资产盘点、收集调研问卷、现场访谈等调研手段的基础上, 结合业务场景,充分的了解当前企业的数据资产分布情况, 也有助于企业在展开自上而下的数据资产管理前掌握业务人员的数据需求;
- λ 评估数据资产管理水平:通过自评估或者专业机构进行数据资产管理评估,将帮助企业在自上而下实施之前了解当前自身数据资产管理的现状,明确存在的问题和潜在的挑战,规划适当的数据资产管理蓝图;
- λ 建设数据资产管理体系:数据资产管理工作是一项跨业务、跨部门的系统工程,数据资产管理的从上而下实施高度依赖于高层管理人员的支持和职能集中化的数据资产管理组织。数据资产管理体系通过明确管理战略、制定管理制度、搭建组织架构等一系列活动,以企业级的全局视角推进数据资产管理的实施。
数据资产管理自下而上建设策略的显著特点是“问题导向、系统
建设先行、快速见效”。以解决各业务部门和业务系统数据管理中的问题为出发点,通过使用成熟的数据资产管理工具,快速搭建数据资
产管理平台,实现问题的逐个击破,并逐渐探索出全面的解决方案。参考各行业数据管理项目实践,自下而上的模式一般以解决企业面临 的元数据管理、数据质量管理两项核心数据资产管理任务作为切入点, 逐步扩展到数据模型管理、数据标准管理、数据安全管理等其它数据 管理职能。
- 2. 数据资产管理的切入方式
在建设策略方面,一般从生产系统入手或数据系统入手。从生产系统入手的常用建设模式包括企业数据模型建设模式以及主数据建设模式。从数据系统入手的常用建设模式包括统一数据平台模式和数据集市模式。
企业在选择不同建设策略的时候,可以考虑数据对于企业的重要性以及企业目前对于数据的管理水平。如果数据是企业重要的业务资源,同时企业已经具备了一定的数据管理专业水平和经验,可以通过从数据系统入手的实施方式,通过修复数据管理漏洞、提升数据服务应用水平,推进数据管理能力建设。如果企业的数据管理水平并不成熟,那么选择直接从数据管理系统入手有些冒险,而从业务系统入手则较为稳妥,也易见成效。各模式的解释详细见表 5。
表 5 数据资产管理的切入方式
切入方式 |
细分方式 |
切入要点 |
生产系统入手 |
大型生产系统开发建 设模式 |
从大型生产系统开发入手,借助项目建设契机,建立该应用 和业务领域数据的企业级标准和质量管控。 |
|
企业数据模型建设模 式 |
从企业数据模型出发,在建模同时建立标准,规范生产环节 的数据录入,保证数据质量。 |
主数据建设模式 |
从解决主数据的质量和业务协同入手,推动生产环节在客 户、物料、组织机构、产品、统一编码。 |
|
数据系统入手 |
统一数据平台模式 |
以数仓、大数据平台等统一数据整合平台为切入点,统一接入各业务各分公司的数据,统一语义和标准,提升数据质 量。 |
数据集市模式 |
各业务单独建立自己的数据仓库,满足自己的数据分析需求;或者从某个特定的分析主题为切入点,进行建设,后续统一对每个业务的数仓进行语义和标准方面的规范,实现 物理分离,逻辑统一。 |
(三) 软件工具
数据资产管理实践实施过程中,需要依托具体的软件工具来执行。而且随着技术的发展,软件工具的自动化、智能化程度不断地提高, 在数据资产管理中的作用越来越大。目前针对上述管理职能,业界很 多厂商都开发了相关软件工具,其中,相对比较成熟的工具有数据标 准管理工具、数据模型管理工具、元数据管理工具、主数据管理工具、 数据质量管理工具、数据安全管理工具和数据生命周期管理工具等七 类工具,这七类工具有的是单独呈现,有的是相互组合在一起形成包 括多种功能的软件平台,其具体意义和主要功能将展开具体阐述。除
“数据资产管理”相关的工具之外,在大数据能力构建中,一般还要利用“数据集成工具”、“数据共享交换平台”等,通过传统数据仓库或大数据平台等媒介将数据集成交换到一起,从而为应用分析或开放做准
备,涉及工具如 “商务智能(BI)分析工具”、“报表工具”、“数据挖掘平台”、“用户行为分析平台”、“数据开放平台”等。
- 1. 数据标准管理工具
数据标准制定及维护工具可以规范数据资产格式、命名的准确性和口径的一致性,该工具针对数据标准管理职能而开发,需具备以下基础功能:
- λ 标准生成:可按照业务领域、业务主题、信息分类、信息项等生成标准细则;
- λ 标准映射:可以将制定的标准与实际数据进行关联映射,即实现数据标准的落地执行,维护标准与元数据之间的落地映射关系,包括元数据与数据标准的映射、元数据与数据质量的映射,以及数据标准和数据质量的映射,能提供在线的手工映射配置功能,并能对映射结果做页面展示;
- λ 变更查询:是查询发布或废止的标准的变更轨迹;
- λ 映射查询:是查询标准项与元数据之间的落地情况并提供下载功能;
- λ 维护标准:是指对标准状态进行管理,包括增删改、审核、定版、发布、废止等;
- λ 标准版本查询:是指对发布状态的标准进行版本管理;
- λ 标准导出:是指按照当前系统中发布的最新标准或
者选择版本来下载标准信息;
- λ 标准文档管理:指对标准相关说明文档或手册的管理,包括创建、修改、链接查询等。
- 2. 数据模型管理工具
针对企业在不同业务发展阶段建设的一个个竖井式系统,最大的挑战莫过于系统集成过程中数据模型的不一致,解决这个问题的唯一方法就是从全局入手,设计标准化数据模型,构建统一的数据模型管控体系,数据模型管理工具负责对企业数据模型的管理、比对、分析、展示提供技术支撑,需要提供统一、多系统、基于多团队并行协作的数据模型管理。解决企业数据模型管理分散,无统一的企业数据模型视图、数据模型无有效的管控过程,数据模型标准设计无法有效落地、数据模型设计与系统实现出现偏差等多种问题。该工具针对数据模型管理职能而开发,需具备以下基础功能:
- λ 数据模型设计:支持对于新建系统的正向建模能力, 还应支持对原有系统的逆向工程能力,通过对数据模型进行标准化设计,能够将数据模型与整个企业架构保持一致,从源头上提高企业数据的一致性;
- λ 模型差异稽核:提供数据模型与应用数据库之间自动数据模型审核、稽核对比能力,解决数据模型设计与实现不一致而产生的“两张皮”现象,针对数据库表结构、关系等差别形成差异报告,辅助数据模型管理人员监控数据模型质
量问题;提升数据模型设计和实施质量;
- λ 数据模型变更管控:支持数据模型变更管控过程, 提供数据模型从设计、提交、评审、发布、实施到消亡的在线、全过程、流程化变更管理。同时,实现各系统数据模型版本化管理,自动生成版本号、版本变更明细信息,可以辅助数据模型管理人员管理不同版本的数据模型。通过工具可以简单回溯任意时间点的数据模型设计状态以及数据模型设计变更的需求来由,实现各系统数据模型的有效管控和管治, 强化用户对其数据模型的掌控能力;
- λ 模型可视化:支持将管理的数据模型 E-R 图(实体关系图)转换为图片、数据建模脚本(DDL)等可视化展示形式,方便数据模型管理人员以全局视角监控系统中各类数据实体结构及实体间关系。
- 3. 元数据管理工具
元数据管理工具可以了解数据资产分布及产生过程,该工具针对元数据管理职能而开发,需具备以下基础功能:
- λ 元数据采集:能够适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑,也可通过自动化的方式完成元数据采集,比
如用户维护好数据源连接信息后,可以根据数据源的更新频率,设定元数据同步周期,元数据管理会根据数据源的连接信息、同步周期以及开始时间,定时自动解析、获取、并更新元数据信息,保证平台元数据信息的及时有效;
- λ 元数据识别:能够从本身不包含元数据信息的数据
(比如非结构化数据)中提取特征,并以此识别元数据;
- λ 元数据分类:能够根据业务特点和管理需要,动态分类元数据,包括技术元数据、业务元数据和管理元数据等;
- λ 元数据展示:能够根据类别、类型等信息展示各个数据实体的信息及其分布情况,展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系;
- λ 元数据应用:能够利用元数据发现数据之间的关联性,一般包括数据地图、数据血缘分析、影响分析、全链分析、热度分析等;
- λ 元数据搜索:可根据数据源库、类型等搜索元数据信息。
- 4. 主数据管理工具
数据管理工具用来定义、管理和共享企业主数据信息,可通过数据整合工具(如 ETL)或专门的主数据管理工具来实施主数据管理, 具有企业级主数据存储、整合、清洗、监管以及分发等五大功能,并保证这些主数据在各个信息系统间的准确性、一致性、完整性。简单
说来,存储、整合是数据的“入口”,分发为数据的“出口”,而中间的清洗与监管将担负起数据质量提升的重要任务。该工具针对主数据管理职能而开发,需具备以下基础功能:
- λ 主数据存储、整合:实现主数据整合、清洗、校验、合并等功能,根据企业业务规则和企业数据质量标准对收集到的主数据进行加工和处理,用于提取分散在各个支撑系统中的主数据集中到主数据存储库,合并和维护唯一、完整、准确的主数据信息;
- λ 主数据管理:支持对企业主数据的操作维护,包括主数据申请与校验、审批、变更、冻结/解冻、发布、归档等全生命周期管理;
- λ 主数据分析:实现对主数据的变更情况监控,为主数据系统管理员提供对主数据进行分析、优化、统计、比较等功能;
- λ 主数据分发与共享:实现主数据对外查询和分发服务,前者用于在其它系统发出针对主数据实时响应类查询请求时,返回所需数据,后者则用于提供批量数据分发服务, 一般采用企业服务总线(ESB 工具)实现方式。
- 5. 数据质量管理工具
数据质量管理工具从数据使用角度监控管理数据资产的质量,针对数据质量管理职能而开发,需具备以下基础功能:
- λ 质量需求管理:对数据使用过程中产生的问题进行收集、存储、分类并提供查询检索功能,为质量规则的制定提供依据;
- λ 规则设置:能够提供稽核规则设置功能,用于设置一个稽核规则应用于哪类数据;
- λ 规则校验:能够对所关注的数据执行数据质量规则的校验任务;
- λ 任务管理:能够提供稽核任务调度功能,指定稽核任务周期执行;
- λ 监控分析:对规则校验的结果进行监控和分析,校验结果能够定位到原始数据项;
- λ 质量报警:能够对质量问题及时进行报警,避免数据污染的发生,造成成本或业务损失;
- λ 报告生成:能够对校验结果的质量问题进行记录, 积累形成问题知识库,并生成报告,在此基础上,能够根据检核结果,生成对问题数据的质量提高建议,并可直接操作修改数据。
- 6. 数据安全管理工具
数据安全管理工具是结合信息安全的技术手段保证数据资产使用和交换共享过程中的安全。数据管理人员开展数据安全管理,是指执行数据安全政策和措施,为数据和信息提供适当的认证、授权、访
问和审计,以防范可能的数据安全隐患。需具备以下基础功能:
- λ 数据获取安全:能够支持数据获取需要经过申请与审批流程,保障数据获取安全;
- λ 数据脱敏:能够支持数据脱敏规则、脱敏算法及脱敏任务的管理及应用,一般情况下,脱敏方式有动态脱敏和静态脱敏两种;
- λ 统一认证:定义数据安全策略,定义用户组设立和密码标准等;
- λ 租户隔离:管理用户,密码,用户组和权限;
- λ 角色授权:划分信息等级,使用密级分类模式,对企业数据和信息产品进行分类;
- λ 日志审计:审计数据安全,监控用户身份认证和访问行为,支持经常性分析;
- λ 异常监控:指对账号异常行为的监控,如同一账号异地登录、同时多 IP 登录、多次重复登录等;
- λ 数据分类分级:能够支持对数据资产安全进行敏感分级管理,并支持根据各级别生成对应的数据安全策略。
- 7. 数据价值管理工具
数据价值管理通过对数据内在价值的评估、数据成本和收益的管理,实现数据资产化管理,需具备以下基础功能:
- λ 数据需求分析:通过数据库或者数据平台的各种数
据分布分析和访问状态分析,协助数据管理人员对数据生命周期管理策略,有效发现和挖掘当前数据平台或者数据库中历史数据增长最快的关键数据,同时,为管理业务部门需求, 满足业务部门对数据使用的要求提供有效的数据化支撑;
- λ 数据价值评估:依据数据需求分析,建立合适的数据价值评估模型,主要包括数据成本和收益的评估方法、评估指标等,并支持对数据价值评估方法与各项指标的动态更新;
- λ 数据成本管理:能够完成数据成本(主要包括存储成本和计算成本等)的优化,并给出影响成本的分析报告(如包含重复计算、代码质量差等);
- λ 数据收益管理:能够动态调整数据收益评价指标, 依据指标对数据应用进行全流程管理,增加数据收益;
- λ 数据服务:通过构建服务目录、授权数据服务等有效完整的记录数据服务信息,并最终生成数据服务报告,展示数据服务的价值;
- λ 数据资产价值统计:能够可视化展示数据资产的一段时间内的统计视图,展现数据使用和成本的变动。
- 8. 数据服务管理工具
数据服务管理是指在数据管理平台上提供数据或数据分析结果的服务,包括企业内部数据共享和外部数据流通,通过构建服务目录、
授权数据服务等有效完整的记录数据服务信息,最终生成数据服务报告,展示数据服务的价值,需具备以下基础功能和辅助功能:
- λ 服务目录:能够精确的展示各目录下能够提供的数据服务类型、服务流程、数据资产目录等,其实数据资产目录能够按照业务要求和企业标准,自定义构建数据资产目录层级,并描述数据资产相关属性,包括表级属性(如表名、目录、更新周期、业务类别等)和字段结构(如字段名称、字段类型、字段长度等);
- λ 服务目录版本管理:能够记录数据资产目录变更版本信息,包括具体变更情况;其中数据资产目录可以通过元数据关联导入,在元数据有变更时,自动同步;
- λ 数据资产共享和流通:提供数据资产下载、共享、流通及服务接口等,支持按共享属性(如无条件共享、有条件共享、不共享等)对资源目录下的数据资产进行分类,支持直接提供数据和数据分析结果;
- λ 其他功能:数据服务可以通过“数据超市”的形式开展,用户通过订阅具体服务获取和使用数据。
(四) 成功要素
- 1. 明确责权利标,有效推进管理
数据资产管理最重要的成功要素之一就是重视组织管理的作用, 将责权利清晰化,逐步建立健全包括管理型人才和技术性人才的适应
数据发展的人才结构,减少工作推进阻碍。并注重数据标准化环节以 保障信息体系不发生混乱,确保数据规范一致性。数据标准是数据资 产管理的基础,是对数据资产进行准确定义的过程。对于一个拥有大 量数据资产的企业,或者是要实现数据资产交易的企业而言,构建数 据标准是一件必须要做的事情。标准化是解决数据的关联能力,保障 信息的交互、流动、系统可访问,提高数据活化能力。保障信息体系 不发生混乱,确保数据规范一致性——避免数据混乱、冲突、多样、一数多源。数据资产管理的核心目的是有效综合运营数据以服务企业, 让数据成为利润中心的一部分,这离不开管理,更离不开技术。
- 2. 合理引进技术,提升治理能力
人工智能、物联网、新一代移动通信、智能制造、空天一体化网络、量子计算、机器学习、深度学习、图像处理、自然语言处理、4k 高清、知识图谱、类脑计算、区块链、虚拟现实、增强现实等前沿技术正在大数据的推动下蓬勃发展。然而,在实现数据资产管理的过程中,应根据自身实际情况,避免盲从,合理引进创新技术以提高数据挖掘准确性和挖掘效率,节省人力成本。信息时代万物数化,企业拥有数据的规模、活性以及收集、运用数据的能力,决定其核心竞争力。掌控数据,就可以支配市场,意味着巨大的投资回报,数据是企业的核心资产。数据在实现价值的过程中需要充分依托技术,但更离不开结合自身业务与应用,合理规划。大数据和云计算的建立与开放至关重要,可以帮助企业梳理数据内容,高效检索展示,最终给企业带来
一定的经济收益和社会效应。但其应用的成功与否还是要取决于企业自身商业模式的建立,以数据融合技术为战略资产的商业模式,可以决定企业未来。
- 3. 着眼业务应用,释放数据价值
数据资产化进程给各类企业带来重生、颠覆和创新,企业应重点关注、顺势而为,建立起符合自身业务和数据特点的数据资产化体系和能力,数据资产管理人员不能只陷于数据资产管理工作,还应紧密联系业务,只有明确了前端业务需求,才能做到数据资产管理过程中的有的放矢,张弛有度。数据的价值体现在决策精准、敏锐洞察,数据资产管理能够使管理具流程化、规范化,结合业务应用的数据资产管理不仅使数据保值增值,还将会给企业带来更加巨大的经济效益和社会效益。
- 4. 加强数据合规,注重风险风控
在数据资产管理的过程中,综合考虑困难及挑战,并全面管控风险,要基于行业模型、行业标准等积累完整、准确的内外部数据以保证数据合规性,进而规避风险。数据资产管理是一项持之以恒的工作, 不可能一蹴而就,需要一个循序渐进的过程分阶段进行。要做好充分地长期作战准备,就一定要加强数据合规操作,避免安全漏洞,及时风险风控。
- 5. 持续迭代完善,形成良性闭环
一步到位建立一套完美的数据资产管理体系是很困难的。主要原因是业务需求会随着市场环境不断变化,技术手段也在不断革新,因此数据资产管理体系不是一劳永逸、一蹴而就的,需要建立一个小步迭代的数据资产管理循环模式。在管理制度层面,需要制定有利于业务人员、技术人员积极为数据资产管理体系循环迭代完善献言献策的方法和制度,进而促使数据资产管理体系在实践中日趋成熟;在技术平台方面,要借鉴DevOps 的理念,促进开发、技术运营和质量保障部门之间的沟通、协作与整合,确保数据资产管理系统平台持续、健康地为数据资产管理体系服务。
四、 总结与展望
“数据之于本世纪,就像石油之于上世纪:它是发展和改变的动力。数据已经产生了新的基础设施、商业领域、垄断机构、政治理论, 最关键的是,还产生了一种新经济。数据信息不像过去的其他资源, 它采用不同的方式提取、加工、估值和交易。它改变了市场规则,要求使用新的管理方式。”⑦
数据作为日益重要的战略资源,需要完善的管理体系。为此,中国信息通信研究院云计算与大数据研究所牵头与其他 TC601 成员单位共同编写了《数据资产管理实践白皮书》,阐述了大数据背景下的数据资产管理概念和特征,描述了数据资产管理的主要管理职能和保障措施,提炼了实施数据资产管理的主要步骤。白皮书的目的是澄清概念,梳理经验形成方法论,希望引起业界对数据资产管理工作的重视,为数据资产管理研究和实践提供参考。
我们也认识到,数据资产管理知识体系涉及管理、技术等多个学科,是一个非常复杂的系统工程,相关工作在国内刚刚起步,理论还不完善,也缺乏广泛的实践基础,仍需要业界紧密合作,在数据资产管理的理论和实践上不断取得新的进展。
由于时间仓促,水平所限,我们的工作还有很多不足。下一步, 我们还将广泛采纳各方面意见建议,进一步深化相关研究,持续完善白皮书内容。诚邀各界专家学者参与我们的研究工作,积极献言献策,
⑦ 数据是未来的石油:数据如何推动新经济增长,《经济学人》,2017 年 5 月,
https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data-giving-rise-new-economy
共同完善国内数据资产管理理论和方法论体系,为促进大数据与实体经济深度融合做出积极贡献。
附录:术语
数据管理 Data Management
是规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据和信息资产的价值。—— DMBOK 1.0
数据治理 Data Governance
作为数据管理的其中一个核心职能,是对数据资产管理行使权力和控制的活动集合
(规划、监控和执行),指导其他数据管理职能如何执行,在高层次上执行数据管理制度。—— DMBOK 1.0
数据资源 Data Resource
广义上是指对一个企业而言所有可能产生价值的数据,包括自动化数据与非自动化数据。——wikipedia
数据资产 Data Asset
是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。—— DMBOK 1.0
参考数据 Reference
参考数据是用于将其他数据进行分类或目录整编的数据,通常来说参考数据值是几个允许值之一(允许值的数据集是一个值域)。在所有的组织中,参考数据几乎都虚拟存在于整个组织的每一个数据库中。—— DMBOK 1.0
数据字典 Data Dictionary
是一种用户可以访问的记录数据库和应用程序源数据的目录,用规范化的,无二义性的语言表达数据流程图的各组成部分,是对数据流程图各个组成部分的详细数据说明, 也是表达新系统逻辑模型的主要工具之一。包括主动数据字典(active data dictionary) 和被动数据字典(passive data dictionary),前者是指指在对数据库或应用程序结构进行修改时,其内容可以由 DBMS 自动更新的数据字典,后者是指修改时必须手工更新其内容的数据字典。—— DMBOK 1.0
数据目录 Data Catalog
作为一种主动数据字典,用以帮助用户找到满足自身需求的数据来源并且帮助他们
理解利用数据源进行挖掘的过程,同时也帮助企业在现有的数据源下实现更多的收益。多数关系型 DBMS 产品将数据目录设置为关系型表格的形式。——wikipedia
数据血缘 Data Lineage
通常是数据生命周期的一种,包括数据的起源以及到当前位置的完整路径描述,帮助用户分析信息的使用过程并且追溯在每一个节点上有特定用途的信息。 —— DMBOK 1.0
血缘分析 Lineage Analysis
也即血统分析,是通过对数据处理过程的全面追踪,从而找到以某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。它是对数据对象内在关系的一种映射,同时,还结合了时间顺序、递次关系,也能够反映出一定的相关性和因果关系。——wikipedia
影响分析 Influence Analysis
不同于血缘分析(血统分析)通过回溯方式找到所有元数据对象以及这些元数据对象之间的关系,影响分析是基于某个数据对象,寻找依赖于该对象的处理过程或其他数据对象,并在某些数据对象发生变化或者需要修改时,评估其影响范围。——wikipedia
非结构化数据 Unstructured Data
用来描述具有高度可变数据类型和格式的任何数据(尚未标记或记录于行和列的数据),如文件、图形、图像、文字、报表、表格、视频或录音,具有数据格式多样、数据冗余度高、数据规模大等特点。—— DMBOK 1.0
数据仓库 Data Warehouse
是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合用于支持管理决策。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。—
《Building the data warehouse》 W. H. Inmon
数据集市 Data Mart
是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主
题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。——wikipedia
数据地图 Data Mapping
数据地图作为数据融合的第一步,指在数据仓库中使用一系列严格定义的数据连接不同的数据模型。数据定义可以为任意的原子单位,比如一个单位的元数据,而数据的连接遵从一系列依赖于该模型阈值的标准。——wikipedia
数据湖 Data Lake
数据湖是以其自然格式存储的数据的系统或存储库,通常是对象 blob 或文件。 数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。 数据湖可以包括来自关系数据库(行和列) 的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。——wikipedia
发表评论 取消回复