数据空间
您当前的位置: 首页 /数据知识

为什么数据管理工作很难成功?

发布时间:[2023-12-07] 来源:网络 点击量:

大数据时代的到来,大家开始将数据当成资产,数据管理的意义也越来越大,但很多企业的数据管理工作都很难取得成功,这是为什么

首先来看下数据管理的定义

根据DAMA的说法数据管理“发展架构、政策、实践和程序以管理数据生命周期的过程”。

维基百科将数据管理描述为对数据资源的管理,并提到DAMA的定义:“数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序”。这是一个高层且广泛的定义,可能不直接涉及到数据管理的具体操作。

百度百科也提到了类似的定义,即数据管理是对数据资源的管理,引用DAMA的定义:“数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序”

定义强调数据管理的手段,但数据管理最终目的是什么呢?

虽然当前如DAMA等的数据管理书不少,但考虑到数据管理体系太过庞大,看这类书往往如盲人摸象,抓不到头绪。

本文结合实践和主观思考作为抛砖引玉提出一点看法,实际上,每个企业都应该建立适合自己的数据管理体系。

首先,为什么要做数据管理

数据管理的目的就是让数据变现高效低成本的运作,正如企业管理一样,因此,没想清楚之前,不应该盲目开展一个数据管理项目,更不盲目采购数据管理产品,首先要想清楚做这件事情能带来什么价值?

那么,何谓高效低成本运作?

首先,要认识到每数据的实际价值,即哪些核心业务与这些数据相关,这是定方向其次,安排好数据优先级,确保正常出数最后,淘汰过时和无用的数据,即以最小的代价带给业务最大的价值。

这个认识很重要,许多人刚开始做元数据管理的时候是很盲目的,他们往往花大部分精力考虑工具的选取,而未深究做事的本质,导致性价比严重低下。比如人们总想着如何进一步提升SQL解析能力,将其作为系统成功的第一要务,但这个真的是最重要的吗?

数据管理,不是为了管理而管理,如果没有明确的目的,就不要开展数据管理工作。很多人会发现数据管理这类基础工作很难开展,领导不理解做事没成效等等,还有很多原因往往自己都说不清楚,这些阻碍也数据管理工作的失败埋下了祸根。

但有了目的和方向还不够。

搞数据的,做事量化是根本无数据,不管理数据管理工作,也需要用数据来进行决策。

以下举例:

数据模型的应用价值KPI-比如模型提供了哪些间接收入,规则可以自己定,但指标要能反映模型对于应用的支撑能力

数据模型的提供能力KPI-比如模型及时正常出数的情况,要能反映模型的及时率及正确率,是衡量运营能力的一组标准

数据模型的优胜劣汰KPI-比如关注投资效益比,要关注数据的生命周期管理,投资当然需要,但也要懂得节省,该转移或删除的数据,就要坚决执行,一张每天10万数据的临时小表,一年就是3千多万,如果有100张,那也是不小的投资,家里有余粮,也不能滥用。

明确了目标和衡量指标,接下来就要制定一系列的规范和制度,所谓无规矩不成方圆。

数据管理规章制定很难,在起步的时候,不要东一榔头西一棒槌,最好的建制方式是以管理目标为圆心,实践制定,没有最好的,只有最适合的。

下面先做一个衡量数据管理能力的评估题目,注意回答不要泛泛而谈,一要量化,二要靠机器回答,三要半小时内回答。

能否直接给出每张表对于数据变现的价值?或假如这张表不出,会带来多少潜在损失?(虚拟指标都可以)。

能否直接给出每张表的运行质量报告?能否根据优先级给出运行优化的具体建议?

哪些表能直接下线?

你会发现,要能回答这些问题,不仅仅是建个数据管理系统那么简单,需要制定对应的数据管理规范和标准。

如果需要知道每张表对于数据变现的价值,必须有应用跟表的关系,因此,开发上线的时候必须制定规范,起码要提交映射关系,同时为了防止两张皮现象,必须依赖自动化的系统。

如果需要知道每张表的数据质量报告,必须制定相关的质量指标,并能够及时预警和处理,这个需要一套数据质量监控制度。

如果需要确定哪些表能直接下线,必须制定一套数据表生命周期管理制度,需要有表的比如血缘和影响分析,否则怎么知道有多大影响?

如果要让运维人员知道这些表谁是谁,则必须有好的数据字典,明确表命名规范和口径定义,以降低管理成本。

如果….

你看,所有的数据管理规章制度其实都是为了确保目的达成,由此会延伸出一个庞大的数据管理体系,但还是要懂得能抓住本质。因为一开始,不可能想到这么多,能做这么多,需从本源开始思考从何入手。

以下为某公司制定的相关数据管理规范可作为参考。

 

图片3.jpg 

 

说完制度,接下来就提到数据管理工具了。

数据管理工具数据管理规范贯彻落地的强大保障当前情况下,工具越来越重要从经验上来说数据管理领域很难纯粹的人力提供保障,人力大多不够可靠难以持续,如果面对大数据,更加难以实现较好的管理效果

外,数据管理的可视化其实也很重要,ETL任务多达上千个,因此,快速判断任务是否运行成功很重要以前,管理者拿到的是运维者的报告,但里面可能是有水分的,运行情况可能远没有报告所称的那么理想,任务大量失败而挂起,运维疲于奔命去处理问题,而后提交一个完美的报告,而管理者还以为一切OK,冰山下隐藏的问题,远远超过管理者看到的冰山一角。

当前数据管理的产品不少,但很多其实难以达到要求,原因很简单,数据管理工具太靠近上游,越靠近用户的产品其实越难做抽象,也越难成功。比如一些元数据管理工具,很难解决产品中的元数据跟生产系统元数据两张皮的现象。

才算是好的数据管理工具呢?

好的数据管理工具应该数据管理能力渗透到数据生产流程中去。

比如以前生产建表是开发人员写代码建表,虽然建表有规范,但开发人员是否执行是另外一回事,而且建表注释写得乱七八糟,往往需要靠事后稽核,但大家都知道这很不可靠,现在,工具可以提供一个可视化开发界面,将建表规范作为规则纳入系统,强制要求开发人员在该界面上建表,只要不符合规范就予以拒绝,比如注释缺乏,未有分区键,字段定义长度不符,字段命名不符等等。

如果有可能,将所有的数据管理规范提炼成规则,都纳入到系统中强制执行,数据管理就能实现与生产系统的无缝衔接,数据管理成为生产的一部分。

前面提到的很多元数据管理等工具之所以难以成功,往往因为它是一个外挂系统,所有的信息需要事后喂给它,而不是强制的,导致与生产系统变得越来越不一致从而失去信任直至死亡。

有人会质疑这对于数据管理平台要求太高,对于开发约束太多,存量改造太困难,的确,这些都是问题,数据管理本来就是个难度极高的工作,不做当然也可以,但如果希望更进一步,就需要付出代价数据管理工具是种辅助手段,是否采用,采用哪种,都依赖于企业基于实际情况和性价比去做选择。

关键的一点,即管理者的态度。

数据管理一项系统工程,DAMA,DIMM等都将其上升到企业战略这个层面去谈,但有时再好的规划也赶不上变化。

管理者始终关注的是效益,数据管理也不例外,因此,说服管理者,也应该坚持“效益导向,能力建设”的原则,坚持向数据要收益,比如一个企业,垃圾数据和冗余数据占据了很多空间,做好这类管理可以省一大笔钱,核查问题也一样,原来看文档抓人,现在查系统,哪个更有效?现在IT企业人来人往,没个知识库,系统重翻或新人培养,会给企业造成很大代价

数据管理也涉及企业很多流程的再造和新机制的建立,比如规范开发流程,影响也是全方面的,必须获得管理者的支持,否则举步维艰。

最重要的是做事的人

数据管理是个专业化的工作,需要专门的人沉下心去做,指派兼职是难以真正完成这项工作的。数据管理项目的失败,往往是自己投入不足,坚持不足所致。人才始终数据管理的第一要务

 

 

中翰软件:专注数据治理18年(http://www.jobhand.cn

 

 

免责声明:本网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、链接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。

 


发表评论 共有条评论
用户名: 密码:
匿名发表