文本|大数据架构师
有一段时间我在给甲方爸爸做项目的时候,他们看着我成长,成长,他们喜欢挑战一些问题,其中“什么是元数据”是我遇到最多的一个。遇到这种问题,不能啰嗦,也不能太专业,否则领导不抽烟。
此外,元数据和主数据也是数据治理的核心。今天,我将为您详细解释这些名词。
为什么这么多名字?
刚进入数据行业的时候,被一堆名词搞糊涂了。什么元数据、技术元数据、业务元数据、运营元数据、主数据、参考数据、交易数据、业务数据、维度、度量、指标等。等。当时是打官司。
那是刘姥姥进入大观园,见什么都新鲜,什么都不懂,长期处于信息过载的状态。当时没人帮我整理,也没时间系统学习。我只是硬着头皮边学边用,逐渐加深了理解。其实这些东西都是相互关联的。我梳理了一下,这样可以清楚得多:
我们知道,当面对大量的信息时,最好的办法是对它们进行分类、合并、分解,用一个结构组合起来,让它们容易理解。其实所有数据都一样。我根据数据记录、管理和分析的三个目的对这些数据术语进行了分类。这样清楚多了吧?
类别数据
什么是交易数据?
它是事务数据库处理数据的一个单元,可以理解为数据库CRUD操作。事务是指记录数据库操作的系统日志数据,以及具体业务场景中专门记录的数据,比如用于安全审计的系统登录日志。
什么是商业数据?
业务数据是为完成业务流程而存储的业务操作数据。是业务系统的绝大部分表格和数据。
什么是日志数据?
的早期日志数据属于事务数据。现在大数据时代,用户对数据的访问越来越重要,所以单独分开。
什么是元数据?
元数据是描述数据的数据。这句话怎么理解?以小学课文《翠鸟》为例,我告诉你这是翠鸟。如果你没见过翠鸟,你当然无法理解什么是翠鸟。但是如果是这样描述的呢?
翠鸟喜欢停在水边的芦苇杆上,一双红色的小爪子紧紧地抓着芦苇杆。它的颜色很鲜艳。头上的羽毛像橄榄头巾,绣着翠绿色的图案。背上的羽毛像一件浅绿色的外套。腹部的羽毛像一件赤褐色的衬衫。它小巧玲珑,一双明亮灵活的眼睛下长着一张又尖又长的嘴。
翠鸟如上所述。是如何描述的?从这几个方面:停在那里,小爪子,颜色,头上的羽毛,背上的羽毛,腹部的羽毛,体型,眼睛,嘴巴。
同理,现在我讲一个数字:175。除了有确定的数量意义,你无法理解175代表什么。但是如果是这样描述的呢?
这清楚了吗?75表示:2020年统计的全国成年男性平均身高。这个值的合理阈值是80-260cm。数据目前存在MySQL中,访问连接是XXXX,是国家统计局张三在2020年1月1日创建的。数据目前是公开安全的,质量也是经过反复确认的。
用什么描述项来描述175的数据?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、界面、创建人、创建时间、数据权限、质量等级等。这些都是描述175的数据。我们把描述175的数据的其他数据称为“元数据”。
当然,为了方便管理,我们也可以将上述元数据进行分类:
与业务规则和流程相关的描述性数据,我们称之为业务元数据;
存储、访问等技术底层的描述性数据,我们称之为技术元数据;
与数据操作相关的描述性数据,我们称之为操作元数据;
与数据管理相关的描述性数据,我们称之为管理元数据。
元数据能解决什么核心问题?
如上所述,元数据是为了准确描述我们拥有的所有数据。其核心目的是降低人与数据的沟通成本。描述越准确,使用数据的成本越低。
什么是主数据?
主数据是关于业务实体的数据。主数据是关键业务实体最权威、最准确、最有价值的数据,用于建立闭环交易。实际上,将主数据翻译为“核心数据”可能更合适,因此主数据也被称为“黄金数据”。这么说吧,其实阿里的One ID就是主数据概念的结果。
对于CRM客户管理系统,用户是主数据;对于银行,卡bin码,银行,账号,理财产品等。都是主数据;对于生产企业来说,BOM就是主数据;对于二手房平台来说,房源信息就是主数据。壳牌的房产字典就是典型的主数据。他们从2008年开始建设,历时12年,投资5.6亿元。
所以我们总结一下,主数据有以下几种:
与人相关的:用户、顾客、公民、病人、供应商、学生等。与事物相关的:实物产品、虚拟产品(理财产品)、生产资料(BOM)等。网站相关:地址库、房产字典、POI信息等。规则相关:财务账套等。在传统IT企业,甲方的主数据可以成立一个上千万的项目。国内也有很多专门做主数据业务的公司。主数据的核心思想是全球唯一的标准数据。因此,主数据通常会执行以下操作:
确定核心业务环节,识别主数据,定义和维护主数据匹配规则(编码规则、ID映射),建立和发布数据标准,主数据的后续维护和更新。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/244931.html