当大数据变坏时:康复数据质量
我们生活在一个数据驱动的世界中。
在过去的十年中,这个词 大数据 这是技术的最前沿 - 尽管该术语被普及 John Mashey. 二十多年前。大数据任务提示企业雇用使用数学分析和归纳统计的团队来揭示关系和依赖性。这种大数据技术专家的使命是使用数据来预测成果和行为,导致企业优势。
为了以这种方式利用数据,数据本身必须是声音和可靠的。含义:试图根据不良数据做出决策实际上比绝对没有数据的决定更糟糕。
“良好的业务决策不能用坏数据制作。”
在本文中,当前雇主试图利用其后来实现的数据时,我了解到我了解到的课程。基于该课程,我们将快速转向现代工程方法,将数据质量保持在开发生命周期的一部分。
反思房地产业
在大数据之前,努力雇用 数据仓库 (dw)和 商业智慧 (BI)技术深入了解公司业务状况的技术。甚至在此之前,信息技术人员常常恢复车轮(在筒仓中)希望使用自定义代码来产生竞争优势。
这是在此时,我发现自己与房地产业的领导者合作。虽然被认为是他们行业段的Frontrunner,但维持竞争对手的距离成为挑战。
其中一家公司的兴趣区成为定义,证明和保护他们收取租户的金额所需的时间。而不是每平方英尺充电,而是有其他数据因素在租金中发挥着作用 - 双方被视为公平的价格。
考虑这五个数据点作为示例:
-
空间存在的财产质量
-
酒店内的空间位置
-
靠近物业的其他租户
-
租户与房地产公司的现有关系
-
考虑新租约的租客的稳定性
租赁团队 - 访问不同的系统 - 分析并回答了这些问题中的每一个。
提供理想的租金解决方案
IT部门采取了自筹资金的倡议来解决这个问题。目标是介绍一个应用程序 - 让我们称之为理想的租金 - 这将要求用户提供一系列输入,类似于以下内容:
-
所需空间的财产和位置
-
拟议租赁的开始和结束日期
-
有关使用的租户姓名和信息
使用这些信息,系统将收集并预测可以通过为财产和租户提供相同价值的因素来证明的速率。在高层,理想的租金解决方案利用以下设计:
完成幕后逻辑的努力非常涉及,因为数据集成产品仍处于技术触发阶段 Gartner炒作周期。
提出理想的租金解决方案
当租赁领导第一次审查申请时,他们持怀疑态度,简单的输入形式可以产生以前需要大量基于人的分析的结果。一旦他们第一次看到申请,租赁团队就会很快注意到所产生的建议的方面,这些建议没有有效的假设。基本上,技术团队认为他们比租赁过程的所有者更好地了解。
该系统并未成为达到最佳解决方案的单一,以提供给定租约的公允速度。事实上,从这种经历中实现了两个关键课程:
-
租赁团队没有完全涉及的努力,导致对数据的理解缺乏了解。
-
该功能团队不了解数据正在发生的上游更改。这会影响理想租金申请提供的建议的数据质量和下游结果。
数据驱动的决策需要质量数据
从租赁行业榜样中学到的主要教训是我在Dzone.com上的现有文章中讨论的。我最喜欢的是“卓越的产品所有者的秘诀“我在2017年写回来的出版物。它专注于一个名叫的人 Michael Kinnaird.,谁仍然是我在30多年的信息技术期间合作的最佳产品所有者。
Uber Engineering报价早期提供我们在理想租金示例中学到的第二课的摘要。
就像质量控制的工作以在达到最终用户手中的测试和验证程序代码之前,围绕数据的质量控制同样重要。在上面说明的示例中,利用其应用程序的数据未知数据设计的更改。这对所提供的结果产生负面影响。
当时我记得这个实现感到惊讶,因为我觉得数据很好。我也认识到讽刺,正如我为我的特色设计和开发的主要驱动程序处理了整个职业生涯。
如何完成数据质量
当我认为回到示例用例周围的时间时,我意识到了一些东西。如果在展示停止数据的启示录之前发布理想的租金申请,则结果将是灾难性的。我只能想象影响非理想租金的影响将对这家公司的未来估值 华尔街。
如果回到了,我们本可以做到数据可观察性和数据质量,就像今天完成一样,我们将提前抓住我们的数据问题。这将挽救尴尬,头痛,沮丧,并且会阻止巨大风险暴露的可能性。
最近,我遇到了 数据牌,这是一种数据可靠性平台,可帮助公司防止数据事件。他们的 数据差异 特征是激光专注于定位通过应用程序和过程使用的源数据中的数据差异。该产品甚至旨在按数十亿(不是数千万甚至数百万)的记录工作。
为了说明识别数据质量问题的好处,让我们在房地产业中查看三种简化的数据质量挑战,可能难以理解:
-
采用定制标准工业分类(SIC)代码系统
-
改变属性的层结构
-
修订空间质量评级结构
在每种情况下,如果此数据的消费者不知道数据影响挑战,则结果会对数据质量产生负面影响。
采用定制SIC代码
这 标准工业分类 (SIC)建立代码系统,为每个行业提供四位数的代码。例如,如果您决定打开自行车店,它将属于3751个SIC代码。
为简化示例用例,考虑SIC代码太广泛而无法反映被占用空间的真正愿望的挑战。换句话说,专注于提供不同的娱乐选项(例如视频商店,音乐商店和乐器)都得到了相同的SIC代码。
为了解决这种缺点,让我们假设房地产公司花时间介绍额外的SIC代码。这有助于提供有关占用空间在属性的基础业务的更多细节。
但是,试图提供优化租金建议的团队不了解这一变化。因此,未找到新的自定义SIC代码的那些情况倒回一个未知状态,导致子例计算。此外,如果提出的租金价值,则证明代码被重新批准的那些案件导致了不利的结果。作为示例,如果自定义SIC代码映射到轮胎存储(使用普通SIC代码)而不是自定义珠宝商,则每月租金值将远低于预期。
改变层结构
房地产公司利用分层结构来帮助确定其性质的质量。基本上,为那些被认为是最好的人保留了一级的财产。随着层次的增加,该物业基于公司范围的评估,该物业较低。
虽然第3层和第4层属性位于频谱的下端,但它们仍然是非常有利可图的实体。然而,这些空间的理想租金低于一级或第2层或2层房产的相同空间。
当在第1层级别引入评估元数据时,可能发生了对IT团队的另一个惊喜。让我们假设必须添加子层才能回答这个问题,“为什么这个财产被认为是我们最好的一个?”可能的答案可能包括物品,如位置和邻近,租户的质量和财务收入。
当位置和接近度是层决策背后的理由时,子层会影响理想的租金推荐。在这种情况下,层级通常是一级2或第3层。
修订空间质量
空间质量背后的业务规则的变化也可能影响理想租金的计算。想象一下,如果空间质量等级的原始设计是从1到5的等级,其中值为5表示类的顶部。然后,更新设计以反映四点刻度,其中4个现在是最大值。
除非特征团队意识到这一决定或完全监控生产数据,否则他们不会意识到定义已经重新推荐。这意味着计算的空间质量方面将截止至少20%,这会对所建议的理想租金产生负面影响。
将数据添加到开发生命周期中
理想的租赁应用杠杆提取,变换和负载(ETL)服务。换句话说,它从源系统中取出了必要的数据,并将其转换为模拟应用程序建议的理想租金可能会消耗。它处于同类水平,其中对底层数据的变化失去了注意,导致对该数据驱动的决定产生负面影响。
引入数据中的数据只是成为连续集成(CI)过程中的一个新步骤。配置与您的集成相关的数据源,然后向您添加数据表 DBT. 配置,数据差异测试的结果显示为您的拉索审核过程的一部分。
因此,参与PR过程的所有这些都能深入了解数据质量分析。
但等等,还有更多
此时,您可能会认为这里仍然存在差距。数据质量步骤无法在有代码更改和拉拔请求时被降级到CI / CD管道。当理想的租金应用程序代码没有改变时会发生什么,但源数据背后的规则有吗?
这是DataFold的列级谱系中的位置。当工程团队或数据团队正在考虑数据规则的变化时,他们可能会提出问题,“我们的最终计算中使用的数据如何受到影响,如果我们的查询进入从该表中的列中的帐户值也呢?“列级谱系显示了数据如何流过查询和转换的瀑布。在此处进行更改,请参阅它将如何影响到您的数据。
团队 - 无论是数据团队还是工程团队 - 都会使用DataFoLD的UI可视化和了解其数据规则的上游更改如何影响其下游数据。此分析与CI / CD管道分开进行,并与代码更改分开。
请记住,您必须有能力在没有相应的代码更改的情况下找到数据质量问题。毕竟,理想的租金开发环境可能没有匹配源系统的所有更改,因此需要保障制作数据驱动决策的生产用户。
这就是为什么维护数据质量对于任何依赖数据依赖于提供明智的决策的应用至关重要。数据谱系 - 类似于DataFold的列级别的谱系分析 - 帮助。
结论
从2021年开始,我一直在努力通过以下任务声明生活,我觉得可以申请任何IT专业人士:
“重点关注提供延长知识产权值的功能/功能的时间。为其他一切利用框架,产品和服务。“
- J. Vester.
在本文中,我职业生涯早些时候遇到的经验强调了数据质量的重要性。缺乏数据质量将始终对用于数据驱动决策的系统产生灾难性的影响。
公司使用数据来构成关键决策应考虑侧重于维护数据质量的工具,并且该工具应该是软件开发生命周期的一部分。
有一个非常美好的一天!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/160405.html