当大数据变坏 - 恢复数据质量

当大数据变坏时:康复数据质量

我们生活在一个数据驱动的世界中。 

在过去的十年中,这个词 大数据 这是技术的最前沿 - 尽管该术语被普及 John Mashey. 二十多年前。大数据任务提示企业雇用使用数学分析和归纳统计的团队来揭示关系和依赖性。这种大数据技术专家的使命是使用数据来预测成果和行为,导致企业优势。

为了以这种方式利用数据,数据本身必须是声音和可靠的。含义:试图根据不良数据做出决策实际上比绝对没有数据的决定更糟糕。 

“良好的业务决策不能用坏数据制作。”

- Uber Engineering.

在本文中,当前雇主试图利用其后来实现的数据时,我了解到我了解到的课程。基于该课程,我们将快速转向现代工程方法,将数据质量保持在开发生命周期的一部分。

反思房地产业

在大数据之前,努力雇用 数据仓库 (dw)和 商业智慧 (BI)技术深入了解公司业务状况的技术。甚至在此之前,信息技术人员常常恢复车轮(在筒仓中)希望使用自定义代码来产生竞争优势。

这是在此时,我发现自己与房地产业的领导者合作。虽然被认为是他们行业段的Frontrunner,但维持竞争对手的距离成为挑战。 

其中一家公司的兴趣区成为定义,证明和保护他们收取租户的金额所需的时间。而不是每平方英尺充电,而是有其他数据因素在租金中发挥着作用 - 双方被视为公平的价格。 

考虑这五个数据点作为示例:

  1. 空间存在的财产质量

  2. 酒店内的空间位置

  3. 靠近物业的其他租户

  4. 租户与房地产公司的现有关系

  5. 考虑新租约的租客的稳定性

租赁团队 - 访问不同的系统 - 分析并回答了这些问题中的每一个。

提供理想的租金解决方案

IT部门采取了自筹资金的倡议来解决这个问题。目标是介绍一个应用程序 - 让我们称之为理想的租金 - 这将要求用户提供一系列输入,类似于以下内容:

  • 所需空间的财产和位置

  • 拟议租赁的开始和结束日期

  • 有关使用的租户姓名和信息

使用这些信息,系统将收集并预测可以通过为财产和租户提供相同价值的因素来证明的速率。在高层,理想的租金解决方案利用以下设计:

完成幕后逻辑的努力非常涉及,因为数据集成产品仍处于技术触发阶段 Gartner炒作周期

提出理想的租金解决方案

当租赁领导第一次审查申请时,他们持怀疑态度,简单的输入形式可以产生以前需要大量基于人的分析的结果。一旦他们第一次看到申请,租赁团队就会很快注意到所产生的建议的方面,这些建议没有有效的假设。基本上,技术团队认为他们比租赁过程的所有者更好地了解。

该系统并未成为达到最佳解决方案的单一,以提供给定租约的公允速度。事实上,从这种经历中实现了两个关键课程:

  1. 租赁团队没有完全涉及的努力,导致对数据的理解缺乏了解。

  2. 该功能团队不了解数据正在发生的上游更改。这会影响理想租金申请提供的建议的数据质量和下游结果。

数据驱动的决策需要质量数据

从租赁行业榜样中学到的主要教训是我在Dzone.com上的现有文章中讨论的。我最喜欢的是“卓越的产品所有者的秘诀“我在2017年写回来的出版物。它专注于一个名叫的人 Michael Kinnaird.,谁仍然是我在30多年的信息技术期间合作的最佳产品所有者。

Uber Engineering报价早期提供我们在理想租金示例中学到的第二课的摘要。

就像质量控制的工作以在达到最终用户手中的测试和验证程序代码之前,围绕数据的质量控制同样重要。在上面说明的示例中,利用其应用程序的数据未知数据设计的更改。这对所提供的结果产生负面影响。

当时我记得这个实现感到惊讶,因为我觉得数据很好。我也认识到讽刺,正如我为我的特色设计和开发的主要驱动程序处理了整个职业生涯。 

如何完成数据质量

当我认为回到示例用例周围的时间时,我意识到了一些东西。如果在展示停止数据的启示录之前发布理想的租金申请,则结果将是灾难性的。我只能想象影响非理想租金的影响将对这家公司的未来估值 华尔街

如果回到了,我们本可以做到数据可观察性和数据质量,就像今天完成一样,我们将提前抓住我们的数据问题。这将挽救尴尬,头痛,沮丧,并且会阻止巨大风险暴露的可能性。

最近,我遇到了 数据牌,这是一种数据可靠性平台,可帮助公司防止数据事件。他们的 数据差异 特征是激光专注于定位通过应用程序和过程使用的源数据中的数据差异。该产品甚至旨在按数十亿(不是数千万甚至数百万)的记录工作。

为了说明识别数据质量问题的好处,让我们在房地产业中查看三种简化的数据质量挑战,可能难以理解:

  1. 采用定制标准工业分类(SIC)代码系统

  2. 改变属性的层结构

  3. 修订空间质量评级结构

在每种情况下,如果此数据的消费者不知道数据影响挑战,则结果会对数据质量产生负面影响。

采用定制SIC代码

标准工业分类 (SIC)建立代码系统,为每个行业提供四位数的代码。例如,如果您决定打开自行车店,它将属于3751个SIC代码。

为简化示例用例,考虑SIC代码太广泛而无法反映被占用空间的真正愿望的挑战。换句话说,专注于提供不同的娱乐选项(例如视频商店,音乐商店和乐器)都得到了相同的SIC代码。

为了解决这种缺点,让我们假设房地产公司花时间介绍额外的SIC代码。这有助于提供有关占用空间在属性的基础业务的更多细节。 

但是,试图提供优化租金建议的团队不了解这一变化。因此,未找到新的自定义SIC代码的那些情况倒回一个未知状态,导致子例计算。此外,如果提出的租金价值,则证明代码被重新批准的那些案件导致了不利的结果。作为示例,如果自定义SIC代码映射到轮胎存储(使用普通SIC代码)而不是自定义珠宝商,则每月租金值将远低于预期。

改变层结构

房地产公司利用分层结构来帮助确定其性质的质量。基本上,为那些被认为是最好的人保留了一级的财产。随着层次的增加,该物业基于公司范围的评估,该物业较低。 

虽然第3层和第4层属性位于频谱的下端,但它们仍然是非常有利可图的实体。然而,这些空间的理想租金低于一级或第2层或2层房产的相同空间。

当在第1层级别引入评估元数据时,可能发生了对IT团队的另一个惊喜。让我们假设必须添加子层才能回答这个问题,“为什么这个财产被认为是我们最好的一个?”可能的答案可能包括物品,如位置和邻近,租户的质量和财务收入。

当位置和接近度是层决策背后的理由时,子层会影响理想的租金推荐。在这种情况下,层级通常是一级2或第3层。

修订空间质量

空间质量背后的业务规则的变化也可能影响理想租金的计算。想象一下,如果空间质量等级的原始设计是从1到5的等级,其中值为5表示类的顶部。然后,更新设计以反映四点刻度,其中4个现在是最大值。

除非特征团队意识到这一决定或完全监控生产数据,否则他们不会意识到定义已经重新推荐。这意味着计算的空间质量方面将截止至少20%,这会对所建议的理想租金产生负面影响。

将数据添加到开发生命周期中

理想的租赁应用杠杆提取,变换和负载(ETL)服务。换句话说,它从源系统中取出了必要的数据,并将其转换为模拟应用程序建议的理想租金可能会消耗。它处于同类水平,其中对底层数据的变化失去了注意,导致对该数据驱动的决定产生负面影响。

引入数据中的数据只是成为连续集成(CI)过程中的一个新步骤。配置与您的集成相关的数据源,然后向您添加数据表 DBT. 配置,数据差异测试的结果显示为您的拉索审核过程的一部分。 

因此,参与PR​​过程的所有这些都能深入了解数据质量分析。 

但等等,还有更多

此时,您可能会认为这里仍然存在差距。数据质量步骤无法在有代码更改和拉拔请求时被降级到CI / CD管道。当理想的租金应用程序代码没有改变时会发生什么,但源数据背后的规则有吗?

这是DataFold的列级谱系中的位置。当工程团队或数据团队正在考虑数据规则的变化时,他们可能会提出问题,“我们的最终计算中使用的数据如何受到影响,如果我们的查询进入从该表中的列中的帐户值也呢?“列级谱系显示了数据如何流过查询和转换的瀑布。在此处进行更改,请参阅它将如何影响到您的数据。

团队 - 无论是数据团队还是工程团队 - 都会使用DataFoLD的UI可视化和了解其数据规则的上游更改如何影响其下游数据。此分析与CI / CD管道分开进行,并与代码更改分开。

请记住,您必须有能力在没有相应的代码更改的情况下找到数据质量问题。毕竟,理想的租金开发环境可能没有匹配源系统的所有更改,因此需要保障制作数据驱动决策的生产用户。

这就是为什么维护数据质量对于任何依赖数据依赖于提供明智的决策的应用至关重要。数据谱系 - 类似于DataFold的列级别的谱系分析 - 帮助。

结论

从2021年开始,我一直在努力通过以下任务声明生活,我觉得可以申请任何IT专业人士:

“重点关注提供延长知识产权值的功能/功能的时间。为其他一切利用框架,产品和服务。“

- J. Vester.

在本文中,我职业生涯早些时候遇到的经验强调了数据质量的重要性。缺乏数据质量将始终对用于数据驱动决策的系统产生灾难性的影响。

公司使用数据来构成关键决策应考虑侧重于维护数据质量的工具,并且该工具应该是软件开发生命周期的一部分。

有一个非常美好的一天!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/160405.html

(0)

相关推荐

  • 苹果大中华区营收占比,苹果大中华区营收2019

    2021 年10 月29 日,苹果今天发布了第四季度财报。财报显示,苹果公司宣布第四季度大中华区营收为145.6亿美元,同比增长83%。

    科技 2021年10月30日
  • 天然美胸(丰胸最有效最天然的方法)

    天然美胸(丰胸最有效最天然的方法)

    电商 2021年10月14日
  • 闪耀暖暖万众瞩目的闪耀攻略(闪耀暖暖攻略)

    闪耀温暖的例外色任务是游戏限时任务,完成任务可以获得奖励。许多玩家想知道如何触发特殊的颜色任务。在下面的攻略中,为大家分享例外色任务触发的技巧。不知道如何完成任务的小伙伴来看看吧。...

    2022年8月5日
  • 杨梅树什么时候栽最好 杨梅树的种植季节

    杨梅树什么时候栽最好 杨梅树的种植季节2021-10-21 13:46:491、杨梅的种植时间应选在春季或者秋季的时候进行。春季是在二月上旬到三月下旬之间。2、秋季则具体在十月上旬到十一月上旬之间。它喜稍微冷凉些的气候环

    生活 2021年10月21日
  • 笞罚的意思(字义,诗词)

    词组笞罚的意思(字义,诗词)基本解释详细字义 笞罚拼音:chī fá注音:ㄔ ㄈㄚˊ解释:拷打责罚。古代诗词宋代.石介.庆历圣德颂:「予不尧舜,弼自笞罚。」 基本字义
    笞chī(ㄔ)
    1、用鞭杖或竹板

    阅读 2021年11月2日
  • 2021-2026年新能源基础设施建设行业深度分析及投资战略研究报告

    新能源基础设施建设行业研究报告主要分析了新能源基础设施建设行业的国内外发展概况、行业的发展环境、市场分析(市场规模、市场结构、市场特点等)、竞争分析(行业集中度、竞争格局、竞争组群、竞争因素等)、产品价格分析、用户分析、替代品和互补品分析、行业主导驱动因素、行业渠道分析、行业赢利能力、行业成长性、行业偿债能力、行业营运能力、新能源基础设施建设行业重点企业分析、子行业分析、区域市场分析、行业风险分析、行业发展前景预测及相关的经营、投资建议等。报告研究框架全面、严谨,分析内容客观、公正、系统,真实准确地反映了我国新能源基础设施建设行业的市场发展现状和未来发展趋势。本研究咨询报告由思瀚产业研究院领衔撰写,在大量周密的市场调研基础上,主要依据了国家统计局、国家商务部、国家发改委、国家经济信息中心、国务院发展研究中心、全国商业信息中心、中国经济景气监测中心、思瀚产业研究院、全国及海外多种相关报刊杂志的基础信息以及专业研究单位等公布和提供的大量资料。对我国新能源基础设施建设行业作了详尽深入的分析,是企业进行市场研究工作时不可或缺的重要参考资料,同时也可作为金融机构进行信贷分析、证券分析、投资分析等研究工作时的参考依据。

    科技 2021年11月21日