本文向您介绍如何在大数据治理中构建大数据探索平台。内容非常详细,有兴趣的朋友可以参考一下,希望对你有帮助。
在数据治理中,数据探索服务的价值在初期往往被忽视,但随着业务和分析师的增加,数据探索服务的价值会越来越大。
一个成功的数据管理平台不仅提供各种数据分析工具和数据源,还提供数据探索的能力。
为什么数据探索服务很重要?
想象一下,作为一名数据科学家,他刚刚被赋予了一项新的任务,那就是建立一个机器学习模型来分析业务问题。处理数据的人的第一本能是找到任何有意义的信息,帮助他们的分析过程。在此过程中,通常会出现以下问题:
我可以/应该使用什么样的数据?
在哪里可以找到数据?
我应该向谁申请数据访问权?
我能相信我们掌握的数据吗?
我们拥有的数据的实时性和质量如何?
还有谁在使用这些数据?
没有数据探索服务的世界
数据科学家将花费多达三分之一的时间在数据探索上。
如果没有数据探索服务,数据科学家需要与同事沟通,浏览他们可以访问的对象进行搜索。然后做一些假设,验证自己的选择是否正确。
这个过程其实非常耗时,因为没有合适的工具来帮助。我们必须不断寻找可靠的数据。然而,随着数据量、数据平台用户和数据分析需求的增加,元数据的量也在增加。这个过程给搜索过程带来了巨大的挑战。
科学家用来寻找与其需求相关的数据的方式可能会很快适得其反,变得不可靠,从而导致很多挫败感、不确定性和创造力下降。
这些问题的解决方案是数据探索服务。
数据探索服务
数据探索服务是指为用户提供一个了解平台内数据及其质量的工具。让我们看看具体的实现。
Amundsen
Lyft是一款总部位于美国的出租车应用,拥有包括Amundsen在内的大量开源技术框架。这是一个以伟大的挪威探险家命名的数据探索服务。Lyft的数据探索服务旨在解决在元数据中搜索有价值信息的问题。提供用户数据探索服务的搜索界面。
阿蒙森的社区非常繁荣,并在不断更新和完善。
Apache Atlas
作为元数据管理的领导者,地图集无疑是最好的选择之一。
元数据听起来很容易解释,用于描述数据信息的数据。最简单的例子是,数据存在于表中,与表相关的信息,如表名,就是元数据。没有元数据的支持,数据探索服务将不复存在。
Atlas作为一个大数据元数据管理平台,可以捕捉平台上各个组件的元数据信息。例如,称为hooks的元数据可以从Kafka、Hive和Hbase收集。具有安全性和丰富的Rest Api。
Atlas依靠Hbase和Solr作为分布式数据存储,从而实现元数据的存储和搜索功能。这样,就可以建立一个全面的元数据目录。
阿帕奇阿特拉斯建筑
在实际应用中,通过两者的结合,完全可以满足我们的需求。
这样,数据科学家就可以在阿蒙森找到目标数据。
但是搜索显然只是第一步。找到搜索结果后,您可以进入表格详细信息页面。
您可以查看描述、更新时间和常用用户等信息。并且实时更新元数据信息。
以下是如何在大数据治理中搭建大数据探索平台。希望
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/142177.html