大数据治理中如何搭建大数据探索平台

技术大数据治理中如何搭建大数据探索平台这篇文章给大家介绍大数据治理中如何搭建大数据探索平台,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。在数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随着

本文向您介绍如何在大数据治理中构建大数据探索平台。内容非常详细,有兴趣的朋友可以参考一下,希望对你有帮助。

在数据治理中,数据探索服务的价值在初期往往被忽视,但随着业务和分析师的增加,数据探索服务的价值会越来越大。

一个成功的数据管理平台不仅提供各种数据分析工具和数据源,还提供数据探索的能力。

为什么数据探索服务很重要?

想象一下,作为一名数据科学家,他刚刚被赋予了一项新的任务,那就是建立一个机器学习模型来分析业务问题。处理数据的人的第一本能是找到任何有意义的信息,帮助他们的分析过程。在此过程中,通常会出现以下问题:

我可以/应该使用什么样的数据?

在哪里可以找到数据?

我应该向谁申请数据访问权?

我能相信我们掌握的数据吗?

我们拥有的数据的实时性和质量如何?

还有谁在使用这些数据?

没有数据探索服务的世界

数据科学家将花费多达三分之一的时间在数据探索上。

如果没有数据探索服务,数据科学家需要与同事沟通,浏览他们可以访问的对象进行搜索。然后做一些假设,验证自己的选择是否正确。

这个过程其实非常耗时,因为没有合适的工具来帮助。我们必须不断寻找可靠的数据。然而,随着数据量、数据平台用户和数据分析需求的增加,元数据的量也在增加。这个过程给搜索过程带来了巨大的挑战。

科学家用来寻找与其需求相关的数据的方式可能会很快适得其反,变得不可靠,从而导致很多挫败感、不确定性和创造力下降。

这些问题的解决方案是数据探索服务。

数据探索服务

数据探索服务是指为用户提供一个了解平台内数据及其质量的工具。让我们看看具体的实现。

Amundsen

Lyft是一款总部位于美国的出租车应用,拥有包括Amundsen在内的大量开源技术框架。这是一个以伟大的挪威探险家命名的数据探索服务。Lyft的数据探索服务旨在解决在元数据中搜索有价值信息的问题。提供用户数据探索服务的搜索界面。

阿蒙森的社区非常繁荣,并在不断更新和完善。

Apache Atlas

作为元数据管理的领导者,地图集无疑是最好的选择之一。

元数据听起来很容易解释,用于描述数据信息的数据。最简单的例子是,数据存在于表中,与表相关的信息,如表名,就是元数据。没有元数据的支持,数据探索服务将不复存在。

Atlas作为一个大数据元数据管理平台,可以捕捉平台上各个组件的元数据信息。例如,称为hooks的元数据可以从Kafka、Hive和Hbase收集。具有安全性和丰富的Rest Api。

Atlas依靠Hbase和Solr作为分布式数据存储,从而实现元数据的存储和搜索功能。这样,就可以建立一个全面的元数据目录。

大数据治理中如何搭建大数据探索平台

阿帕奇阿特拉斯建筑

在实际应用中,通过两者的结合,完全可以满足我们的需求。

大数据治理中如何搭建大数据探索平台

这样,数据科学家就可以在阿蒙森找到目标数据。

但是搜索显然只是第一步。找到搜索结果后,您可以进入表格详细信息页面。

您可以查看描述、更新时间和常用用户等信息。并且实时更新元数据信息。

大数据治理中如何搭建大数据探索平台

以下是如何在大数据治理中搭建大数据探索平台。希望

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/142177.html

(0)

相关推荐

  • Linux下Tomcat怎样进行以非root用户执行特权操作

    技术Linux下Tomcat怎样进行以非root用户执行特权操作今天就跟大家聊聊有关Linux下Tomcat怎样进行以非root用户执行特权操作,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大

    攻略 2021年12月8日
  • 分析计算机网络HTTPS原理

    技术分析计算机网络HTTPS原理本篇内容介绍了“分析计算机网络HTTPS原理”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成

    攻略 2021年11月5日
  • Python中异常处理用法有哪些

    技术Python中异常处理用法有哪些本篇内容主要讲解“Python中异常处理用法有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python中异常处理用法有哪些”吧!为了

    攻略 2021年11月30日
  • python二叉树详解(python 二叉树的最大深度)

    技术python二叉树的深度该如何理解今天就跟大家聊聊有关python二叉树的深度该如何理解,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。序主要记录一下二叉树的深

    攻略 2021年12月13日
  • BeetlSQL3.0.0如何轻松集成Spring

    技术BeetlSQL3.0.0如何轻松集成Spring这篇文章主要为大家展示了“BeetlSQL3.0.0如何轻松集成Spring”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下

    攻略 2021年12月22日
  • 如何在splunk创建账户(dashboard创建实例类型)

    技术Splunk在dashboard中如何添加链接这篇文章将为大家详细讲解有关Splunk在dashboard中如何添加链接,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在仪表板描述中

    攻略 2021年12月17日