大数据治理中如何搭建大数据探索平台

来源:华体会全站官网登录入口 发布时间:2024-01-13 17:32:02 阅读: 1

  这篇文章给大家介绍大数据治理中如何搭建大数据探索平台,内容非常详细,感兴趣的小伙伴们可以借鉴借鉴,希望对大家能有所帮助。

  在数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随义务的增加,分析人员的增加,数据探索服务的价值就会慢慢的大。

  一个成功的数据管理平台,不仅仅要提供各种数据分析的工具,提供各种各样的数据源,更要提供数据探索的能力。

  想象一下,作为一名数据科学家,他刚刚获得新的任务是建立一个机器学习模型对业务问题做多元化的分析。处理数据的人的第一个本能是寻找任何有意义的信息,能对其分析过程提供帮助。在这样的一个过程中通常会出现以下问题:

  如果没有数据探索服务,数据科学家需要和同事沟通,浏览他们能够访问的对象进行搜索。然后做出一些假设,来验证他们的选择是否正确。

  这个过程其实非常的耗时,因没有合适的工具帮忙。必须要不断的去寻找可靠的数据。但是随着数据量增大,数据平台使用者的增加,数据分析需求的增加,元数据的数量也在增加。这样的一个过程就为寻找的过程带来了非常大的挑战。

  数据科学家用来查找与他们的需求相关的数据的方式可能很快会适得其反,变得不可靠,因此导致很多挫败感,不确定性和创造力下降。

  数据探索服务意味着向用户更好的提供一种工具,使其能了解平台中的数据及其质量。让我们来了解下具体的实现。

  Lyft是一家总部在美国的打车应用,其开源了大量的技术框架,其中就包括Amundsen。这是一个以伟大的挪威探险家的名字命名的数据探索服务,Lyft的数据探索服务旨在解决通过在元数据中搜索有价值的信息。它提供的是用户数据探索服务的搜索界面。

  元数据听起来很容易解释,用于描述数据信息的数据。最简单的示例是数据存在表里,而表的相关的信息,如表名等信息就是元数据。没有元数据的支撑,数据探索服务不复存在。

  Atlas作为大数据元数据管理平台,可以捕获平台上的各种组件的元数据信息。称为钩子,比如可从Kafka,Hive,Hbase中收集元数据。有着安全性和丰富的Rest Api。

  Atlas依赖于Hbase和Solr作为分布式的数据存储,以此来实现了元数据的存储和搜索功能。通过这一种方式,可以建立一个全面的元数据目录。

  可以查看诸如描述、更新时间、常用用户之类的信息。而且这些元数据信息都是实时更新的。

  关于大数据治理中如何搭建大数据探索平台就分享到这里了,希望以上内容可以对大家有一定的帮助,能学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。