碳如何使用亚麻与ahana电源实时客户仪表板

碳如何使用亚麻与ahana电源实时客户仪表板

作者乔丹·霍格加特,Ahana没有补偿这篇审查。

背景

在Carbon的实时基础上,一方的数据平台是我们的分析组件,它结合了一系列行为,上下文和收入数据,然后在一系列图表,图形和故障中显示仪表板内的仪表板中给出最重要的可操作数据的视觉表示。虽然我们尽可能多地预先计算信息,但有不同的过滤器允许用户深入钻取数据,这使得查询至关重要。

AWS ATHENA - 好与坏

在过去的两年里,雅典娜一直是我们的首选提供商。雅典娜是亚马逊在引擎盖下使用Presto提供无刀错误的查询引擎。服务的无服务特性使得随着我们所有的数据已经居住在S3中,因此雅典娜更容易运行我们扔掉的任何查询。到目前为止,我们只支付我们使用的内容,特别是扫描数据 - 不需要担心超过/在配置群集时支付的事实。

更多数据进来,雅典娜开始表现出斗争的迹象。任何推动雅典娜的人太过分都会回忆起令人害怕的“资源在这个规模因子中耗尽的资源”错误 - 当您击中查询的内存限制时,您获得的消息。亚马逊的建议在这里是为了编写更好的查询,这些疑问不会达到限制。虽然我们都同意这是一个体面的建议,但是当您使用必要的数据时击中删除点时它没有帮助。这有效地给了我们一个硬帽,在我们所提供的计算能力上,从长远来看,只会导致更大的头痛。

另一个大缺点是服务的单一租户性质。雅典娜是所有AWS账户之间共享的资源。每个帐户都有限制以并发限制的方式应用 - Docs表示20但在某些情况下,我们已经看到查询输入了“排队”状态,低至2.此外,每个帐户只获取一个队列,这意味着任何随机查询都可以阻止从运行的生产仪表板查询。

值得一言之表示,雅典娜真的闪耀着运行低于临时的临时查询。我们仍然利用它为一些快速数据科学检查,这很好地坐在队列中。它也很好,跑步像查询的不常见的东西,因为收集指标。我们有一个系统到位,运行一堆快速查询,并将结果发送给Grafana,它基本上没有成本。 Athena是一个梦幻般的工具,但在错误的用例中,它可以真正留下你的手绑在一起,但我们需要一些东西来满足我们更密集的查询的需求。进入Ahana云。

Ahana云

Ahana云 是一种服务,负责收到群集的令人讨厌的部分。它使用云形成模板来设置计算平面并启动任何带有在Web UI或API中定义的配置的Presto群集。这使得操作复杂性降低,同时让我们能够将群集扩展到我们所需要的功能。群集部署在AWS中,并具有胶水的连接器,因此我们没有将数据转移到数据并直接测试。

最担心的一个是我们不知道雅典娜实际上有多强大。我们对查询规模造成了粗略的想法,导致它失败,但无法真正讲述它在幕后使用的节点配置。所以我们所做的第一件事是设置了一堆不同的群集配置,以试图获得类似于雅典娜的性能。

ahana和数字

从仪表板上,我们选择了七个最重要的查询,用于概述数据,品牌,日期,位置,站点,兴趣分类数据和人口统计数据。即使在相对较小的群集上,我们也开始看到Query时期,如果不是更好,而不是雅典娜。分类和人口崩溃在大约40亿行中拉动了大约40亿行,所以他们总是是最艰难的。即便如此,很高兴看到我们可以接近。总有担心我们必须提供危险的大集群来获得我们想要的表现。虽然成本肯定会不仅仅是雅典娜,但这表明它是可行的,并且会给我们我们以后的稳定。

以上显示了使用Ahana集群对仪表板的5个标准查询的运行时间VS Athena。


以上显示了使用Ahana集群对仪表板的2个最苛刻的标准查询的运行时间VS Athena。

从仪表板上,我们选择了七个最重要的查询,用于概述数据,品牌,日期,位置,网站,兴趣分类数据和人口统计。即使在相对较小的群集上,我们也开始看到Query时期,如果不是更好,而不是雅典娜。分类和人口崩溃在大约40亿行中拉动了大约40亿行,所以他们总是是最艰难的。即便如此,很高兴看到我们可以接近。总有担心我们必须提供危险的大集群来获得我们想要的表现。虽然成本肯定会不仅仅是雅典娜,但这表明它是可行的,并且会给我们我们以后的稳定。

群集名称 工人配置 $ / hr *
雅典娜
一个 3 x c5.2xlarge. 1.02
B. 5 x c5.2xlarge. 1.70
C 10 x c5.xlarge. 1.70
D. 20 x c5.large. 1.70
E. 10 x c5.2xlarge. 3.40
以上是每个群集的每小时运行成本,以及工作节点配置(Number_of_nodes x node_name)。雅典娜是一个问号,因为我们不知道引擎盖下的实际集群。

拥有我们自己的群集也让我们进一步与优化进一步。在我们无法使用会话参数之前,这意味着我们无法做到影响加入策略的事情。经过一点参数调整,从镶木地板转换为兽人数据格式并使用Hive Metastore,我们找到了一个实际给出了对查询的体面速度提升的设置。在所有查询中,它会加速90%。

- 概述 品牌 分类 日期 人口统计学 地点 地点
7. 11. 183. 8. 121. 8. 6.
5. 3. 122. 5. 98. 3. 4.
上面显示了在应用我们自己的群集的一些优化之前和之后的运行时间(以秒为单位)。

关键的外卖

总的来说,Presto使得易于查询数据而不使其转移,并且有一些很好的选择来与各种连接器进行。虽然雅典娜对于运行小卷负载很好,但它对其单一查询队列和低计算天花板等问题可以敏感 - 这两者都可以限制查询速度和比例。在寻找允许更多规模的内容时,Ahana云提供了更好的下一步,并更有控制您自己的群集,以及更可预测的性能。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/160398.html

(0)

相关推荐