在 Apache Spark 中利用 HyperLogLog 函数实现高级分析 - 好文

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术，例如，每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合，被降低到1000万条访问统计，这样就能降低1000倍的数据处理量，从而在查询时大幅减少计算量，提升响应速度。更高层的聚合可以带来进一步的性能提升，例如，在时间维按天聚合，或者通过站点而不是URL聚合。
本文，我们将介绍 spark-alchemy
<https://yq.aliyun.com/go/articleRenderRedirect?url=https%3A%2F%2Fgithub.com%2Fswoop-inc%2Fspark-alchemy>
这个开源库中的 HyperLogLog 这一个高级功能，并且探讨它是如何解决大数据中数据聚合的问题。首先，我们先讨论一下这其中面临的挑战。

再聚合（Reaggregation）的挑战

预聚合是数据分析领域的一个强大的技术手段，前提就是所要计算的指标是可重聚合的。聚合操作，顾名思义，是满足结合律的，所以很容易引入再聚合

热门工具换一换