当前标签: Apache
Apache Spark Delta Lake 写数据使用及实现原理代码解析
Apache Spark Delta Lake 写数据使用及实现原理代码解析 Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,在介绍 Delta Lake 实现原理之前先来看看如何使用它,具体使用如下: df.write.format("delta"...
2019-09-26 16:28
阅读(244)
深入理解 Apache Spark Delta Lake 的事务日志
深入理解 Apache Spark Delta Lake 的事务日志 事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。本文我们将探讨事务日志(Transaction Log)是什么,它在文件级别是...
2019-09-26 16:19
阅读(168)
Apache Flink 进阶(三):Checkpoint 原理解析与应用实践
作者:唐云(茶干) 大家好,今天我将跟大家分享一下 Flink 里面的 Checkpoint,共分为四个部分。首先讲一下 Checkpoint 与 state 的关系,然后介绍什么是 state,第三部分介绍如何在 Flink 中使用state,第四部分则介绍 Checkpoint 的执行机制。 Checkpo...
2019-09-25 10:16
阅读(166)
5个选择Apache Cassandra 而非DynamoDB的原因
概述 Apache Cassandra 以及DynamoDB 都是非常流行的分布式存储技术,这2个产品都在很多应用以及生产环境中得到了成功的使用。 在Instaclustr(一个公司),我们强烈依赖Apache Cassandra以及Apache Kafka.我们的客户群里非常的广泛,他们的体量以及公司的成熟度...
2019-09-22 17:50
阅读(180)
Apache Spark中国技术交流社区历次直播回顾(持续更新)
8月28日【Spark Streaming SQL流式处理简介 <https://tianchi.aliyun.com/course/live?liveId=41084>】 主讲人:云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor,开源爱好者 简介:本次直播...
2019-09-19 11:39
阅读(210)
SpringBoot 2.0 + Apache Dubbo 2.7.3 最新版整合方案
前言 2018年2月16日,Apache Dubbo 加入 Apache 基金会孵化器。2019年5月16日,Apache 软件基金会董事会决议通过了 Apache Dubbo 的毕业申请,这意味着 Apache Dubbo 正式成为 Apache 的顶级项目。 配置 Dubbo 捐精给 Apache 以...
2019-09-16 13:16
阅读(273)
在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
在 Apache Spark 中利用 HyperLogLog 函数实现高级分析 预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到1000万条访问统计,这样就能降低1000倍的数据处理量,从而在查询时大幅减少计算量,提升响应速度。更高层的聚合可以带来进一...
2019-09-12 13:44
阅读(157)
Apache Flink Meetup · 北京站,可能有你最想听的内容!
上周六 Meetup 深圳站,Flink 社区和分享嘉宾们都感受到了深圳同学们的热情,现场爆满甚至好多同学都是站着听完,会后也认真提供反馈,给深圳同学花式笔芯! 下次在更大的场地相逢! 除了已完结的深圳站、本周六 Meetup 上海站,9 月 21日,Flink 社区邀请了来自小米、贝壳找房、intel 以...
2019-09-09 15:54
阅读(112)