当前标签: sparkStreaming
sparkstreaming同时消费多个topic的数据实现exactly-once的语义
最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都...
2018-08-15 18:38
阅读(800)
实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示
我的博客地址 <http://www.ikeguang.com/> 最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 ...
2018-07-28 15:50
阅读(460)
sparkstreaming消费kafka的数据手动维护offest实现exactly-once语义
最近在做实时流处理的一个项目,遇到N多问题,经过不断的调试,终于有点进展,记录一下,防止后人遇到同样的问题. 特别注意自己代码里面的版本一定要和集群上面的保持一致 1,sparkstreaming消费kafka有两种方法,这里我就不介绍了,网上关于这方面的资料很多,我就简单说一下两者的区别吧, (1) 基于re...
2018-06-23 21:30
阅读(388)
sparkstreaming对接kafka出现的数据积压问题
kafka数据积压问题 1. 问题描述 生产环境开发了一套sparkstreaming对接kafka,并进行数据处理的程序。刚开始程序运行的很好,kafka集群被人动过之后,重启spark程序时出现如下报警信息: 18/06/20 15:29:21 WARN kafka010.KafkaUtils: over...
2018-06-21 12:55
阅读(1785)
SparkStreaming如何解决小文件问题
使用sparkstreaming时,如果实时计算结果要写入到HDFS,那么不可避免的会遇到一个问题,那就是在默认情况下会产生非常多的小文件,这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的,sparkstreaming为每个partition启动...
2018-06-03 00:00
阅读(305)
SparkStreaming消费Kafka消息的简单示例
Kafka是基于发布/订阅的消息系统,是一个分布式流平台。支持多个生产者和多个消费者,作为消息中间件,Kafka解耦了生产者和消费者,彼此透明,不需要在他们之间建立任何直接的连接,数据从生产者流入Kafka再从Kafka流入消费者。Spark Streaming是Spark核心API的一个扩展,提供高性能高容错性...
2018-05-13 22:25
阅读(301)