MDX Blog Post

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。
可扩展性：kafka集群支持热扩展
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失
容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）
高并发：支持数千个客户端同时读写

Apache Druid

July 20, 2018 · 2 min read

Le Dai

Sr Soft Engineer

Apache Druid

刚听到这个名字我第一反应这不是ali 特牛的那个数据库连接池嘛后来才发现不对劲原来是另一大数据组件目前就我初步的认识暂时定位为单表高效率的OLAP 框架

下面是官方对于 Apache Druid 的介绍

Alibaba Java诊断利器Arthas

July 18, 2018 · 9 min read

Le Dai

Sr Soft Engineer

Alibaba Java诊断利器Arthas

今天无意间发现了一个alibaba的开源jvm分析利器

kafka 0.10 版本探索与spark streaming 2.x 整合

July 14, 2018 · 12 min read

Le Dai

Sr Soft Engineer

kafka 0.10 版本探索

首先，博主之前用的spark-streaming-kafka 1.6 scala 2.10的包，当时的kafka两种连接方式高层封装

1.基于Receiver的方式

简单介绍一下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Write Ahead Log，WAL）。俗称WAL ，但是个人认为这是多余且不必要的操作 kafka以及做了很多的高可用，数据备份机制。那消费数据为何还需要开启WAL?