博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
学习Apache Kafka
阅读量:3534 次
发布时间:2019-05-20

本文共 1190 字,大约阅读时间需要 3 分钟。

1. Apache Kafka

挑战:①收集海量数据;②分析。

分析包括:用户行为数据、应用程序的性能跟踪、以日志形式显示的动态数据、事件信息…

kafka可处理实时信息并很快地将其路由到多个消费者。提供了生产者之间信息的无缝集成,不需阻塞消费,生产者不需关心消费者是谁。

它是一个开源的、分布式的、分区的和基于复制 日志提交的发布-订阅消息传递系统。

①持久性消息传递: 保证消息不丢失,提供O(1)常量时间性能的磁盘设计,支持大容量存储(TB)。信息持久化到硬盘,且在集群中复制,以防数据丢失;

高吞吐量: 每秒处理数百MB的读和写操作;
分布式: 以集群为中心,在kafka服务器上进行消息分区(在每个分区维护ordering semantics),并在集群上分发消费。集群可弹性、透明地增长,而不需停机;
多客户端: 支持简单集成来自不同平台的客户端(Java、NET、PHP、Ruby、Python);
实时: 由生产者线程生成的消息对消费者线程立即可见(该特性对基于事件的系统非常重要,eg.复杂事件处理(CEP)系统)

提供了一种实时的发布-订阅解决方案,还支持Hadoop中的并行数据加载。

在生产方面,有不同类型的生产者: eg.

①前端web应用程序生成的日志;
②生成web分析日志的生产者代理;
③生成转换日志的生产者适配器;
④生成调用跟踪日志的生产者服务。

在消费方面: eg.

①离线消费者,正在使用消息并将其存储在Hadoop或传统数据仓库,用于离线分析;
②接近实时的消费者,正在消费信息并将其存储在NoSQL(eg.HBase或Cassandra),用于近实时分析;
③像Spark或Storm,可在内存中过滤消息,为相关组触发警报事件。

2. Why do we need Kafka?

数据通常包括用户活动、事件登录、页面访问、点击、社交网络活动,如“赞”、“分享”和“评论”、操作

和系统指标(由于高吞吐量(每秒数百万条消息),所以通常由日志记录&传统日志聚合解决方案处理——面向离线分析eg.hadoop)
对构建实时处理系统非常局限。

实时分析包括:

①基于搜索的相关性、基于受欢迎程度、共同发生或情感分析的建议、向大众投放广告、从垃圾邮件或未经授权的数据抓取、发送高温警报的设备传感器、任何异常的用户行为或应用程序的黑客行为。

从生产系统收集的这些多组数据的实时使用情况,由于收集和处理的数据量大而成为一个挑战。

kafka目标是通过提供一种机制来统一线下和线上处理:

Hadoop系统中的并行负载以及在一组机器上的分区实时消耗的能力(处理流式数据很有用)。
从架构的角度来看,它更接近于传统的消息传递系统,如ActiveMQ或RabitMQ。

参考:Learning Apache Kafka Second Edition

转载地址:http://opnhj.baihongyu.com/

你可能感兴趣的文章
Mybatis与Ibatis
查看>>
字节码文件(Class文件)
查看>>
java中的IO流(一)----概述
查看>>
StringBuilder
查看>>
集合,Collection
查看>>
泛型详解
查看>>
泛型实现斗地主
查看>>
List集合
查看>>
ArrayList集合,LinkedList集合,Vector集合
查看>>
HashSet集合
查看>>
并发与并行,线程与进程
查看>>
方法引用,通过对象名引用成员变量
查看>>
常用工具类 Math:数学计算 Random:生成伪随机数 SecureRandom:生成安全的随机数 2020-2-13
查看>>
Java的异常Exception 2020-2-13
查看>>
Java标准库定义的常用异常,自定义异常 2020-2-15
查看>>
Java问题百度/Google记录 2020-2-16
查看>>
【PADS9.5】9,对比ECO核心板,Router移动元件后布线消失,Router找不到自动布线策略文件丢失或损坏
查看>>
【STM32+w5500汇总】23,HTTP_Client 连接到ONENET上传了一段数据之后会断开,数据上传格式的设置
查看>>
【STM32+W5500+MQTT】24,所有功能都可以通过API函数的调用来实现;HTTP接入ONENET,API开发手册和打包函数,串口软件HTTP连接服务器上传数据,2018年12月28日
查看>>
【STM32+W5500+HTTPClient】25,路由器DHCP租赁IP时间为2h,NetBios可以很好的解决IP变化的问题,DNS,2018年12月25日
查看>>