发布于 2017-02-25 00:28:40 | 78 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

Apache Samza 流处理框架

Samza 是由 LinkedIn 开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。


 Apache Samza 0.12.0 发布,

0.12.0 版本中添加了几个功能,以提高稳定性,性能和易用性。

  • 支持“End of Stream”:Samza 现在将有一个“end-of-stream”概念,以支持从有限的输入源(例如磁盘文件)中消耗。这使得 Samza 能够在完成耗用所有数据后正常关闭。

  • HDFS Consumer:Samza 现在为从 HDFS 文件消费的数据提供一流的支持。这使开发人员能够定义其处理逻辑一次,并在批处理和流式处理环境中运行它们。此功能还允许使用 Samza 快速实验 ETL 的 HDFS 数据,而无需编写单独的 Hadoop 任务。

  • Samza 现在可以在执行检查点时通知 SystemConsumer。

  • 支持 Yarn 节点标签。

此版本还包括几个关键的错误修复和操作稳定性的改进,详情查看发行日志

下载地址:



历史版本 :
Apache Samza 0.14.0 发布,分布式流处理框架
Apache Samza 0.12.0 发布,分布式流处理框架
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务