Apache Spark 2.0 最快今年4月亮相

发布于 2016-02-29 00:50:32 | 281 次阅读 | 评论: 0 | 来源: 网友投递

Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

1月才刚释出1.6版的大数据技术Spark，下一个2.0版本预计4、5月释出，将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame

大数据技术Spark今年1月才刚释出1.6版，下一个2.0版本就已经蓄势待发，预计今年4、5月释出，近日Spark创办人、同时也是 Databricks技术长的Matei Zaharia，更在2016 Spark Summit上，抢先揭露了Spark 2.0即将带来的3大主要特色：包括能大幅提升Spark平台效能的Project Tungsten即将进入第二阶段，提供涵盖完整阶段的程式码产生器，Spark 2.0也将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame。

其中，持续改善Spark应用程式的记忆体及CPU效能的Project Tungsten，是一项帮助Spark大幅提升核心引擎效能的长期专案，目的是要让Spark执行效能达到硬体设备的极限，藉由内建原生记忆体管理机制以及Runtime层级的程式码产生器，来达到接近裸机的效能。

Spark从1.4到1.6版本时，便开始靠 Tungsten来优化Spark的资料处理效能，除了加入二进位的储存方式，以及基础的程式码产生器，也增加了用来描述RDD结构的DataFrame 格式，以及新的资料集API（Dataset API），让Tungsten可被运行在使用者专案中来提升效能表现，也可用于Spark SQL及部分的MLlib上。Spark 1.6新增了基于DataFrame的扩充元件Dataset API，相较于过去的RDD API，Dataset提供更好的记忆体管理效能，及较佳的长时间执行效能。

而Spark2.0版本则将进一步提供涵盖完整阶段的程式码产生器，不仅能移除递迴式呼叫，减少效能损耗，还能进行跨运算子之间的整合，并藉由Parquet及内建快取（Built-in Cache）来优化I/O效能。

预计Spark2.0的效能将翻9倍，从1.6版时每秒可处理的1,400万个栏位，暴增到1亿2,500万，其中的Parquet效能，也将从每秒1,100万提升到每秒9,000万笔。Databricks表示，Spark技术在2015年有非常显著的成长，其贡献者在2015年已经超过 1000人，是2014年的2倍，参与各地区定期聚会的会员数量也从1万多人暴增至6万多人。而Spark 2.0将是下一个重大更新版本，预计今年4、5月释出。

历史版本 :
Apache Spark 2.2.0 正式发布，提高可用性和稳定性
Spark 2.0 时代全面到来 —— 2.0.1 版本发布
Apache Spark 2.0.0 发布，APIs 更新
Apache Spark 1.6.2 发布，集群计算环境
Spark 2.0 预览：更简单，更快，更智能
Spark 2.7.6 发布，开源集群计算环境
Apache spark 1.6.1 发布，集群计算环境
Apache Spark 2.0 最快今年4月亮相
Apache Spark 1.6 正式发布，性能大幅度提升
Apache Spark 1.6 预览版：更简便的搜索
Apache Spark 1.5.2 发布，开源集群计算环境
Apache Spark 1.5.1 发布，开源集群计算环境

Apache Spark 2.0 最快今年4月亮相

Apache Spark

后端技术

前端技术

数据库

热门框架

常用IDE

其他