Apache Spark 1.6 预览版：更简便的搜索

发布于 2015-12-21 10:52:20 | 294 次阅读 | 评论: 0 | 来源: 网友投递

Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

日前，Databricks公司发布了一个Apache Spark主要版本的可用性。除了可用性、可移植性等几个新的特性外，本次发布还提供了对尚未发布的Apache Spark 1.6预览。Databricks用户有机会在官方发布之前试用Spark 1.6的特性，包括在Databricks集成空间内轻松搜索Spark文档、点击几个按钮便能在不同Databricks实例间共享Databricks的notebooks。在本博文中，将对这些令人兴奋的新特性提供一个简短的介绍。

Apache Spark 1.6预览

Patrick Wendell宣布了Spark 1.6 预览版。我们很高兴该预览可用，以使我们的用户在快速发展的开源项目上能够占据优势。在Databricks公司网站上可以试用该Spark 1.6预览。

要从Databricks网站上获取该预览版，Databrick用户只需要通过Databricks集群管理器用户界面选择Version 1.6.0 (Preview)，然后再运行该预览包即可。创建Spark 1.6集群时可以同时保留更早版本的Spark集群，也可以将老版本的Spark应用程序代码运行在Spark 1.6集群当中以便测试1.6版的性能改进，目前的Databricks支持的Spark老版本包括1.3、1.4和1.5。由于Databricks支持运行多个Spark版本，用户在保证原有生产环境稳定的同时也能够试用新版本提供的新特性。