Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Spark是基于内存的大数据分析平台，由UC Berkely AMP lab发布的一大神器。相比Hadoop而言，其最大的优势是基于内存，这样可以极大提高其速度和通用性。

官方网站软件首页软件下载文档手册

Intel 开源 BigDL，基于 Spark 的深度学习库: 近日，Intel 开源了 BigDL，这是一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ，用户可以将他们的深度学习应用程序作为标准的 Spark 程序，它可以直接运行在现有的 Spark 或 Hadoop 集群之上。特性：丰富的深度学习支持。BigDL 模仿 Torch，提供对深度学习的全方位支持，包括数值计算（通过Tensor）和高层次神经
发布于 2017-01-07 00:30:41 | 218 次阅读
Spark 体系架构: 最近看到一篇关于Spark架构的博文，作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道，他对Spark理解地非常深入，读完他的 “spark-architecture” 这篇博文，有种醍醐灌顶的感觉，从JVM内存分配到Spark集群的资源管理，步步深入，感触颇多。因此，在周末的业余时间里，将此文的核心内容译成中文，并
发布于 2016-09-03 00:59:28 | 229 次阅读
除 Apache Spark 外的三种新兴开源数据分析工具: 在数据分析方面，影响深远的变化正在酝酿之中，而开源工具在引领许多变化。当然，你可能已熟悉这个领域的一些明星开源项目，比如Hadoop和Apache Spark，不过现在出现了强烈的要求，需要全面完善数据分析生态系统的新工具。值得注意的是，许多这些工具是为了处理流数据而定制的。物联网带来了众多传感器及其他设备，它们在生
发布于 2016-06-20 01:01:01 | 204 次阅读
Spark 和 Hadoop 是朋友不是敌人: 6月15日，IBM 宣布计划大规模投资 Spark 相关技术，此项声明会促使越来越多的工程师学习 Spark 技术，并且大量的企业也会采用 Spark 技术。Spark 投资的良性循环会使 Spark 技术发展更加成熟，并且可以从整个大数据环境中获益。然而，Spark 的快速增长给人们一个奇怪且固执的误解：Spark 将取代 Hadoop，而不是作为 Hadoop
发布于 2015-07-14 00:17:31 | 278 次阅读
IBM 想要通过 Apache Spark 影响百万工程师: 6月15日消息，IBM今日宣布了一系列Apache Spark开源软件相关的措施，旨在更好地存储、处理以及分析大量不同类型的数据。Spark是由加州大学伯克利分校开发的一个框架，通过将信息保存至计算机的快速存储模块，帮助企业迅
发布于 2015-06-16 00:31:30 | 164 次阅读

Apache Spark 2.2.0 正式发布，提高可用性和稳定性: Apache Spark 2.2.0 正式发布，这也是 2.x 系列的第三个版本。此版本移除了 Structured Streaming 的实验标记（experimental tag），意味着已可以放心在线上使用。该版本的主要更新内容主要针对的是系统的可用性、稳定性以及代码润色。包括：Core 和 Spark SQL 的 API 升级和性能、稳定性改进，比如支持从 H
发布于 2017-07-12 10:50:37 | 195 次阅读
Spark 2.0 时代全面到来 —— 2.0.1 版本发布: 距离Spark 2.0.0发布两个月后，Spark 2.0.1版本发布了，这是一个修正版本，共处理了300多个Issue，涉及spark稳定性和bug等方面的修复，它的发布意味着Spark 2.0接近生产环境使用要求，想要尝试Spark 2.0的可以动手了。Apache Spark 2.0是基于spark branch-2.x 开发的，相比于branch-1.0，它在功能和性能等方面均有巨大改进
发布于 2016-10-08 01:22:42 | 215 次阅读
Apache Spark 2.0.0 发布，APIs 更新: Apache Spark 2.0.0 发布了，Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。该版本主要更新APIs，支持SQL 2003，支
发布于 2016-07-28 07:30:30 | 224 次阅读
Apache Spark 1.6.2 发布，集群计算环境: Apache Spark 1.6.2 发布了，Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala
发布于 2016-06-28 04:51:58 | 274 次阅读
Spark 2.0 预览：更简单，更快，更智能: Apache Spark 2.0 技术预览在 Databricks Community Edition 发布。该预览包使用upstream branch-2.0构建，当启动Cluster时，使用预览包和选择“2.0 (Tech Preview)” 一样简单。离最终的Apache Spark 2.0发布还有几个星期，现在先来看看有什么新特性：更简单：SQL和简化的APISpark 2.0依然拥有标准的SQL支持和统一的DataFr
发布于 2016-05-12 02:32:34 | 332 次阅读
Spark 2.7.6 发布，开源集群计算环境: Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 H
发布于 2016-03-15 23:50:13 | 208 次阅读
Apache spark 1.6.1 发布，集群计算环境: Apache spark 1.6.1 发布了，Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 S
发布于 2016-03-11 06:02:25 | 239 次阅读
Apache Spark 2.0 最快今年4月亮相: 1月才刚释出1.6版的大数据技术Spark，下一个2.0版本预计4、5月释出，将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame大数据技术Spark今年1月才刚释出1.6版，下一个2.0版本就已经蓄势待发，预计今年4、5月释出，近日Spark创办人、同时也是 Databricks技术长的Matei Zaharia，更在2016 Spark
发布于 2016-02-29 00:50:32 | 281 次阅读
Apache Spark 1.6 正式发布，性能大幅度提升: Apache Spark 1.6 正式发布，Spark 1.6 包含 1000+ 分支，主要是三个大方面的改进：性能提升，新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑：Spark 贡献者人数突破 1000 人，比 2014 年多一倍。性能提升根据 Apache Spark 官方 2015 年 Spark Survey，有 91% 的用户想要提升 Spark 的性能。Pa
发布于 2016-01-05 00:48:32 | 240 次阅读
Apache Spark 1.6 预览版：更简便的搜索: 日前，Databricks公司发布了一个Apache Spark主要版本的可用性。除了可用性、可移植性等几个新的特性外，本次发布还提供了对尚未发布的Apache Spark 1.6预览。Databricks用户有机会在官方发布之前试用Spark 1.6的特性，包括在Databricks集成空间内轻松搜索Spark文档、点击几个按钮便能在不同Databricks实例
发布于 2015-12-21 10:52:20 | 294 次阅读
Apache Spark 1.5.2 发布，开源集群计算环境: Apache Spark 1.5.2 发布，此版本是个维护版本，包括 Spark 一些领域的稳定性修复，主要是：DataFrame API, Spark Streaming, PySpark, R, Spark SQL 和 MLlib。详细改进内容请看更新日志。Spark 1.5.2 现已提供下载。Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不
发布于 2015-11-16 00:59:35 | 267 次阅读
Apache Spark 1.5.1 发布，开源集群计算环境: Apache Spark 1.5.1 发布，详细更新信息请查看：http://s.apache.org/spark-1.5.1下载地址如下：http://spark.apache.org/downloads.htmlApache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存
发布于 2015-10-05 00:24:35 | 228 次阅读
Apache Spark 1.5.0 正式发布: Spark 1.5.0 是 1.x 系列的第六个版本，包括 230+ 贡献者的努力。值得关注的改进如下：APIs：RDD, DataFrame 和 SQL后端执行：DataFrame 和 SQL集成：数据源，Hive, Hadoop, Mesos 和集群管理R 语言机器学习和高级分析Spark StreamingDeprecations, Removals, Configs 和 Behavior 改进Spark CoreSpark SQL & DataFrame
发布于 2015-09-09 10:23:39 | 437 次阅读
Apache Spark 1.4.1 发布，开源集群计算系统: Apache Spark 1.4.1 发布，此版本是个维护版本，包括一些稳定性修复（DataFrame API, Spark Streaming, PySpark, Spark SQL 和 MLlib），基于 Spark 1.4 分支。强烈建议所有用户升级到最新版本，此版本贡献开发者有 85 人。Spark 1.4.1 现已提供在下载页面。更新内容Data Sources and DataFramesSPARK-8804: Order of UTF8
发布于 2015-07-19 00:57:03 | 196 次阅读
Apache Spark 1.4 发布，开源集群计算系统: Apache Spark 1.4 发布，该版本将 R API 引入 Spark，同时提升了 Spark 的核心引擎和 MLlib ，以及 Spark Streaming 的可用性。部分重要更新如下：Spark CoreSpark core 有多各方面的改进，主要集中在操作，性能和兼容性上：SPARK-6942: Visualization fo
发布于 2015-06-12 00:50:00 | 199 次阅读
Spark 1.2.2/1.3.1 发布，开源集群计算系统: Spark 1.2.2 和 Spark 1.3.1 发布啦！这两个版本是维护版本，超过 90 位开发者在维护 Spark。Spark 1.2.2 包括稳定性方面的 bug 修复：Spark CoreThread safety problem in Netty shuffle (SPARK-6578)Memory leak in JobProgressListener (SPARK-5967)Unable to launch on YARN 2.5.
发布于 2015-04-20 00:21:57 | 241 次阅读
Apache Spark 1.3 发布，开源集群计算环境: Apache Spark 1.3 发布，1.3 版本引入了期待已久的 DataFrame API，这是 Spark 的 RDD 抽象设计来简单快速支持大数据集的变革。同时在流转换 ML 和 SQL 的大量提升。DateFrame API 示例：# Constructs a DataFrame from a JSON da
发布于 2015-03-14 00:48:10 | 248 次阅读
Spark 1.2.1 发布，开源集群计算系统: Spark 1.2.1 发布，此版本是个维护版本，包括 69 位贡献者，修复了一些 Spark 的 bug，包括核心 API，Streaming，PySpark，SQL，GraphX 和 MLlib 方面的。更多改进内容请看发行说明，此版本现已提供下载。Spark 是一种与 Hadoop 相似的开源集
发布于 2015-02-11 05:29:50 | 185 次阅读

后端技术

前端技术

数据库

热门框架

常用IDE

其他