Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Spark是基于内存的大数据分析平台,由UC Berkely AMP lab发布的一大神器。相比Hadoop而言,其最大的优势是基于内存,这样可以极大提高其速度和通用性。

 

Intel 开源 BigDL,基于 Spark 的深度学习库
近日,Intel 开源了 BigDL,这是一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ,用户可以将他们的深度学习应用程序作为标准的 Spark 程序,它可以直接运行在现有的 Spark 或 Hadoop 集群之上。特性:丰富的深度学习支持。BigDL 模仿 Torch,提供对深度学习的全方位支持,包括数值计算(通过Tensor)和高层次神经

发布于 2017-01-07 00:30:41 | 190 次阅读

Spark 体系架构
最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉,从JVM内存分配到Spark集群的资源管理,步步深入,感触颇多。因此,在周末的业余时间里,将此文的核心内容译成中文,并

发布于 2016-09-03 00:59:28 | 187 次阅读

除 Apache Spark 外的三种新兴开源数据分析工具
在数据分析方面,影响深远的变化正在酝酿之中,而开源工具在引领许多变化。当然,你可能已熟悉这个领域的一些明星开源项目,比如Hadoop和Apache Spark,不过现在出现了强烈的要求,需要全面完善数据分析生态系统的新工具。值得注意的是,许多这些工具是为了处理流数据而定制的。物联网带来了众多传感器及其他设备,它们在生

发布于 2016-06-20 01:01:01 | 174 次阅读

Spark 和 Hadoop 是朋友不是敌人
6月15日,IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数据环境中获益。然而,Spark 的快速增长给人们一个奇怪且固执的误解:Spark 将取代 Hadoop,而不是作为 Hadoop

发布于 2015-07-14 00:17:31 | 242 次阅读

IBM 想要通过 Apache Spark 影响百万工程师
6月15日消息,IBM今日宣布了一系列Apache Spark开源软件相关的措施,旨在更好地存储、处理以及分析大量不同类型的数据。Spark是由加州大学伯克利分校开发的一个框架,通过将信息保存至计算机的快速存储模块,帮助企业迅

发布于 2015-06-16 00:31:30 | 142 次阅读

Apache Spark 2.2.0 正式发布,提高可用性和稳定性
Apache Spark 2.2.0 正式发布,这也是 2.x 系列的第三个版本。此版本移除了 Structured Streaming 的实验标记(experimental tag),意味着已可以放心在线上使用。该版本的主要更新内容主要针对的是系统的可用性、稳定性以及代码润色。包括:Core 和 Spark SQL 的 API 升级和性能、稳定性改进,比如支持从 H

发布于 2017-07-12 10:50:37 | 131 次阅读

Spark 2.0 时代全面到来 —— 2.0.1 版本发布
距离Spark 2.0.0发布两个月后,Spark 2.0.1版本发布了,这是一个修正版本,共处理了300多个Issue,涉及spark稳定性和bug等方面的修复 ,它的发布意味着Spark 2.0接近生产环境使用要求,想要尝试Spark 2.0的可以动手了。Apache Spark 2.0是基于spark branch-2.x 开发的,相比于branch-1.0,它在功能和性能等方面均有巨大改进

发布于 2016-10-08 01:22:42 | 173 次阅读

Apache Spark 2.0.0 发布,APIs 更新
Apache Spark 2.0.0 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。该版本主要更新APIs,支持SQL 2003,支

发布于 2016-07-28 07:30:30 | 200 次阅读

Apache Spark 1.6.2 发布,集群计算环境
Apache Spark 1.6.2 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 

发布于 2016-06-28 04:51:58 | 243 次阅读

Spark 2.0 预览:更简单,更快,更智能
Apache Spark 2.0 技术预览在 Databricks Community Edition 发布。该预览包使用upstream branch-2.0构建,当启动Cluster时,使用预览包和选择“2.0 (Tech Preview)” 一样简单。离最终的Apache Spark 2.0发布还有几个星期,现在先来看看有什么新特性:更简单:SQL和简化的APISpark 2.0依然拥有标准的SQL支持和统一的DataFr

发布于 2016-05-12 02:32:34 | 271 次阅读

Spark 2.7.6 发布,开源集群计算环境
Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 H

发布于 2016-03-15 23:50:13 | 163 次阅读

Apache spark 1.6.1 发布,集群计算环境
Apache spark 1.6.1 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 S

发布于 2016-03-11 06:02:25 | 177 次阅读

Apache Spark 2.0 最快今年4月亮相
1月才刚释出1.6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame大数据技术Spark今年1月才刚释出1.6版,下一个2.0版本就已经蓄势待发,预计今年4、5月释出,近日Spark创办人、同时也是 Databricks技术长的Matei Zaharia,更在2016 Spark

发布于 2016-02-29 00:50:32 | 227 次阅读

Apache Spark 1.6 正式发布,性能大幅度提升
Apache Spark 1.6 正式发布,Spark 1.6 包含 1000+ 分支,主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑:Spark 贡献者人数突破 1000 人,比 2014 年多一倍。性能提升根据 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用户想要提升 Spark 的性能。Pa

发布于 2016-01-05 00:48:32 | 190 次阅读

Apache Spark 1.6 预览版:更简便的搜索
日前,Databricks公司发布了一个Apache Spark主要版本的可用性。除了可用性、可移植性等几个新的特性外,本次发布还提供了对尚未发布的Apache Spark 1.6预览。Databricks用户有机会在官方发布之前试用Spark 1.6的特性,包括在Databricks集成空间内轻松搜索Spark文档、点击几个按钮便能在不同Databricks实例

发布于 2015-12-21 10:52:20 | 234 次阅读

Apache Spark 1.5.2 发布,开源集群计算环境
Apache Spark 1.5.2 发布,此版本是个维护版本,包括 Spark 一些领域的稳定性修复,主要是:DataFrame API, Spark Streaming, PySpark, R, Spark SQL 和 MLlib。详细改进内容请看更新日志。Spark 1.5.2 现已提供下载。Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不

发布于 2015-11-16 00:59:35 | 203 次阅读

Apache Spark 1.5.1 发布,开源集群计算环境
Apache Spark 1.5.1 发布,详细更新信息请查看:http://s.apache.org/spark-1.5.1下载地址如下:http://spark.apache.org/downloads.htmlApache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存

发布于 2015-10-05 00:24:35 | 189 次阅读

Apache Spark 1.5.0 正式发布
Spark 1.5.0 是 1.x 系列的第六个版本,包括 230+ 贡献者的努力。值得关注的改进如下:APIs:RDD, DataFrame 和 SQL后端执行:DataFrame 和 SQL集成:数据源,Hive, Hadoop, Mesos 和集群管理R 语言机器学习和高级分析Spark StreamingDeprecations, Removals, Configs 和 Behavior 改进Spark CoreSpark SQL & DataFrame

发布于 2015-09-09 10:23:39 | 407 次阅读

Apache Spark 1.4.1 发布,开源集群计算系统
Apache Spark 1.4.1 发布,此版本是个维护版本,包括一些稳定性修复(DataFrame API, Spark Streaming, PySpark, Spark SQL 和 MLlib),基于 Spark 1.4 分支。强烈建议所有用户升级到最新版本,此版本贡献开发者有 85 人。Spark 1.4.1 现已提供在下载页面。更新内容Data Sources and DataFramesSPARK-8804: Order of UTF8

发布于 2015-07-19 00:57:03 | 166 次阅读

Apache Spark 1.4 发布,开源集群计算系统
Apache Spark 1.4 发布,该版本将 R API 引入 Spark,同时提升了 Spark 的核心引擎和 MLlib ,以及 Spark Streaming 的可用性。部分重要更新如下:Spark CoreSpark core 有多各方面的改进,主要集中在操作,性能和兼容性上:SPARK-6942: Visualization fo

发布于 2015-06-12 00:50:00 | 169 次阅读

Spark 1.2.2/1.3.1 发布,开源集群计算系统
Spark 1.2.2 和 Spark 1.3.1 发布啦!这两个版本是维护版本,超过 90 位开发者在维护 Spark。Spark 1.2.2 包括稳定性方面的 bug 修复:Spark CoreThread safety problem in Netty shuffle (SPARK-6578)Memory leak in JobProgressListener (SPARK-5967)Unable to launch on YARN 2.5.

发布于 2015-04-20 00:21:57 | 210 次阅读

Apache Spark 1.3 发布,开源集群计算环境
Apache Spark 1.3 发布,1.3 版本引入了期待已久的 DataFrame API,这是 Spark 的 RDD 抽象设计来简单快速支持大数据集的变革。同时在流转换 ML 和 SQL 的大量提升。DateFrame API 示例:# Constructs a DataFrame from a JSON da

发布于 2015-03-14 00:48:10 | 209 次阅读

Spark 1.2.1 发布,开源集群计算系统
Spark 1.2.1 发布,此版本是个维护版本,包括 69 位贡献者,修复了一些 Spark 的 bug,包括核心 API,Streaming,PySpark,SQL,GraphX 和 MLlib 方面的。更多改进内容请看发行说明,此版本现已提供 下载。Spark 是一种与 Hadoop 相似的开源集

发布于 2015-02-11 05:29:50 | 155 次阅读

新手入门:Spark 部署实战入门
Spark简介整体认识Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用: 基本概念Fork/Join框架是Java7提供了的一个用于并

发布于 2016-07-06 00:20:08 | 335 次阅读

一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
本篇内容主要为大家提供的是一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统。感兴趣的同学可以参考学习下,具体内容如下:

发布于 2016-03-11 02:20:33 | 348 次阅读

不同的瑞士军刀:对比 Spark 和 MapReduce
本篇内容主要为大家提供的是不同的瑞士军刀:对比 Spark 和 MapReduce。感兴趣的同学可以参考学习下,具体内容如下:

发布于 2016-01-14 00:23:15 | 222 次阅读

spark运行python代码
本篇内容为大家讲解的是spark运行python代码,感兴趣的同学参考学习下,本文内容如下:

发布于 2016-01-05 13:38:13 | 576 次阅读

Flume、Kafka、Storm、Scala、Impala、Hive、Spark基本概念
本篇内容为大家讲解的是Flume、Kafka、Storm、Scala、Impala、Hive、Spark基本概念,感兴趣的同学参考学习下,本文内容如下:

发布于 2015-12-12 00:53:49 | 1179 次阅读

Spark安装及简单入门示例
本文为大家提供的是Spark安装方法及简单入门示例代码,Spark是基于内存的大数据分析平台.感兴趣的同学参考下。

发布于 2015-01-26 15:12:35 | 1765 次阅读

centos下Spark安装和使用
本文为大家讲解的是在centos下Spark的安装和使用方法,感兴趣的同学参考下。

发布于 2015-02-05 01:33:20 | 1702 次阅读

Spark连接Hadoop读取HDFS问题小结
本文为大家讲解的是Spark连接Hadoop读取HDFS问题小结 ,感兴趣的同学参考下。

发布于 2015-02-05 01:37:08 | 391 次阅读


Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务