发布于 2017-01-07 00:30:41 | 191 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。


近日,Intel 开源了 BigDL,这是一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ,用户可以将他们的深度学习应用程序作为标准的 Spark 程序,它可以直接运行在现有的 Spark 或 Hadoop 集群之上。

特性:

  • 丰富的深度学习支持。BigDL 模仿 Torch,提供对深度学习的全方位支持,包括数值计算(通过Tensor)和高层次神经网络。此外,用户可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中。

  • 极其高的性能。为了达到高性能,BigDL 在每个 Spark 任务中使用 Intel MKL和多线程编程。因此,它比单节点 Xeon 上的开箱即用的 Caffe、Torch 或 TensorFlow 快几个数量级。

  • 有效地横向扩展。 BigDL 可以通过利用 Apache Spark 以及高效实施同步 SGD, 全面减少 Spark 上的通信,有效地向外扩展,以“大数据规模”执行数据分析。

使用场景:

  • 你想要在在大数据云(Hadoop/Spark)分析(存储在如 HDFS、HBase、Hive上的)海量数据。

  • 你想向你的大数据(Spark)程序和/或工作流添加深度学习功能(训练或者预测)。

  • 你想利用已有的 Hadoop/Spark 集群来运行深度学习程序,然后可以与其他工作负载动态共享(例如,ETL、数据仓库、功能引擎、经典机器学习、图像分析等)。



最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务