Intel 开源 BigDL，基于 Spark 的深度学习库

发布于 2017-01-07 00:30:41 | 218 次阅读 | 评论: 0 | 来源: 网友投递

Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

近日，Intel 开源了 BigDL，这是一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ，用户可以将他们的深度学习应用程序作为标准的 Spark 程序，它可以直接运行在现有的 Spark 或 Hadoop 集群之上。

特性：

丰富的深度学习支持。BigDL 模仿 Torch，提供对深度学习的全方位支持，包括数值计算（通过Tensor）和高层次神经网络。此外，用户可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中。
极其高的性能。为了达到高性能，BigDL 在每个 Spark 任务中使用 Intel MKL和多线程编程。因此，它比单节点 Xeon 上的开箱即用的 Caffe、Torch 或 TensorFlow 快几个数量级。
有效地横向扩展。 BigDL 可以通过利用 Apache Spark 以及高效实施同步 SGD，全面减少 Spark 上的通信，有效地向外扩展，以“大数据规模”执行数据分析。

使用场景：

你想要在在大数据云（Hadoop/Spark）分析（存储在如 HDFS、HBase、Hive上的）海量数据。
你想向你的大数据（Spark）程序和/或工作流添加深度学习功能（训练或者预测）。
你想利用已有的 Hadoop/Spark 集群来运行深度学习程序，然后可以与其他工作负载动态共享（例如，ETL、数据仓库、功能引擎、经典机器学习、图像分析等）。

最新网友评论 共有(0)条评论发布评论返回顶部

Intel 开源 BigDL，基于 Spark 的深度学习库

Apache Spark

后端技术

前端技术

数据库

热门框架

常用IDE

其他