专访马子雅：英特尔开源BigDL，推进AI民主化

发布时间：2017-06-07 15:03:00 所属栏目：访谈来源：站长之家用户

导读：作为 AI 民主化计谋的重要实践之一，英特尔在2016 年的最后一天，开源了基于 Apache Spark 的漫衍式深度进修框架 BigDL。最近，英特尔公司软件与处事奇迹部副总裁、体系技能和优化部分大数据技能总监马子雅密斯接管了新智元的专访，泛论了BigDL 的特点、

副问题[/!--empirenews.page--]

作为 AI 民主化计谋的重要实践之一，英特尔在2016 年的最后一天，开源了基于 Apache Spark 的漫衍式深度进修框架 BigDL。最近，英特尔公司软件与处事奇迹部副总裁、体系技能和优化部分大数据技能总监马子雅密斯接管了新智元的专访，泛论了BigDL 的特点、应用、将来的改造，以及英特尔开源这一深度进修框架的初志和意义。正如马子雅密斯所说，“BigDL的方针是大大低落平凡大数据用户和数据科学家，在行使深度进修举办数据说明和构建人工智能应用的门槛”，“英特尔致力于将我们的技能提供应我们的社区，为客户和开拓职员开释 AI 在 IA(英特尔架构，Intel Architecture)上的所有潜力”。

BigDL 原生地成立于Hadoop/Spark 之上

新智元：马密斯您好。英特尔开源了基于Apache Spark 的漫衍式深度进修框架 BigDL。叨教和其他开源框架对比，BigDL 有什么特点?

马子雅：BigDL 的方针是大大低落平凡大数据用户和数据科学家，在行使深度进修举办数据说明和构建人工智能应用的门槛。客岁 12 月 31 日我们开源了 BigDL;开源社区对BigDL 的起劲采用令人印象很是深刻：在短短一个月内，GitHub 上已得到 229 个用户克隆 BigDL 代码(FORK)和 1421 个用户保藏(STAR)。本年 2 月波士顿进行了 Spark 峰会，在大会开幕主题演讲上，斯坦福大学传授、ApacheSpark 建设者、Databricks CTO Matei Zaharia 高度评价了 BigDL;到今朝为止，包罗Databricks(Apache Spark 重要孝顺者)云平台和微软 Azure HDInsight云处事都提供了与 BigDL 的集成，利便其用户会见行使。另外，浩瀚环球媒体包罗Infoworld，HPCwire，Datanami，HPC，infoq，InsideHPC，计较机贸易评述，SiliconAngle，Oreilly 等，以及德国、日本和中国等各国媒体也对 BigDL 也举办了深入的报道。

专访马子雅：英特尔开源BigDL，推进AI民主化

BigDL 是一个成立在大数据平台(Hadoop/Spark)之上原生的漫衍式深度进修库。它提供了在ApacheSpark上富厚的深度进修成果(和现有框架如 Caffe 和 Torch等成果同等)，以辅佐 Hadoop/Spark 成为一个同一的数据说明平台，为整个数据说明和呆板进修进程(包罗实习/测试数据网络，数据的打点，转特性换，传统呆板进修，深度进修，模子陈设和处事等)提供比现有框架越发同一和集成化的体验。BigDL 措施是作为尺度的 Spark 措施编写的，而且不必要对底层 Hadoop/Spark 集群举办变动;对付拥有(或将拥有)大数据基本架构的说明客户，可以在现有 Hadoop/Spark 集群上直接运行深度进修应用，不必要配置单独的实习集群，也无需在两个集群之间拷贝多版本的数据和模子，从而镌汰了端到端的进修耽误，并低落了总体本钱。

基于大数据平台的 BigDL 比现有的深度进修框架有更高效的横向扩展、容错性、弹性和动态资源打点;通过操作英特尔MKL 和其他多线程优化要领，它在单节点Xeon上拥有极高的机能，而且可以轻松扩展到上百个节点。它还支持载入 Caffe / Torch 的预实习模子到 Spark 上，来举办特性提取、微调、猜测等。

新智元：英特尔筹备怎样把人们吸引到 BigDL 中来呢?

马子雅：我们始终信托，更好地满意用户需求的办理方案会获得更好的应用。

连年来，跟着我们与很多大数据说明和AI客户相助，他们的需求有几个明明的趋势：

-客户体验和易用性：客户但愿能在统一集群中、在现有的数据说明流水线长举办深度进修，以便轻松地与数据打点、特征工程、传统(非深度)呆板进修集成;这样就能辅佐他们消除在差异集群之间的多版本数据/模子的拷贝，低落端到端的呆板进修耽误，将深度进修集成到现有的大数据说明事变流中打点，而且实现动态、弹性的呆板资源打点。

-大局限深度进修：客户但愿为他们的深度进修模子提供越来越多的数据，以进步实习的精确性。很多人选择在大数据(Haoop/Spark)平台之上构建深度进修成果，以便操作其程度扩展架构，说明大局限实习数据。

专访马子雅：英特尔开源BigDL，推进AI民主化

当为客户办理这些题目时，第一回响是将现有的深度进修框架集成到客户的大数据平台上，但愿将他们的深度进修手段和Spark / Hadoop的可扩展性团结在一路;可是这样的整合仅仅逗留在外貌，而缺乏在数据处理赏罚或模子集成上的无缝集成。这是我们引入BigDL的最大驱动身分。BigDL与现有深度进修框架的成果同等，可是BigDL的利益是它原生地成立在Spark上，而且自然地担任了Spark的可扩展性，而且与现有大数据处理赏罚事变流(譬喻Spark ML pipeline，SparkSQL， Spark Streaming， Dataframes， Structured Streaming等)无缝集成。以是BigDL出格合用于有大量数据必要打点，以及拥有(或将拥有)大数据平台(Hadoop/Spark)的说明客户。

BigDL 的应用案例和将来改造偏向

新智元：BigDL 此刻首要应用于哪些规模?您是否可以先容一两个应用的案例?

马子雅：BigDL 的方针是大大低落平凡大数据用户和数据科学家，行使深度进修举办数据说明和构建人工智能应用的门槛;以是 BigDL 可以和现有大数据说明的事变流(譬喻Spark ML pipeline，SparkSQL， Spark Streaming， Dataframes， Structured Streaming等)举办无缝集成。BigDL 固然是在几个月前开源的，但现实上我们已经与一些早期相助者，基于以上特征乐成构建了基于 BigDL 的深度进修(和人工智能)的端到端的应用案例。

第一个客户案例是在钢铁制造行业的应用。进步钢外貌缺陷的辨认精度对钢铁出产和质量节制很是重要;我们与一个知名的钢铁出产商相助，行使 Spark 和 BigDL 实现了端到端的深度进修流水线，用于产物缺陷图像辨认。由此客户明显地进步了其缺陷识此外精度和手段。

对付金融处事公司来说，因为其普及的产物、处事和客户互动渠道，他们面对的诓骗买卖营业风险大大增进了。我们与一家金融处事公司相助，行使 Spark 和 BigDL 实施了端到端的进修流水线，即时说明大量数据，为此明显地进步了诓骗买卖营业检测率。

新智元：BigDL 之后会在哪些方面做出改造?好比，是否会提供 Python API ?是否会应承更多的其他框架实习好的模子载入?

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页