【深度学习】深鉴科技姚颂:深度学习处理架构的演进

2021-08-27 06:45:43

AI 科技评论按：AI研习社系列公开课持续进行中，高水平的嘉宾、精彩的分享主题、宽广的学术视角和敏锐的行业理解，肯定会让每个观众/读者都有所收获。

深度学习、体系结构、数据规模的共同发展促进了人工智能行业的繁荣。在通用架构之外，深度学习处理架构已经经历了三代的发展，从计算优化、存储优化，到结合Deep Compression的稀疏化处理架构。在10月17日的AI研习社公开课中，我们请到了深鉴科技姚颂，为大家讲解深度学习处理架构的演进过程，以及几个核心问题是如何逐渐解决的。 AI 科技评论把这次公开课的主要内容整理如下。

姚颂，深鉴科技联合创始人、CEO。毕业于清华大学电子系，斯坦福大学研究访问学者。曾任清华电子系科协主席，本科期间发表多篇论文。入选2017福布斯亚洲30位30岁以下精英榜。

公开课开始

姚颂公开课的主题是“深度学习处理架构的演进”，此次公开课主要突出演进中思路的变化，具体技术细节可以阅读提到的论文。还有几位北大的同学来到姚颂的公开课现场听这次直播。

姚颂首先简单介绍了一下深鉴科技。深鉴科技的英文名DeePhi是Deep Learning和Philosophy的结合，这也是他们的slogan“Discover the philosophy behind deep learning” 所传达的。

深鉴科技的创始人为汪玉副教授、韩松博士、单羿博士以及姚颂本人。

深鉴科技要做的事情是“打造新一代深度学习平台”，从算法、软件、硬件、系统形成整体的解决方案。这天凌晨深鉴科技也刚刚发布了中国首套深度学习开发SDK“DNNDK”，可以在深鉴科技官网deephi.com/dnndk下载试用以及提出意见。

几位创始人在创立深鉴科技前做了许多研究工作，比如韩松的NIPS2015文章“Learning both Weights and Connections for Efficient Neural Networks”。而后，这篇文章的改进工作“Deep Compression”拿到了ICLR2016的最佳论文。

针对压缩后的稀疏神经网络，深鉴科技做了许多硬件结构设计的工作，包括EIE和ESE。他们发现，稀疏化可以极大地降低带宽需求和系统功耗，同时提高性能。ESE的论文就拿到了FPGA2017的最佳论文。

计算平台在人工智能中有着哪些影响

进入知识讲解。姚颂介绍道，现在虽然人工智能是个热门概念，但很多人误以为“人工智能等于深度学习”，但其实人工智能的范围大于机器学习，机器学习的范围又大于深度学习。人工智能由三方面共同组成，算法、数据以及计算平台，这个领域的上升也是三方面技术的共同发展合力造成的。

神经网络的概念并不新颖了，Yann LeCun在1998年就提出了MNIST数据集和CNN。只是当时的计算平台很弱，所以只能是小图、黑白两色，数量也只有数万张。

2012年时，Google X启动了“猫脸识别计划”，吴恩达和Jeff Dean用了1000台分布式服务器和一万六千个CPU。同期的AlexNet只需要1台服务器、2个GPU就训练出来了。

GPU确实给整个行业带来了很大的变化，那么GPU真的就足够了吗？姚颂的答案是：它确实很好，但它还不够。

姚颂针对应用（inference推理）场景介绍了他的观察。比如在安防监控、数据中心、机器人设备上都使用GPU的话，功耗和延迟都会是严重的问题。所以许多公司都在研究新一代的深度学习平台。

那么这样的状况是什么问题导致的呢？就是：神经网络既是计算密集的任务，又是存储密集的任务。

图中是一些较为老旧的神经网络所需的计算量。最新的ResNet50做一次前向的推理就需要7GOPS，。相比之下，手机的ARM处理器的计算能力典型值是10GOPS。所以这样的网络是没办法在手机端运行的，即便只是推理任务。而当前的许多处理器也都没办法支持如此大规模的并行计算。

姚颂用这张图介绍“存储密集”的意思，图的意义可以理解为网络中每个连接的权值被重复使用的次数，从几十次到几百次不等。所以模型对内存吞吐量的要求会比模型自身的大小大几百倍，甚至更多。对缓存读取提出高要求，也就意味着系统极易产生高延迟。

存储密集还带来一个问题，就是存储带来的功耗会比片上计算高出2到3个数量级。这也是GPU这样的（片上缓存很小所以需要读取内存的）平台很难降低功耗的原因。

如何解决这些问题呢？姚颂把业内提出的解决方案分为了三个阶段：

1. 优化计算引擎，增加并行度

2. 并行度已经很高之后，优化存储系统

3. 最近一年中，算法和硬件分开的情况下已经达到了优化的极限，所以开始软硬件协同设计，利用压缩和稀疏化达到整体最高效的方案。

第一阶段：计算引擎优化

第一阶段在2009～2014年之间，姚颂认为这个阶段作出了最大贡献的是Yann LeCun教授。作为系统科学家，他做了很多算法之外的事情。

这个阶段的一个典型方案是Yann LeCun小组提出的NeuFlow，设计思路是数据流的处理。他们设计了阵列式、可重构的数据流引擎，阵列中的不同单元同时进行不同的计算，显著提高了计算资源的利用率。

在场景解析的测试中，他们使用了V6 FPGA芯片，得到了非常高的峰值性能（Peak GOPs）同时，也得到了很高的实测性能（Real GOPs）。同期GPU的实测性能要远低于峰值性能。

但他们没有注意到的是，当时的神经网络都还是很小的，所以存储的问题不那么明显。

NVIDIA同样也以解决这个阶段的问题的思路，不断更新推出着具有越来越多的CUDA core的GPU。

第二阶段：存储系统优化

随着模型规模的增大，存储的问题开始显现。

。

“根据Am-dahl定律，虽然计算单元是重要的一步，但低效的内存传输很可能会抵消加速器在性能和价格方面带来的提升”，所以他们把存储作为了设计中首要考虑的因素。在分析了神经网络存取内存的规律后，他们发现全连接层的向量乘矩阵运算和卷积层的输入输出feature map都有很多部分的数据是可以复用的。解决方案中，他们首先进行分块，然后增加数据缓存以便重复利用数据。

图中右侧的芯片布局图中，中间起到计算作用的Neural Function Unit只占了一小部分，缓冲区（buffer）占据了大部分空间。

接着“电脑”系列衍生出了“大电脑”，在很小的计算单元周围布置了许多片上缓存（cache），然后把许多个这样的模块拼成一个大芯片，整个芯片上有几十MB的存储空间，足以装下整个模型。这样的方法起到了一定的作用。但一旦遇到过大、无法完全装入的模型，性能仍然会下降。

不过这种思路总体还是不错的，在企业级应用中很受欢迎，比如谷歌的TPU就有28MB的片上存储，可以装下整个Inception网络。在只做推理的TPUV1之后，TPUV2为了兼顾训练又增加了许多片外的高带宽存储（HBM）内存，与此对应的成本和功耗也会有一定上升。

根据TPU论文中给出的测试结果，第一代TPU芯片具有92TOPs的峰值性能，CNN0可以达到68TOPs的实测性能，这就是把整个模型的数据都装入片上缓存之后达到的效果。但运行一个无法都装在片上的LSTM时，实测性能就只有3.7TOPs，大约4%的利用率。在他们的论文中也写道“未来的设计中将会提高稀疏性（sparsity）考量的优先级”，即，意识到了稀疏化的重要性。

第三阶段：稀疏化和软硬件协同设计

那么什么是“稀疏化”，什么是“软硬件协同设计”呢？

之前的发展过程中都是把算法和硬件中的一个看作固定的，单独优化另一个，很容易碰到极限值。现在发现可能需要把硬件和算法一起做优化。

这是一项来自韩松的很有名的工作，叫做Deep Compression，意在压缩去除神经网络中的冗余，尤其是在全连接层、LSTM的大规模矩阵运算中。他的想法来自人类成人脑中的突触要远少于幼儿时期，但其实成人的智慧和记忆却全方位优于幼儿。这说明有许多神经元间的连接其实是“无用的”。

Deep Compression分为三个步骤

第一个步骤是剪枝Pruning，发现网络中对总体结果影响不大的权重，直接去掉它们。比如直接去掉权重绝对值小于0.1的连接，再进行fine-tune
第二个步骤是利用Code Book做量化。它是说把32bit长度的浮点数压缩到8bit甚至4bit。
最后还用霍夫曼编码的形式存储数据。

所以他最核心的贡献是，发现了决定最终结果的不仅仅是权值，神经网络稀疏化的模式（pattern）也决定了网络的效果。

Deep Compression最大的应用是在手机app中，比如AR app中都用Deep Compression把网络压小到手机能够存储、运行的大小，Facebook的AR Demo App就取得了8倍的压缩效果。

下面姚颂更详细地介绍了剪枝和量化两个阶段。

左图展示的是剪枝，非常明白了，直接去掉作用不大的连接。
右图是说，网络中可能不需要大量的不同的值，也许只需要4个不同的值就可以代表网络中所有需要用到的权值。那么接下来就可以用2bit的index存这四个值，值本身的长度当然可以大于2bit。

接着大家发现，做完压缩之后的网络不一定能很好地在CPU或者GPU上运行，因为这些硬件适合稠密运算。所以在EIE（Efficient Inference Engine）的工作中设计了压缩后的神经网络专用的处理器架构。

从右侧芯片布局图中可以看到，计算单元占的空间仍然很小，大多数面积还是用来解决存储问题的。

EIE主要是为了全连接层设计的，不能做复杂的矩阵调度（不适合LSTM）；也没办法处理多种不同的非线性函数（比如Htan）

所以基于EIE的研究，在深鉴科技创立后他们又做了许多新的研究，来到了ESE，Efficient Speech Recognition Engine，得到了FPGA 2017 最佳论文奖。它的核心仍然是稀疏化矩阵的计算操作。

NVIDIA也在ISCA2017发布了稀疏神经网络加速器SCNN。

总结

大家一直都在发现当前最大的问题、用当前最好的方法来解决。最大的两个问题也就是计算和存储，首先通过优化计算引擎提高并行度之后，然后改进存储。现在前面的方式都达到极限之后，为了把水分彻底榨干，现在就做软硬件的协同设计。这也是深鉴科技在过去4年中进行的研究。

最后姚颂还有一项感叹，就是研究只是做产品的前10%，要做出产品还有无数的工程方面的努力、无数的debug；论文中只需要“恰好能够跑通这些benchmark”，实际产品需要能够在用户各种各样的算法上都不出错，还需要提供好用的软件产品。

（完）

大数据架构详解：从数据获取到深度学习

来源：朱洁编著 CSDN大数据

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。此外，数据挖掘和机器学习有很大的交集。本文将从架构和应用角度去解读这两个领域。

机器学习和数据挖掘的联系与区别

数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。从数据分析的角度来看，数据挖掘与机器学习有很多相似之处，但不同之处也十分明显，例如，数据挖掘并没有机器学习探索人的学习机制这一科学发现任务，数据挖掘中的数据分析是针对海量数据进行的，等等。从某种意义上说，机器学习的科学成分更重一些，而数据挖掘的技术成分更重一些。

学习能力是智能行为的一个非常重要的特征，不具有学习能力的系统很难称之为一个真正的智能系统，而机器学习则希望（计算机）系统能够利用经验来改善自身的性能，因此该领域一直是人工智能的核心研究领域之一。在计算机系统中，“经验”通常是以数据的形式存在的，因此，机器学习不仅涉及对人的认知学习过程的探索，还涉及对数据的分析处理。实际上，机器学习已经成为计算机数据分析技术的创新源头之一。由于几乎所有的学科都要面对数据分析任务，因此机器学习已经开始影响到计算机科学的众多领域，甚至影响到计算机科学之外的很多学科。机器学习是数据挖掘中的一种重要工具。然而数据挖掘不仅仅要研究、拓展、应用一些机器学习方法，还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪声等实践问题。机器学习的涉及面也很宽，常用在数据挖掘上的方法通常只是“从数据学习”。然而机器学习不仅仅可以用在数据挖掘上，一些机器学习的子领域甚至与数据挖掘关系不大，如增强学习与自动控制等。所以笔者认为，数据挖掘是从目的而言的，机器学习是从方法而言的，两个领域有相当大的交集，但不能等同。

典型的数据挖掘和机器学习过程

图1是一个典型的推荐类应用，需要找到“符合条件的”潜在人员。要从用户数据中得出这张列表，首先需要挖掘出客户特征，然后选择一个合适的模型来进行预测，最后从用户数据中得出结果。

图1

把上述例子中的用户列表获取过程进行细分，有如下几个部分（见图2）。

图2

业务理解：理解业务本身，其本质是什么？是分类问题还是回归问题？数据怎么获取？应用哪些模型才能解决？
数据理解：获取数据之后，分析数据里面有什么内容、数据是否准确，为下一步的预处理做准备。
数据预处理：原始数据会有噪声，格式化也不好，所以为了保证预测的准确性，需要进行数据的预处理。
特征提取：特征提取是机器学习最重要、最耗时的一个阶段。
模型构建：使用适当的算法，获取预期准确的值。
模型评估：根据测试集来评估模型的准确度。
模型应用：将模型部署、应用到实际生产环境中。
应用效果评估：根据最终的业务，评估最终的应用效果。

整个过程会不断反复，模型也会不断调整，直至达到理想效果。

机器学习概览

机器学习的算法有很多，这里从两个方面进行介绍：一个是学习方式，另一个是算法类似性。

学习方式

根据数据类型的不同，对一个问题的建模可以有不同的方式。在机器学习或人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域有如下几种主要的学习方式。

监督式学习：在监督式学习下，输入数据被称为“训练数据”，每组训练数据都有一个明确的标识或结果，如对防垃圾邮件系统中的“垃圾邮件”、“非垃圾邮件”，对手写数字识别中的“1”、“2”、“3”、“4”等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断地调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景包括分类问题和回归问题。常见算法有逻辑回归和反向传递神经网络。

非监督式学习：在非监督式学习下，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习及聚类等。常见算法包括Apriori算法和K-Means算法。

半监督式学习：在半监督式学习下，输入数据部分被标识，部分没有被标识。这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构，以便合理地组织数据进行预测。其应用场景包括分类和回归。常见算法包括一些对常用监督式学习算法的延伸。这些算法首先试图对未标识的数据进行建模，然后在此基础上对标识的数据进行预测，如图论推理算法或拉普拉斯支持向量机等。

强化学习：在强化学习下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅作为一种检查模型对错的方式。在强化学习下，输入数据直接反馈到模型，模型必须对此立刻做出调整。常见的应用场景包括动态系统及机器人控制等。常见算法包括Q-Learning及时间差学习（Temporal Difference Learning）等。

在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习。在图像识别等领域，由于存在大量的非标识数据和少量的可标识数据，目前半监督式学习是一个很热门的话题。而强化学习更多地应用在机器人控制及其他需要进行系统控制的领域。

算法类似性

根据算法的功能和形式的类似性，可以对算法进行分类，如基于树的算法、基于神经网络的算法等。当然，机器学习的范围非常庞大，有些算法很难明确归到某一类。而对于有些分类来说，同一分类的算法可以针对不同类型的问题。这里，我们尽量把常用的算法按照最容易理解的方式进行分类。

回归算法：回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。常见的回归算法包括最小二乘法、逻辑回归、逐步式回归、多元自适应回归样条及本地散点平滑估计等。

基于实例的算法：基于实例的算法常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较，从而找到最佳的匹配。因此，基于实例的算法常常被称为“赢家通吃学习”或者“基于记忆的学习”。常见的算法包括k-Nearest Neighbor（kNN）、学习矢量量化（Learning Vector Quantization，LVQ）及自组织映射算法（Self-Organizing Map，SOM）等。

正则化算法：正则化算法是其他算法（通常是回归算法）的延伸，根据算法的复杂度对算法进行调整。正则化算法通常对简单模型予以奖励，而对复杂算法予以惩罚。常见的算法包括Ridge Regression、Least Absolute Shrinkage and Selection Operator（LASSO）及弹性网络（Elastic Net）等。

决策树算法：决策树算法根据数据的属性采用树状结构建立决策模型，常用来解决分类和回归问题。常见算法包括分类及回归树（Classification and Regression Tree，CART）、ID3（Iterative Dichotomiser 3）、C4.5、Chi-squared Automatic Interaction Detection（CHAID）、Decision Stump、随机森林（Random Forest）、多元自适应回归样条（MARS）及梯度推进机（GBM）等。

贝叶斯算法：贝叶斯算法是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见的算法包括朴素贝叶斯算法、平均单依赖估计（Averaged One-Dependence Estimators，AODE）及Bayesian Belief Network（BBN）等。

基于核的算法：基于核的算法中最著名的莫过于支持向量机（SVM）。基于核的算法是把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易地解决。常见的基于核的算法包括支持向量机（Support Vector Machine，SVM）、径向基函数（Radial Basis Function，RBF）及线性判别分析（Linear Discriminate Analysis，LDA）等。

聚类算法：聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所有的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括K-Means算法及期望最大化算法（EM）等。

关联规则学习：关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见的算法包括Apriori算法和Eclat算法等。

人工神经网络算法：人工神经网络算法模拟生物神经网络，是一类模式匹配算法，通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法（深度学习就是其中的一类算法）。常见的人工神经网络算法包括感知器神经网络、反向传递、Hopfield网络、自组织映射及学习矢量量化等。

深度学习算法：深度学习算法是对人工神经网络的发展。在计算能力变得日益廉价的今天，深度学习算法试图建立大得多也复杂得多的神经网络。很多深度学习算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括受限波尔兹曼机（RBN）、Deep Belief Networks（DBN）、卷积网络（Convolutional Network）及堆栈式自动编码器（Stacked Auto-encoders）等。

降低维度算法：与聚类算法一样，降低维度算法试图分析数据的内在结构，不过降低维度算法通过非监督式学习，试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化，或者用来简化数据以便监督式学习使用。常见的降低维度算法包括主成分分析（Principle Component Analysis，PCA）、偏最小二乘回归（Partial Least Square Regression，PLSR）、Sammon映射、多维尺度（Multi-Dimensional Scaling，MDS）及投影追踪（Projection Pursuit）等。

集成算法：集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的、较弱的学习模型，以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。常见的集成算法包括Boosting、Bootstrapped Aggregation（Bagging）、AdaBoost、堆叠泛化（Stacked Generalization，Blending）、梯度推进机（Gradient Boosting Machine，GBM）及随机森林（Random Forest）等。

机器学习&数据挖掘应用案例

前面了解了机器学习和数据挖掘的基本概念，下面来看一下业界成熟的案例，对机器学习和数据挖掘有一个直观的理解。

尿布和啤酒的故事

先来看一则有关数据挖掘的故事——“尿布与啤酒”。

总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛拥有世界上最大的数据仓库系统。为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘。一个意外的发现是：跟尿布一起购买最多的商品竟然是啤酒！这是数据挖掘技术对历史数据进行分析的结果，反映了数据的内在规律。那么，这个结果符合现实情况吗？是否有利用价值？

于是，沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析，从而揭示出隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买完尿布后又随手带回了他们喜欢的啤酒。

既然尿布与啤酒一起被购买的机会很多，于是沃尔玛就在其各家门店将尿布与啤酒摆放在一起，结果是尿布与啤酒的销售量双双增长。

决策树用于电信领域故障快速定位

电信领域比较常见的应用场景是决策树，利用决策树来进行故障定位。比如，用户投诉上网慢，其中就有很多种原因，有可能是网络的问题，也有可能是用户手机的问题，还有可能是用户自身感受的问题。怎样快速分析和定位出问题，给用户一个满意的答复？这就需要用到决策树。

图3就是一个典型的用户投诉上网慢的决策树的样例。

图3

图像识别领域

小米面孔相册

这项功能的名字叫“面孔相册”，可以利用图像分析技术，自动地对云相册照片内容按照面孔进行分类整理。开启“面孔相册”功能后，可以自动识别、整理和分类云相册中的不同面孔。

“面孔相册”还支持手动调整分组、移出错误面孔、通过系统推荐确认面孔等功能，从而弥补机器识别的不足。

这项功能的背后其实使用的是深度学习技术，自动识别图片中的人脸，然后进行自动识别和分类。

支付宝扫脸支付

马云在2015 CeBIT展会开幕式上首次展示了蚂蚁金服的最新支付技术“Smile to Pay”（扫脸支付），惊艳全场。支付宝宣称，Face++ Financial人脸识别技术在LFW国际公开测试集中达到99.5%的准确率，同时还能运用“交互式指令+连续性判定+3D判定”技术。人脸识别技术基于神经网络，让计算机学习人的大脑，并通过“深度学习算法”大量训练，让它变得极为“聪明”，能够“认人”。实现人脸识别不需要用户自行提交照片，有资质的机构在需要进行人脸识别时，可以向全国公民身份证号码查询服务中心提出申请，将采集到的照片与该部门的权威照片库进行比对。

也就是说，用户在进行人脸识别时，只需打开手机或电脑的摄像头，对着自己的正脸进行拍摄即可。在智能手机全面普及的今天，这个参与门槛低到可以忽略不计。

用户容易担心的隐私问题在人脸识别领域也能有效避免，因为照片来源权威，同时，一种特有的“脱敏”技术可以将照片模糊处理成肉眼无法识别而只有计算机才能识别的图像。

图片内容识别

前面两个案例介绍的都是图片识别，比图片识别更难的是图片语义的理解和提取，百度和Google都在进行这方面的研究。

百度的百度识图能够有效地处理特定物体的检测识别（如人脸、文字或商品）、通用图像的分类标注，如图4所示。

图4

来自Google研究院的科学家发表了一篇博文，展示了Google在图形识别领域的最新研究进展。或许未来Google的图形识别引擎不仅能够识别出图片中的对象，还能够对整个场景进行简短而准确的描述，如图5所示。这种突破性的概念来自机器语言翻译方面的研究成果：通过一种递归神经网络（RNN）将一种语言的语句转换成向量表达，并采用第二种RNN将向量表达转换成目标语言的语句。

图5

而Google将以上过程中的第一种RNN用深度卷积神经网络CNN替代，这种网络可以用来识别图像中的物体。通过这种方法可以实现将图像中的对象转换成语句，对图像场景进行描述。概念虽然简单，但实现起来十分复杂，科学家表示目前实验产生的语句合理性不错，但距离完美仍有差距，这项研究目前仅处于早期阶段。图6展示了通过此方法识别图像对象并产生描述的过程。

图6

自然语言识别

自然语言识别一直是一个非常热门的领域，最有名的是苹果的Siri，支持资源输入，调用手机自带的天气预报、日常安排、搜索资料等应用，还能够不断学习新的声音和语调，提供对话式的应答。微软的Skype Translator可以实现中英文之间的实时语音翻译功能，将使得英文和中文普通话之间的实时语音对话成为现实。

Skype Translator的运作机制如图7所示。

图7

在准备好的数据被录入机器学习系统后，机器学习软件会在这些对话和环境涉及的单词中搭建一个统计模型。当用户说话时，软件会在该统计模型中寻找相似的内容，然后应用到预先“学到”的转换程序中，将音频转换为文本，再将文本转换成另一种语言。

虽然语音识别一直是近几十年来的重要研究课题，但是该技术的发展普遍受到错误率高、麦克风敏感度差异、噪声环境等因素的阻碍。将深层神经网络（DNNs）技术引入语音识别，极大地降低了错误率、提高了可靠性，最终使这项语音翻译技术得以广泛应用。

深度学习

Artificial Intelligence（人工智能）是人类美好的愿望之一。虽然计算机技术已经取得了长足的进步，但截至目前，还没有一台计算机能够产生“自我”的意识。的确，在人类和大量现有数据的帮助下，计算机可以表现得十分强大，但是离开了这两者，它甚至都不能分辨两只小动物。

深度学习算法自动提取分类所需的低层次或者高层次特征。高层次特征是指该特征可以分级（层次）地依赖其他特征。例如，对于机器视觉，深度学习算法从原始图像去学习得到它的一个低层次表达，如边缘检测器、小波滤波器等，然后在这些低层次表达的基础上再建立表达，如这些低层次表达的线性或者非线性组合，然后重复这个过程，最后得到一个高层次的表达。

深度学习能够得到更好地表示数据的特征，同时由于模型的层次、参数很多，容量足够，因此，模型有能力表示大规模数据。所以对于图像、语音这种特征不明显（需要手工设计且很多没有直观的物理含义）的问题，能够在大规模训练数据上取得更好的效果。此外，从模式识别特征和分类器的角度来看，深度学习框架将特征和分类器结合到一个框架中，用数据去学习特征，在使用中减少了手工设计特征的巨大工作量，因此，不仅效果更好，而且使用起来也有很多方便之处。

当然，深度学习本身并不是完美的，也不是解决任何机器学习问题的利器，不应该被放大到一个无所不能的程度。

小结

本文主要介绍了机器学习、数据挖掘以及当前最热门的深度学习。深度学习可以说掀起了人工智能的又一次热潮，但是大家要清楚地认识到，这离真正的AI（人工智能）还差得很远。但总的来说，我们离电影中描述的未来世界更近了一步，不是吗？

本文节选并整理自《大数据架构详解：从数据获取到深度学习》一书，朱洁编著。

Drive.ai联合创始人王弢：「我们不依赖深度学习，而是深度学习优先」| 专访

来源：机器之能

10 月 24 日，机器之能对 Drive.ai 联合创始人王弢进行了专访，他分享了 Drive.ai 在技术方案方面的创新、商业化合作进展以及公司的下一步。

撰文 | 高静宜

编辑 | 吴欣

如果你关注自动驾驶领域，一个雨夜穿行美国加利福尼亚州山景城街道的自动行车 Demo 可能在今年 2 月进入过你的视野，发布这段 4 分钟视频的公司 Drive.ai 也正式露面。

尽管成立于 2015 年 4 月，但在这之前的近一年时间公司专注于研发，鲜少为外界知晓。该公司创始团队来自斯坦福大学人工智能实验室，他们想要研发出依靠深度学习技术的全栈式自动驾驶解决方案，让普通汽车能够升级为自动驾驶汽车。

在完成不同路况的路测之后，Drive.ai 进一步完善技术研发，与此同时，公司开始探索商业化的落地。今年 9 月，公司曾宣布与美国第二大打车服务商 Lyft 展开合作，并在加州推出试点计划。

不到一个月时间，Drive.ai 获得在东南亚占据垄断地位的打车服务商 Grab 1500 万美元的投资，还透露将在新加坡设立办事处。在此之前的 6 月，公司完成 5000 万美元 B 轮融资，由恩颐投资（NEA）领投，北极光创投、纪源资本等跟投，Google Brain 创始人、前百度首席科学家吴恩达也加入董事会。

10 月 24 日，机器之能对 Drive.ai 联合创始人王弢进行了专访，他分享了 Drive.ai 在技术方案方面的创新、商业化合作进展以及公司的下一步。

Drive.ai 联合创始人王弢

更新传感器解决方案，激光雷达数目减少 30% 到 50%

在之前公布的信息中，Drive.ai 的传感器方案采用了 9 个高清摄像头、2 个雷达和 6 个 16 线 Velodyne 激光雷达。那么在进行试点计划后，目前的传感器方案是否有所更新调整？

目前我们最新一代的传感器整合系统会减少 30% 到 50% 的激光雷达数量，即 4 个左右，摄像头和毫米波雷达的数目则基本保持不变。因为从成本的角度出发，摄像头和毫米波雷达这两个跟激光雷达比就是九牛一毛，如果要做成本的优化，那么第一个入手的肯定是激光雷达。我们很高兴看到国内有很多激光雷达创业公司的兴起，这对于国内外自动驾驶产业的推进都是一个很好的现象。目前我们也在与国内激光雷达厂商接触。

在更新传感器方案时，都会从哪些方面进行考量？

我们觉得冗余度肯定还是需要的，冗余度越多，可靠性越强。我们不会只采用一个激光雷达，这不是我们的技术路线。因为目前所有主流的激光雷达都没有达到车规级，所以要让可靠性满足 L4 的要求，冗余度是必须存在的。如果一个激光雷达有 0.1% 出故障的可能性，那么两个同时出故障的可能性则是一百万分之一，三、四个同时故障的可能性就更是微乎其微了。通过这样的方式，可靠性大大提高，我们就无需自己专门设计、制造或是购买一个达到车规级的激光雷达了。

当然，我们并不是把这些硬件简单地堆积起来，而是需要软件的支持。以 RAID 为例，它是一种独立磁盘构成的具有冗余能力的阵列。一般商用需要非常大的硬盘，安全级别可以达到服务器级别，但这个方案是非常昂贵的。现在主流的解决方案是把多个非常普通的硬盘串起来，上层用软件系统重新进行架构，可以保证在一个或者两个硬盘出故障的情况下，不会影响文件系统的使用。这实现了用多个比较低廉的硬件加上软件的优化，达到昂贵硬件的水平，甚至能够超过昂贵硬件的可靠度。我们在自动驾驶领域的解决思路亦是如此。

一些自动驾驶技术公司选择使用 64 线激光雷达，而 Drive.ai 则一直采用 16 线的原因有哪些？

激光雷达的发展非常快，单个激光雷达的可靠性也在提升，不过目前还没有出现达到车规级或者满足 L4 可靠性要求的产品。如果用单个激光雷达，很多创业公司、大型科技公司都会选择使用 64 线。但是 64 线激光雷达也存在一些问题，比如价格较高，暴露在外的旋转机构的可靠性比较差。

我们从一开始就没有选择这个路线，一个是 64 线激光雷达的产能可能会受到一些限制，很多都是人工在打造，没有自动化的生产线；二是大批新兴的互联网巨头追捧这个传感器。因为想做样车的话，这种传感器是最快得到结果的最佳选择，但一旦陷进这个坑想跳出来就需要花上一定功夫了。所以我们一开始就选择了 16 线激光雷达。16 线有几点优势，一是有较高的灵活性，对于多个传感器的安装方案来说比较灵活；二是没有暴露在外的旋转机构，虽然内部还是有机械机构在动，不过不暴露在外的话还是有一定的保护作用；三是 16 线的生产线自动化程度比较高。其实 Velodyne 下一代主打产品的核心技术也是基于 16 线的。

如何看待未来固态激光雷达的发展以及所带来的冲击与挑战？

到目前为止，我们还没有看到比较靠谱的固态激光雷达。有些公司愿景描绘的非常好，但我们还没有接触到可用的实物。如果激光雷达能够实现固态，那么整个成本就降下来了，可能几百元成本的固态激光雷达就能够提供丰富的三维信息，这对我们来说将会是重大的利好。

我们一开始选择的就是多个传感器融合进行冗余设计的路线。固态激光雷达的落地有助于我们使用更多的传感器，那么冗余度也就更高了。我觉得对于一开始就选择采用单个传感器的公司可能会形成一定的冲击，因为他们的整个算法可能是基于 64 线的，或是自己设计了一个高精度的激光雷达。

Drive.ai 使用深度学习技术，特别是在感知和探测上面用了大量的深度学习算法。深度学习有一个优势是对数据本身的形式没有那么挑剔。举例来说，深度学习在图像识别、语音识别、自然语言处理等方面使用的都是很相似的网络结构，喂给模型不同的数据就能实现不同的效果。同理，我们用深度学习也可以很快地适应不同激光雷达的不同组合。

深度学习优先

对于深度学习算法的使用，Drive.ai 有哪些考量？

我们并不是完全使用深度学习，而是深度学习优先。解决困难问题的时候，我们会优先考虑采用深度学习算法。我们整个公司内部人员的配置，以及搭建基础设施架构的时候也是首先考虑深度学习的需求。业界有一些很激进的深度学习方案，例如英伟达把摄像头输出的图像直接当成控制信息。我认为这是一个不错的研究方向，但要真正实现 L4 无人驾驶，这个方法的挑战性还是很大的。我们的方案是把传感器输出的信号当成决策信号。

业界有观点认为把传感器输出的信号当成决策信号也是比较激进的，您如何看待这个问题？

决策的话要看是哪一种、哪一个级别的决策。如果是生成实时应该要走的路径，那么可能是比较激进。比如前面有个卡车停在路边，打着双跳灯，你需要从旁边绕过去。如果直接用深度学习生成从旁边绕过去的路径，我觉得这个可能是比较激进一点。但有一些决策是可以用深度学习来做的，比如说有一辆卡车打着双跳灯，现在的问题是要不要从旁边绕过去。这个卡车挡住路的原因是在于交通拥堵，还是在路边卸货，这个决策完全可以用深度学习来解决的。在做了这个决策之后可以再用其他的方法进行路径的规划。这样的例子有很多，最浅显的就是红绿灯的决策问题，目前我们现在已经用深度学习来判断红绿灯了。

在定位模块，drive.ai 的解决方案有什么独特之处？

在定位方面，我们有自己的地图和系统，可能跟主流的定位系统有一点不同。通过 Waymo 展示的可视化系统可以发现，他们的地图是平面的，没有三维信息。据我了解，Waymo 主要用于定位的特征是地面的反射率。地面反射率比较高的是车道线，比较低的是深色的水泥或者柏油路，利用这个方法构建一个高精地图。在行驶的过程中，系统通过激光雷达反射回来的信息，利用反射率进行车辆的定位。这个方案的优点是与车道线契合的程度比较高，车辆可以行驶在车道的中间，而且在一般情况下也具有比较高的可靠性。但这个方案在遇到雨天时会遇到一些问题，这时地面的反射率会发生很大的改变。特别是地面有一层薄薄积水的时候，激光雷达会发生镜面反射，地面上车道线的特征就不那么明显了，定位也会相应产生问题。我们的定位方案的特征肯定不完全依赖于车道线的反射率，会涉及很多高维的信息，所以我们的地图是三维的。

数据是自动驾驶技术的一个门槛，为此，Drive.ai 开发一套自研的自动标注系统，能否介绍一下这套系统如何提升数据的利用效率？

在自动驾驶领域，数据的质和量同样重要，多种异质数据可以提供丰富的环境信息。数据的瓶颈不在于数据量，而在于标注的效率。我们的自动标注系统做了多种不同数据的融合，在车上和线下都有融合系统。

在线下我们可以做很多事情，因为在车上实时行进的过程中你可能没有预知未来的能力，但线下可以查看历史信息，能够在某一时间点调用未来收集到和过去收集到的数据。利用不同时间段收集到的数据可以形成一个城市的三维地图，地图上有各种语义信息，包括车道线的位置、车道与车道之间的连接关系以及一些动态信息，例如点云中车辆的位置。因为我们已经针对摄像头和激光雷达之间的空间关系做过很精确的校验，所以当我们知道点云中某一个点的三维位置信息后，就会有一套自动的方法把它转换到摄像头中对应的像素，从而完成标注。所以只要标注了一份信息，就可以在多个传感器上得到不同的训练数据。

在测试的过程中，团队遇到了什么问题，是如何攻克的？

其实深度学习算法只是自动驾驶中需要攻克的问题之一。我可以讲一个与深度学习完全无关的难题。自动驾驶是一个系统工程，中间有许多子系统需要集成，这其中的硬件和软件都需要进行沟通。目前业界主流的方案，特别是创业公司，使用得最多的是一些开源的信息交流框架（Message Passing Interface），非常易于上手。但是，这些开源系统最初设计的目的并不是用于自动驾驶领域，而是为了高校里面进行机器人研究使用的信息传输框架，无法达到车规级的标准。而且，开源系统的体量比较大，不断有新的开发者添加自己的应用，但有很多应用我们并不会在自动驾驶里面使用到。所以如果我们要用到开源系统的话，得把这些部分引进来，给我们的系统增加了很多不必要的复杂度。这是我觉得是每一个自动驾驶领域的创业公司都希望成功攻克的难题。

我们内部有自研的信息交流平台，这也是我们一个长期的规划。未来，我们希望它能成为一个自动驾驶开发的基础性工具。现阶段还不会公开，但是之后会有这样的考虑。这个系统是专门为自动驾驶打造的，体量较轻，对自动驾驶所需要传输的数据会做一些特殊的优化，也会加入一些自动驾驶所需求的特殊特征。

尝试客货两用新车型，合作对象锁定「三个 P」

九月初，Drive.ai 与 Lyft 达成合作协议，能否透露一下目前的合作及路测进展？

目前，我们正在积极推进与 Lyft 的合作，会把重点放在路测上，主要在加州尝试进行商业落地。

除了之前透露的林肯 MKZ 和奥迪 A4 这两款路测车型，我们最近还尝试使用了第三款车型。具体的车型暂时还不能透露，但选择这款车是考虑到它的客货两用性，具有电气化改装的空间。主机厂在生产这个车的时候就考虑两种不同的版本，不但有燃油车的版本，也有新能源车的版本，而且它采用了同一个控制协议，具有非常高的灵活度。这其实对我们改装和控制不同的车型、不同的应用来说，是一个非常好的平台。

Drvie.ai 的定位以及对自动驾驶技术的最终愿景？

Drive.ai 的设想是成为 L4 无人驾驶平台的供应商，打造 L4 无人驾驶的全栈式解决方案，然后在底层核心技术上引入不同的合作商，可以是 Lyft 这样的共享出行服务商，也可以是物流公司，或者是外卖应用。我们有一个说法是「三个 P」——People、Pizza、Package，也就是送人、送外卖和送货，这三个方向是我们以后主要的合作对象。目前我们在后两个方面也在同一些合作商进行洽谈。

Drive.ai 主要致力于通过工具包将普通汽车变为无人车，也就是后装套件的研发上。从后装向前装发展是一个大的趋势，公司对这方面的部署及规划？

从整体上看，消费者对于自动驾驶的接受程度并不高，很多人还持疑虑的态度，我们需要正视这个现象。我认为，最先有可能成功实现商业落地的是商业车队，所以我们会最先在这上面进行商业尝试。在这个商业模式得到验证的情况下，我相信会有更多的主机厂以及供应商才会愿意跟我们进行更深入的合作和整合。

九月末，Drive.ai 拿下东南亚垄断型共享出行公司 Grab 领投的 1500 万美元融资，并表示将在新加坡搭建分部。为什么选定新加坡？目前进展如何？

今年内我们会在新加坡设立分部。我们认为新加坡是一个对无人驾驶创新非常友好的环境。新加坡与中国有类似性，不仅有执行力较强的政府机构，同时也有地少人多的问题。新加坡政府大力提倡不拥车，极力控制个人拥车的数量，普通人买车税也非常高，政府也是非常鼓励出行方面的创新。目前我们跟新加坡政府也在进行洽谈。

对于中国市场，公司有哪些进一步打算？

我们对中国也有相应的计划。中国拥有非常大的市场，政府的政策也非常有力。但要实现在中国落地，还要寻找适合的场景。昨天我乘坐出租车时发现，在北京实现自动驾驶还是有很大挑战的。未来，我们还是会继续跟进，尝试在中国找到合适的落地点

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”。

点击“阅读原文”，访问AI-CPS OS官网

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！