第215章 ,DataOps
“有个疑问,实现不同等级的自动驾驶,需要积累多少实测数据?”星曰。
“说来好笑,从L3到L5,自动驾驶安全性的量级是依次递增的。业内的共识是,L3级别自动驾驶的安全性约为99.99%,L4和L5依次递增两个数量级。安全里程数你懂吧”名曰。
“自动驾驶单次接管能够行驶的里程数”
“对,L3的安全里程数为1万公里, L4为100万公里, L5为1亿公里。自动驾驶对实测数据的需求量还在不断扩大,将来可能从上亿公里提高到上百亿公里,甚至上万亿公里”名曰。
“这么夸张,那想完成L5都不知猴年马月了,感觉实测里程对自动驾驶算法迭代意义不大,自动化程度越高,实际产生长尾场景的概率越来越低,按照接管次数/里程求长尾得到的数据,长尾数值越低说明自动驾驶能力越强。所以我觉得实际里程数应该是通过有效数据比例反推的实际里程数,是这样吧”星曰。
“不管如何计算,实际完成L5这个任务仍然面临着超高的挑战性!主流的无人驾驶公司采用激光雷达的方案确实可以对自动驾驶技术进行快速迭代。要达到L3级别上亿公里实测数据的积累,至少需要上百辆车耗费数10年来采集。目前, L3自动驾驶数据采集仍以自建车队为主,一家公司拥有上百辆测试车就几乎达到上限,我们就二三十台。L4自动驾驶数据积累可以通过Robotaxi或者众包来解决。而L5要用什么方式来积累数据,暂且还是未知数”名曰。
“这也太难搞了,感觉不太得”星曰。
“不然你以为搞自动驾驶那么容易商业化。从商业模式的角度分析,自动驾驶产业可以划分为苹果模式和安卓模式。苹果模式一步到位,从自动驾驶的研发到整车的制造都由车企独自完成。这意味着车企能拿到一手信息,形成方案闭环,从而保障整个套方案的质量。安卓模式是生态链模式,大家各做各的。目前大多数AI科技公司和自动驾驶公司都往安卓模式去做,但是安卓模式没有实现盈利”阿名说到。
“为啥安卓模式没盈利”星曰。
“一方面,技术上有制高点,受制于作为甲方的车厂是否有意愿购买自动驾驶科技公司的技术;另一方面,当前自动驾驶法相关的法律和基础设施还处于不断完善的阶段,使得更高级别自动驾驶的商业化落地会受到一定限制。往苹果模式走的车企同样面临着激烈的行业竞争,只有先将技术落地并投入市场才能获得持续营收,来支持后续的研发与迭代。这也解释了为什么市面上有不少公司聚焦在L2.5和L3的落地,从实现最基础的车道线检测、可行区域、自动泊车等做起”阿名说话期间喝了下水。
“那,有没有可能在安卓模式和盈利之间出现新的公司?!不一定是造车或者自动驾驶技术公司,未来也许会诞生出一个新物种”星曰。
“那不晓得,哈哈!无论选择了何种技术路线、何种商业模式,任何一家从事自动驾驶技术研发的公司都绕不开这个问题:如何更快地获取更多、更好的数据?”名曰。
“没想到搞自动驾驶训练数据成了头痛点,我勒个去,丢他老鸭蛋”阿星叹息到。
“的确,自动驾驶算法研发过程中积累了大量的非结构化数据。只有将非结构化数据批量处理为结构化数据,算法工程师才能利用它来进行机器学习模型的训练和推理优化,最终迭代出最强的算法。整个自动驾驶研发团队除了要负责模型构建,还需要在数据标注、建模调试、数据可视化、数据一致性等数据管理工作上投入大量时间,工作量非常之大”阿名说到。
“现在国内外已经有不少面向开发者和企业提供AI数据标注、模型离线训练、模型在线部署的深度学习工程平台,如AWS的Sagemaker,华为云Modelarts以及阿里云PAI等。不过,这些平台更多地聚焦在模型训练和推理优化上,而非完全专注于提供高质量的数据”星曰。
“所以现在的一个新趋势:从算法为中心到以数据为中心,实现数据自迭代”名曰。
“以数据为中心,大数据”星曰。
“对啊”名曰。
“你之前不是干过黑客,有没办法把皓翔的训练数据给全部黑过来”星曰。
“我去,不行,这哪可以,丢你”名曰。
“哈哈,说笑的”星笑。
“还你个老鸭蛋,哈!在机器学习项目全周期中,以模型为中心所用的数据一般是不变的,通常用模型去拟合数据。如果数据量足够大,模型就可以拟合得更加平滑、更加真实。而以数据为中心的MLOps,在机器学习项目全周期中不改变模型,只通过改变数据来提高算法表现。这意味着MLOps最重要的任务之一就是在机器学习项目全周期中确保用上高质量数据”名曰。
“没想到咱这自建自动驾驶就首先遇到了训练数据问题,着实意想不到”星曰。
“本来就不容易,不然自动驾驶公司都研究几年了,为啥智驾还远远不能普及!过去以模型为中心的算法研发一直被认为效果较好、迭代速度较快,原因在于算法和数据进行了分离,一切以算法工程师为中心进行项目驱动。以模型为中心走的是精简路线,先准备数据然后研发算法、测试算法,在测试中遇到长尾场景或者异常场景再优化算法,最后模型部署上线。现在大家意识到算法需要大量数据,因此也提升了数据量。通过和数据标注公司合作,可以快速产生大量数据,用大数据驱动算法创新”名曰。
“就说还得和数据标注公司谈合作”星曰。
“那当然了”名曰。
“行,我会去谈,问题不大”星曰。
“在自动驾驶这样的开放场景里,行业痛点已不是数据量,而是数据价值”名曰。
“数据价值是个啥?”星曰。
“从算法的角度来说,就是那些难例,或者是数据分布非常稀疏,却能对算法训练产生重要影响的数据。要获得这些数据,常规的方法往往都是大浪淘沙、层层标注并训练后筛选出来。所以呢,我们要从海量数据中发现罕见事件,在算法建模中挖掘高价值长尾数据”名曰。
“不知道啥是罕见事件,这不得靠你们了,我七窍通六窍,只能给你们铺点其他的路”
“在数据自迭代的思路下,算法迭代需要动态地获取新的数据,尤其是获取新的难例数据,新的难例数据又会动态驱动算法本身的迭代。而通过MLOps搭建的数据闭环系统,能自动化模型和算法迭代过程,快速从沙子里找到金子。其实这几天我也并没有完全寄希望于你身上,因为皓翔的训练数据也有痛点,行业本身有难点,于是,训练数据的第三种解决方案——DataOps数据自迭代,应运而生!”阿名说到。
“DataOps又是啥?”星曰。
“MLOps以模型研发的生命周期管理为中心,DataOps也聚焦在数据的生命周期,以数据为导向,使算法达到高效自我迭代的能力和持续增强的效果,实现极高的长尾信息学习能力,通过和模型联动发现高价值数据,快速获取高质量、高价值的数据,提升模型训练效果。可谓一种新玩法,有点意思的”阿名说到。
“纳尼?就说不用皓翔的训练数据了,也不需要搞什么实测数据?”星惑。
“你想多了,还是需要的”名曰。
“我去,那你叨那么多,我硬是没明白”
“传统以模型为中心的训练方法是:采集数据,标注数据;研发算法,训练模型;测试算法,迭代算法;上线算法。而以数据自迭代方式的训练方法则要准备预训练数据集;模型测试并部署至场景;通过在线场景不断发现难例,并上传至云端统一管理;对难例进行标注,模型实时对新数据进行训练;对模型进行场景化测试,给出分析报告;模型上线,并不断通过DataOps迭代。而源于DevOps理念的MLOps,能够让企业摆脱传统机器学习长周期,缩短模型上线的进程,切实解决机器学习项目数据、算法、模型资产管理等繁琐问题。而DataOps则打破了数据科学家与运维团队之间的沟通屏障,提供了更高效的沟通机制”阿名继续叨了一堆。
“沟通机制?就这?”星惑。
“通过DataOps的模型-数据自迭代的模式,使算法达到高效自我迭代的能力和持续增强的效果,带动整个AI行业的范式转移。DataOps正释放出巨大的潜力,其采用率也在不断提高。未来DataOps将会成为人工智能产业规模化落地行之有效的路径之一”阿名说到。
“说了半天,也就是个还没成熟的概念”
“在快速发展中,也可以借鉴,其实训练数据不管是开源、自研还是DataOps,都要去发现其中的高价值数据,这样我们搞的WG才会成为优秀顶尖的自动驾驶系统”名曰。
“哎,还得增加路采车的预算,还得和数据标注公司谈合作,感觉这自动驾驶是越搞事越多,越搞越烧钱,啧”星曰。
“对啊,难搞,你以为”名曰。

