按照之前周正阳、费世杰和左航的决定,彻底贯彻‘联邦’学习法,但在深入了解和学习之后,发现这里面还有很多门道。
“联邦学习中会建立本地练模型,这个模型的数据安全隐私性很高,数据只保留在参与这次训练中的客户方,各种数据都是保留在自身服务器的,能避免敏感的信息泄露。”周正阳说道。
毕竟纪无凡的医疗类业务也要运用‘联邦’学习,因此很多医疗医药的数据和研发成果都是需要隐私保护极高的。
“没错,我这几天也都在学习和了解这方面的相关法务条款。”费世杰摘掉老花眼镜,捏了捏鼻梁,继续说道:“联邦学习中的本地练模型不用频繁把打量数据传到服务器的,而且还能够节省掉网络的传输时间。”
这样也等于降低了传输中断的意外出现时引发了一连串问题。
“马化龙那边提供的模型是在本地设备运行和训练的,乔一盛根据鹏城本地数据进行了调整,用来实时反馈成果。”周正阳翻看手里的文件,继续说道:“纪无凡就用乔一帆调整后的本地模型分析医疗药物成本,相应速度很快的。”
在龙国尤其是医疗和金融这两个行业对数据跨区域传输是有很多严格规定的,所以在规避数据合规问题上,需要进行本地训练才可以避免违反相关的法规条例。
“没错,这一点我也很赞成,‘联邦’学习法中本地练模型确实有很多优点。”费世杰话锋一转,提醒道:“但有优点的同时,就意味着也有缺陷之处。”
周正阳摆出请教的姿态,将文件倒扣在办公桌上,看向费世杰:“那费老和我好好介绍一下‘联邦’学习法中本地练模型的缺陷有那些?”
只有知道了不足之处,才方便进行针对性的调整和改变。
费世杰重新戴上老花镜,缓缓说道:“首先训练模型需要强大的计算能力,本地设备的性能未必可以满足,就拿纪无凡团队的电脑来说,就满足不了,毕竟对硬件要求很高的,所以很大程度会影响训练的效率和成果。”
“硬件上的高要求倒是容易满足。”周正阳有很好的解决办法:“当初合作的超算中心正好可以派上用场嘛。”
若不是周正阳提起,费世杰都要把‘超算中心’合作的事情给抛到脑后了:“对对对,超算中心肯定可以满足硬件高性能的要求。不过解决了硬件的缺陷,那还有技术门槛的问题呢,总不能把我们的研发技术团队也送出去吧?”
‘联邦’学习中本地练模型中需要本地团队有足够的算法技术能力,纪无凡的研发团队是以医药医疗技术为主的,在本地练模型上确实很难独立完成的。
“其次,如果只是一来本地数据做训练的话,数据‘量’和数据的多样性可能就会有限,因此模型进步速度最好结合多方数据,如此一来模型升级的速度也会快一些的。”费世杰补充道。
周正阳觉得很有道理,提笔记下来了这几句话。
“之前你说硬件性能要求太高可以用超算中心的设备,这些也是要持续投入人力和资金的。”费世杰强调:“超算中心的折本也是需要维护和定期更新的,模型训练过程中的技术支持也是必不可免的,好在这部分的预算可以平衡。”
至于技术门槛的部分,依旧用纪无凡的团队来做例子,毕竟是中小型的公司,核心是缺乏专业的技术团队,尤其是本地练模型方面。
于是,当天下午,周正阳带着费世杰去找了技术出身的乔一盛,若不是马化龙要忙着初代智能手机测试和入网许可的大事,本该找他的。
乔一盛听完周正阳和费世杰的来意之后,也详细且客观的做出了回应:“之前开发预制好的平台和工具都是很实用的训练模板。”
比如针对发小纪无凡的医疗医药方面,直接提供了市场上现有的模型框架,在原基础上进行调整升级后,才导入需要的相关数据,然后直接点击‘开始训练’便能够自动运行,而且我要学手动些代码,冰面去了中途调整参数的过程。
“目前可视化操作的界面平台也有不少,余队长研发团队在初代智能触屏手机就运用了这项技术,所以我受到启发,直接用图形转化按钮,比如在选择数据、调整学习效率等这些都有替代的代码编程,就和当初的QQline一样。”
要知道可视化的操作界面是可以替代编程代码命令的,就QQline而言,直接点击‘对话’、‘发消息’、‘语音’等案件就可以了。
乔一盛边说边起身操作给周正阳和费世杰查看:“这一步就是简化数据准备的流程,可以自动处理数据的相关格式,因为工具内置的数据清洗以及格式都是有转换功能的。”
纪无凡的主要业务方向是和医疗相关的,因此很多数据的格式匹配图形,导致格式不统一,所以要借助工具进行转换格式,而为了省去这一步,进行简化就要让自动处理的工具举杯自动转化格式的模型进行可识别的处理。
“在处理好格式以及数据清洗这部分时,尤其要对提供的数据进行标注的辅助处理。”乔一盛挪动鼠标,在模型上操作:“喏,就像这样会自动标记处疑似有问题的数据区域,到时候参与本地练习模型的一方只需要处理修改即可。”
如此就可以减少人工标注的技术难度,对人工成本预算也是一笔节省。
“后续的就是预置优化好的一些基础模型,趁着周总和费老都在,我可以都操作示范一下的。”乔一盛总结道。
目前纪无凡医疗业务的数据都已经导入了本地练模型中,因此操作起来也更快捷,从识别异常医疗数据的基础模型上,纪无凡的团队拿到这个模型之后,就是预置优化好的,因此只需要少量标注的数据进行微调整理即可。

