第451章 算法总监在深度求索的地位
组长没有介绍组员,指着屏幕对吕程说到:
“代码能力基准测试集HumanEval的实时测试界面,你应该认识。”
他转向其他组员,脸色严肃:
“这是模型的第二次内部压力测试,大家都仔细看。”
“第一,盯紧每个测试用例的响应时间和资源消耗峰值。模型能力上去了,但决不能以‘暴力计算’为代价,我们的目标是让它轻松一些。”
“第二,特别关注它犯错的类型。是逻辑错误、边界条件疏忽,...
组长没有介绍组员,指着屏幕对吕程说到:
“代码能力基准测试集HumanEval的实时测试界面,你应该认识。”
他转向其他组员,脸色严肃:
“这是模型的第二次内部压力测试,大家都仔细看。”
“第一,盯紧每个测试用例的响应时间和资源消耗峰值。模型能力上去了,但决不能以‘暴力计算’为代价,我们的目标是让它轻松一些。”
“第二,特别关注它犯错的类型。是逻辑错误、边界条件疏忽,...