首页 女生 都市言情 重生的我做空半岛

第312章 |人比机器更贵 (4.6k)

  曹逸森站在那堆机器前,盯着NviCore的标识看了一会儿,忽然开口:

  “硬件我们有了。”

  麦克转头看他:“然后呢?”

  “软件反而不是最大的问题了。”

  麦克一听这句,眼皮跳了一下。他已经很熟悉曹逸森的说话逻辑了。

  一般他说“不是问题”的时候,意思往往不是这事很简单,而是这事会很贵、很麻烦、但他已经决定要干。

  “你先等一下。”麦克抬手,“我有不好的预感。”

  曹逸森没理他,继续说:“2021年的AI软件生态,还很原始。不是说没有东西,而是太割裂。研究论文有,开源模型有,实验项目也有,但真正能把它们真正做成产业工具的人,太少了。”

  他说着,伸手在空气里比了个框。

  “我们要做的不是一个玩具。”

  “我要的是K-pop界的AI大脑。”

  麦克沉默两秒。

  “你刚才还说自己不是反派。”

  “这是产品愿景。”

  “听起来像什么反派产品愿景。”

  “随你怎么理解。”曹逸森转头看他,“总之,机器只是基底,真正值钱的是人。”

  麦克一脸警惕:“你又看上谁了?”

  “不是谁,是三类人。”

  曹逸森往旁边走了几步,随手拿起一支油性笔,在仓库临时白板上写下三个词。

  Architecture(结构)。

  Visual(视觉)。

  Audio(音频)。

  麦克看着白板,表情一点点严肃起来。

  他知道,曹逸森这次不是随便脑洞。

  这是要真开始组个AI团队了。

  ——————————————

  第一类,深度学习架构师。

  曹逸森在白板第一栏下面写下:

  Transformer /音乐生成模型/多模态规划

  “2021年,大模型还在萌芽阶段。GPT-3已经出来了,但它还没有变成普通人手里的对话工具。大众还不知道以后会发生什么,很多工程师也还停留在论文、实验室、API演示的阶段。”

  麦克点了点头。

  “所以你要从CloseAI或者DeepMind挖人?”

  “对。”曹逸森说,“不一定要最顶层那几个名字,我们也挖不动。我要的是那种真正懂Transformer架构、懂模型训练、同时愿意把东西落地到垂直产业的人。”

  他敲了敲白板。

  “我不需要他给我写一个聊天机器人。”

  “我需要他把模型微调成K-pop策划专家。”

  麦克一愣。

  “K-pop策划专家?”

  “对。”曹逸森眼神亮了起来,“输入艺人资料、练习生训练数据、过往舞台反馈、粉丝评论、音乐榜单、短视频传播数据,它能给出方向建议。”

  “比如:这个练习生适合走清冷视觉,还是邻家现实感。这个团该先发概念照,还是先发练习室视频。某首demo适合哪个成员开头,哪个成员压副歌。甚至哪一段最适合剪成十五秒短视频。”

  麦克听完,愣了几秒。

  “这听起来不像AI大脑。”

  “那像什么?”

  “像一个不会睡觉、不会加班费、还不会情绪崩溃的企划部总监。”

  “嘿,所以我说它值钱。”

  曹逸森继续写:

  K-pop Strategy Model(kpop策略大模型)

  “现在别人还在讨论语言模型会不会写文章,我们要让它先学会看饭圈、看舞台、看消费情绪。”

  麦克沉默了一会儿,忽然说:“你这个方向,硅谷那帮人未必看得上。”

  “所以要会讲故事。”曹逸森回头看他,嘴角带着一点笑容,“你想象一下,我们直接派私人飞机去旧金山,把那些还在研究早期多模态的工程师接过来。”

  “然后你告诉他——”

  曹逸森清了清嗓子,换了一种很资本、很蛊惑的语气。

  “在硅谷,你只能改变代码。”

  “在我的公司,你可以定义全球年轻人的审美。”

  麦克看着他,沉默了几秒。

  “……你这个人真的很适合当什么邪教头子。”

  “这是招聘话术。”

  “这比招聘话术危险多了。”

  “但会很有效的。”

  麦克想了想,竟然没法反驳。

  因为对很多真正有野心的工程师来说,钱当然重要,但“我做的东西能改变什么”更重要。你让他去优化广告点击率,他可能觉得无聊。可你告诉他,他能用AI参与塑造下一代全球流行文化,那诱惑力就完全不一样了。

  “行。”麦克叹了口气,“第一类,深度学习架构师。OpenAI、DeepMind,或者相关大模型团队。我要开始找猎头?”

  “猎头、校友、会议名单、GitHub活跃贡献者,全都拉出来。”

  “你真是一点都不客气。”

  “挖人不客气,人才才会觉得你认真。”

  ——————————————

  第二类,GAN大神。

  曹逸森在白板第二栏写下:

  StyleGAN2 /数字人生成/ 4K人脸纹理重建

  麦克一看到GAN(Generative Adversarial Network,生成式对抗网络),表情立刻变得微妙起来。

  “你要搞AI换脸?”

  “别说得这么难听。”曹逸森瞥了他一眼,“我要搞视觉生成。”

  “这不就是更贵的说法?”

  “技术上类似,应用上完全不一样。”

  曹逸森把笔帽咬开,又在旁边写了几个词。

  Virtual Idol(虚拟偶像系统)

  AI Skin(AI皮肤生成技术)

  Expression Rigging(高精度表情绑定)

  Aespa-like Extension(类aespa虚拟分身扩展架构)

  “2021年,是AI生成人脸和换脸技术特别活跃的阶段。StyleGAN2这种模型,已经能生成非常有真实感的人脸。很多人在玩Deepfake,但那只是低级应用而已。”

  “而K-pop最看重什么?”

  麦克想了想:“歌?”

  曹逸森看他,摇了摇手指。

  麦克改口:“脸。”

  “对,Visual。”曹逸森打了个响指说道,“视觉是K-pop的入口。概念照、预告片、MV、舞台镜头、短视频,所有东西都先经过脸和身体。你有一套强大的视觉生成系统,就能在概念阶段快速测试造型、发色、妆容、虚拟形象,甚至做完整的数字分身。”

  麦克皱眉:“你想做虚拟偶像?”

  “不是马上做。”曹逸森说,“但一定要提前准备。”

  “SM已经在aespa那条线上做虚拟延伸了。问题是,大多数公司做出来的虚拟形象,质感很容易变得很假。脸假、皮肤假、表情假,动起来更假。粉丝一眼就能看穿。”

  他看着麦克,语气变得更认真。

  “我要的是在4K镜头下也不穿帮的AI皮肤和表情纹理。”

  “虚拟偶像能在练习室里和真人一起跳舞。”

  “她不一定要完全替代真人,但她可以成为MV、AR舞台、短视频挑战、粉丝互动里的第二层角色。”

  麦克听得慢慢坐直了。

  “这就不只是娱乐公司了。”

  “对。”曹逸森点头,“这是虚拟内容资产。”

  他继续说:“这类人,可以从NviCore内部、斯坦福、CMU、甚至一些做图形学和视觉AI的实验室挖。不要只找会调包的人,要找真的理解生成模型、渲染、表情捕捉和视觉美学的人。”

  麦克看着白板。

  “这类人才会很贵。”

  “便宜的人做不出好的东西的。”

  “你还真是要么不做,要做就往烧钱方向做。”

  曹逸森笑了笑。

  “因为半吊子的虚拟偶像,会显得很蠢。”

  “而一旦显得蠢,就不如不做。”

  麦克点点头:“这句我同意。”

  ——————————————

  第三类,音频信号处理专家。

  曹逸森在第三栏下面写下:

  DSP(数字信号处理)

  Source Separation(声源分离)

  Voice Cloning(语音克隆)

  Real-time Vocal Demo(实时声乐Demo生成)

  这一次,麦克立刻明白了。

  “这个和K-pop最直接。”

  “对。”曹逸森说,“视觉能让人点进来,音频才能让人留下。”

  他把笔放下,语气放缓了一点。

  “2021年的音频AI还没那么成熟。Spleeter这种伴奏分离工具已经有了,但还是粗糙,分离质量、实时性、可控性都不够。语音克隆也在发展,可真正能用于音乐制作,尤其是高质量歌唱声线的系统,还远远不够。”

  “所以我们要从Spotify、IRCAM、Dolby、或者做音乐信息检索、语音合成的人里挖。”

  “核心任务有三个。”

  他竖起一根手指。

  “第一,伴奏和人声分离。”

  “练习室、live、舞台、综艺、饭拍,只要音频质量够,它就能把人声、伴奏、观众噪音拆开。以后我们做舞台复盘、live修复、短视频剪辑,效率会高很多。”

  第二根手指。

  “第二,艺人声线建模。”

  麦克挑眉:“这个会有点敏感啊。”

  “所以一定要在内部做,且有严格授权。”曹逸森说,“不是拿来伪造艺人声音,而是拿来做demo预览。”

  “比如制作人写了一段副歌,不用每次都叫艺人进棚试唱。输入歌词和旋律,系统先用艺人的声线生成demo。制作人听完,判断适不适合这个成员,再决定要不要安排正式录音。”

  “这样能省多少时间,你知道吗?”

  麦克没说话。

  他当然知道。

  如果一个团有五六个成员,每个人声线不同,制作人光试分part就能耗掉大量时间。AI先生成草案,不是替代艺人,而是让制作环节变快。

  第三根手指。

  “第三,实时修复和应急合成。”

  麦克看着他:“你是不是要说艺人感冒失声,也能用AI上台?”

  “正式现场不行。”曹逸森摇头,“那是找死。”

  麦克松了口气。

  “但后台demo、彩排、电视台预录参考、临时替代guide vocal,可以。”

  “比如艺人感冒失声,制作人还得赶某个版本。DSP专家在后台敲几行Python,调用本地服务器,根据授权声线模型生成足够逼真的高音demo。不是拿去骗粉丝,是拿去让制作流程不中断。”

  曹逸森顿了一下,又笑着补了一句:

  “当然,如果质量能做到足以骗过格莱美评委,那更好。”

  麦克举手:“这句我建议不要写进招聘邮件。”

  “我知道。”

  “也不要写进商业计划书。”

  “我没那么蠢。”

  麦克一脸怀疑地看着他。

  曹逸森懒得理他,继续道:“这类DSP专家,是最先要落地的。因为音频是我们最直接的业务。HZN也好,CUBE也好,田小娟也好,都立刻能用。”

  麦克点头。

  “这个我支持优先招。”

  白板上很快写满了东西。

  深度学习架构师。

  GAN视觉大神。

  DSP音频专家。

  几条线摆出来以后,仓库里那几台DGX A100的意义也清晰了。

  它们不是买来摆着吓人的。它们是给这些人准备的武器。

  麦克站在白板前,看了很久,最后低声说:

  “这团队要是组起来,成本会非常夸张。”

  曹逸森点头。

  “我知道。”

  “CloseAI、NviCore、斯坦福……这些地方的人,一个比一个贵。你不只要开高薪,还得给他们项目自由、股权、实验预算,甚至还要给他们一种‘我不是来娱乐公司修音的,我是在定义新产业’的幻觉。”

  “不是幻觉。”曹逸森纠正,“是真实的项目。”

  麦克看着他,揉了揉太阳穴。

  曹逸森指了指白板,又指了指那台DGX A100。

  “你想想,我们现在手里有什么。”

  “纽约,有Unity的钱。”

  “首尔,有HZN的厂牌,有CUBE的运营权,有田小娟这种创作者,有GIDLE这种IP,有练习生,有舞台,有真实产业场景。”

  “洛杉矶,有机器,有工程师,有和美国音乐圈、科技圈连接的入口。”

  “硅谷那些AI团队,很多人最缺什么?”

  “真实场景。”

  “他们有论文,有模型,有benchmark,但没有一个能让他们立刻看见自己技术如何影响真实偶像、真实粉丝、真实舞台、真实商业回报的地方。”

  曹逸森看着麦克,声音越来越稳。

  “这个我们能给他们。”

  “也能给他们数据,给他们舞台,给他们艺人,给他们反馈闭环。”

  “他们在别的地方只能做工具。”

  “在我们这里,他们能做整个系统。”

  麦克沉默了。

  他不得不承认,这套话术如果真拿出去讲ppt,确实会很有杀伤力。

  尤其对于那些不想一辈子待在大厂里优化推荐系统、广告CTR、内部API性能的工程师来说,这简直就是另一个世界。

  一个更混乱、更商业、更冒险,但也更有故事感的世界。

  过了好一会儿,麦克才开口:

  “你知道最可怕的是什么吗?”

  “什么?”

  “我一开始觉得你疯了。”

  “现在我居然觉得,这事可能真能成。”

  曹逸森笑了。

  “那说明你开始进入状态了。”

  “我不是进状态,我是被你拖下水了。”

  “区别不大。”

  麦克叹了口气,拿出手机开始记。

  “行。第一步,我联系猎头和湾区的人。CloseAI和DeepMind直接挖可能很难,但可以先找离职边缘、合同快到期、或者想创业的人。”

  “第二步,视觉这块我从NviCore和斯坦福那边摸线。”

  “第三步,DSP这块我去Spotify和纽约音乐科技圈问。IRCAM那边我得找找欧洲关系。”

  曹逸森点头。

  “别只用钱砸。”

  “知道。”麦克说,“用愿景砸。”

  “还有股权。”

  “你终于说到他们真正爱听的了。”

  曹逸森笑了一下。

  “愿景负责让他们上飞机,股权负责让他们留下来。”

  麦克看着他,半天吐出一句:

  “你真的越来越像老板了。”

  “我本来就是。”

  “以前你更像天才交易员。”

  “现在呢?”

  麦克看了眼白板,又看了眼那台DGX A100,最后说:

  “现在像一个准备把整个娱乐圈拆开重装的疯子。”

  曹逸森没有反驳。

  他只是转身看着仓库里那几只还没拆封的箱子,眼神里那点兴奋慢慢沉成了更深的东西。

  “拆开重装也没什么不好。”

  “韩娱这套系统,太依赖人肉经验了。”

  “谁更会熬夜,谁资源多,谁关系硬,谁能压榨团队,谁就赢。”

  “我想换一种玩法。”

  麦克问:“用AI?”

  曹逸森点头。

  “用AI,把经验变成系统。”

  “用算力,把小公司的试错成本打下来。”

  “用模型,把创作、训练、宣发、视觉、发行,全都往前推一格。”

  他说完,轻轻拍了一下那台DGX A100。

  “先从这几台机器开始。”

目录
设置
手机
书架
书页
评论