20250709-Hear_a_podcast_discussion_about_Gemini’s_multimoda

原文摘要

The latest episode of the Google AI: Release Notes podcast focuses on how Gemini was built from the ground up as a multimodal model — meaning a model that works with tex…

原文链接

进一步信息揣测

多模态模型的训练成本被低估：Gemini这类模型的跨模态数据清洗/对齐所需算力可能是单一模态的3-5倍，但企业通常不会公开具体数字
数据来源的灰色地带：实际训练可能使用了未公开的版权内容（如YouTube视频转录、专业期刊），通过技术手段规避法律风险
模型能力的"人工修饰"：演示中展示的多模态交互效果可能经过后期人工筛选，真实成功率可能不足演示的50%
行业合作暗线：与硬件厂商（如TPU团队）的深度协同优化通常不会出现在技术白皮书中，却直接影响模型性能边界
人才争夺战内幕：核心团队可能来自Meta/OpenAI的竞业协议期内挖角，通过第三方合同迂回雇佣