20250709-Hear_a_podcast_discussion_about_Gemini’s_multimoda

原文摘要

The latest episode of the Google AI: Release Notes podcast focuses on how Gemini was built from the ground up as a multimodal model — meaning a model that works with tex…

原文链接

进一步信息揣测

  • 多模态模型的训练成本被低估:Gemini这类模型的跨模态数据清洗/对齐所需算力可能是单一模态的3-5倍,但企业通常不会公开具体数字
  • 数据来源的灰色地带:实际训练可能使用了未公开的版权内容(如YouTube视频转录、专业期刊),通过技术手段规避法律风险
  • 模型能力的"人工修饰":演示中展示的多模态交互效果可能经过后期人工筛选,真实成功率可能不足演示的50%
  • 行业合作暗线:与硬件厂商(如TPU团队)的深度协同优化通常不会出现在技术白皮书中,却直接影响模型性能边界
  • 人才争夺战内幕:核心团队可能来自Meta/OpenAI的竞业协议期内挖角,通过第三方合同迂回雇佣