Buu 当前如何调沉浸式翻译里 Gemini 3 的视频字幕参数

Decision(决策)

当前优化目标不是单纯把翻译质量拉满,而是:在能跟上 YouTube 视频字幕速度的前提下,使用最高可行档位。

当前可行起点:

  • thinkingLevel: HIGH
  • temperature: 1

其中 temperature: 1 不只是视频字幕场景的临时判断,而是当前 Gemini 3 系列的通用默认规则。

Context(背景)

Buu 的实际使用场景是 YouTube 视频字幕翻译。

在这个场景里,最差体验不是“翻译稍微笨一点”,而是字幕跟不上、不断掉队。
因此,实时性和稳定性比抽象的“最高质量”更重要。

Criteria(判断标准)

当前调参优先级:

  1. 先保证字幕跟得上
  2. 再尽量保住更高质量
  3. 优先调整吞吐和分包参数
  4. 不把注意力浪费在次要开关上

Facts(事实)

  • Buu 当前已经实测到:HIGH 基本可用,只是偶尔卡顿。
  • 沉浸式翻译高级自定义文档明确提到:
    • limit 表示每秒请求数
    • maxTextGroupLengthPerRequest / maxTextLengthPerRequest 用于控制单次请求规模
  • 当前界面语境中,Buu 最关心的中文参数名是:
    • 每秒最大请求数
    • 每次请求最大文本长度
    • 每次请求最大段落数
    • 每次字幕请求最大段落数
  • GitHub issue #3752 表明:“每次字幕请求最大段落数”这个参数确实存在,但在某些版本里可能被固定为 5 或存在实现限制。
  • temperature 是沉浸式翻译 Gemini 服务配置中可以直接设置的参数。
  • Google Cloud 的 Gemini 3 prompting guide 当前明确建议:Gemini 3 将 temperature 保持在默认值 1.0
  • Buu 当前判断与官方建议一致:Gemini 3 系列模型应在所有场景里默认使用 temperature: 1

Interpretation(解释)

这意味着当前最值得优先调的,不是字幕外观类设置,而是吞吐、分包、长度控制这几类硬参数。

如果 HIGH 已经基本跟得上,那最合理的方向不是先降思考档,而是先尝试把请求节奏和分包尺寸调顺。

Current Rule(当前规则)

  • 默认先从 thinkingLevel: HIGH 开始测。
  • 默认把 temperature 设为 1
  • 优先观察并调整以下参数:
    • 每秒最大请求数(limit
    • 每次请求最大文本长度(maxTextLengthPerRequest
    • 每次请求最大段落数(maxTextGroupLengthPerRequest
    • 每次字幕请求最大段落数
  • 只有在这些参数调完后,字幕仍明显跟不上,才考虑把思考档位从 HIGH 往下调。

Exceptions(例外)

  • 如果视频语速极快、字幕极密、或网关本身高峰期波动明显,那么就算 HIGH 质量更好,也可能不适合作为默认档。
  • 如果“每次字幕请求最大段落数”在当前版本里确实被固定或失效,就暂时不要过度依赖它。

Review Trigger(复查触发条件)

出现以下情况时应重新评估:

  • HIGH 开始持续跟不上,而不是只是偶发卡顿
  • 更换模型、网关或沉浸式翻译版本后,请求行为明显变化
  • 后续实测发现 temperature: 1 并不比其他值更稳或更好