ASR 双重修正架构图 (v2.4 舒展布局版)

⚡ v2.4 核心设计理念：智能分发 (Smart Dispatch)

分发策略网关 (Dispatcher)

新增模块。它像一个交通警察，站在离线词表的出口，负责检查每一个"易错词"，并根据其特性决定它的去向。

生僻词 -> Step 0

如果词汇是 OOV (Out of Vocabulary) 或极其罕见的专有名词（如 "Gigaton"），必须在源头注入 SFSpeech，否则引擎压根不知道这个词的存在。

顽固错词 -> Step 1

如果词汇是常见的同音词错误（如 "New clear" -> "Nuclear"），SFSpeech 即使加了权重也可能识别错。这种"硬骨头"直接交给 Step 1 的规则引擎暴力替换。

🧬 Step 0: Deep Bias Fusion 详解

这一步发生在 Apple SFSpeech 真正开始听声音之前。相当于给识别引擎"植入记忆"。

Contextual Strings

热词编制表。这是 SFSpeech 提供的一个强干预接口。我们将离线训练中发现的 Top 500 个 Bill Gates 专属词汇（如 "Gigaton", "Carbon-zero"）注入这里。

Custom LM

语言模型权重。这是一个统计学权重的调整。我们告诉 SFSpeech："这还是英语，但是是'科技+慈善'领域的英语"。

🔍 关键节点与流控字典

Confidence Gate (置信度门控)

逻辑： Score > 0.95 ? Pass : Fix
这是一个省电且提速的开关。如果 SFSpeech 非常确信自己听对了，直接输出。

Step 1: JSON Rules (规则硬修正)

输入源： 来自 Dispatcher 的"顽固错词"。
作用： JSON 静态规则触发。基于 AC 自动机的高速匹配。

Step 2: T5TokenizerFast (生成式纠错)

输入源： 接收所有词表作为 Trie Constraint。
技术： Seq2Seq Context Loop T5TokenizerFast
利用上下文信息解决"语义歧义"。比如根据前文 "Energy" 将 "New clear" 修正为 "Nuclear"。T5TokenizerFast 提供了更快的 token 处理速度。

📚 5. 核心资产详解：单人纠错模型 (Single-Speaker Model)

这是离线训练产出的核心资产，其训练逻辑遵循"极致过拟合 (Active Overfitting)"原则。

训练规则 (Policy)

放弃泛化： 明确告诉模型"你只需要听懂 Bill Gates，不需要听懂其他人"。
领域锁定： 强化 Climate, Energy, Polio 等特定领域词汇的生成概率。
口癖捕捉： 专门学习 Gates 的特定吞音和连读习惯（如 "gonna", "wanna" 的特定发音模式在文本层面的映射）。

处理流水线 (Pipeline)

数据清洗： 爬取 Gates 的 YouTube 视频字幕，过滤掉主持人和其他嘉宾的发言，只保留 Gates 本人的语料。
TTS 增强： 使用 ElevenLabs 克隆 Gates 的声音，生成大量合成语音，制造更多的"ASR 错误样本"用于训练（Data Augmentation）。
微调 (Fine-tuning)： 使用 `(ASR Error Text, Ground Truth)` 数据对，对 T5-small 进行全量或 LoRA 微调。

⚡ v2.4 舒展布局高性能分词与单人过拟合