⚡ v2.4 舒展布局
高性能分词与单人过拟合

🔀
Rule Dispatcher 智能分流易错词。
🚀
T5TokenizerFast Rust 加速分词。
🎯
Active Overfitting 极致拟合单人习惯。
🏭 离线训练工厂 (Bill Gates 专属定制)
🚀 实时推理 (YouTube 直播流) v2.4
🧠 LLM 画像生成
Climate, Energy...
📝 专属语料
Ground Truth
🗣️ TTS 声线克隆
ElevenLabs Instant
⚙️ ASR 预转录
生成"Gates式"错误
⚖️ 差异分析引擎
捕捉特定口音/吞音
📚 单人纠错模型
Step 2 Model
🚫 易错词表提取
Gates' Bias List
Gate
分发策略
生僻/专有词 -> Step 0
固定音近词 -> Step 1
Start
🎤 实时音频流
Source: Bill Gates
Step 0: Deep Bias Fusion (深度偏置融合)
🔤 热词编制表
Contextual Strings
📦 语言模型编制表
Custom LM Weights
Apple SFSpeech
核心识别引擎 (Bias Injected)
Memory
Buffer
Gate
>0.95?
Optimization 1
Step 1: Rules
JSON 静态规则触发
🧠 Context
Last Sentence
Optimization 2
Step 2: Model
T5TokenizerFast w/ Trie Constraint
Optimization 3
Final
🔙 回退机制
Confidence < 0.7
Low Conf 快速通道 (High Confidence Bypass) Context Loop

v2.4 核心设计理念:智能分发 (Smart Dispatch)

分发策略网关 (Dispatcher)

新增模块。它像一个交通警察,站在离线词表的出口,负责检查每一个"易错词",并根据其特性决定它的去向。

生僻词 -> Step 0

如果词汇是 OOV (Out of Vocabulary) 或极其罕见的专有名词(如 "Gigaton"),必须在源头注入 SFSpeech,否则引擎压根不知道这个词的存在。

顽固错词 -> Step 1

如果词汇是常见的同音词错误(如 "New clear" -> "Nuclear"),SFSpeech 即使加了权重也可能识别错。这种"硬骨头"直接交给 Step 1 的规则引擎暴力替换。

🧬 Step 0: Deep Bias Fusion 详解

这一步发生在 Apple SFSpeech 真正开始听声音之前。相当于给识别引擎"植入记忆"。

Contextual Strings
热词编制表。这是 SFSpeech 提供的一个强干预接口。我们将离线训练中发现的 Top 500 个 Bill Gates 专属词汇(如 "Gigaton", "Carbon-zero")注入这里。
Custom LM
语言模型权重。这是一个统计学权重的调整。我们告诉 SFSpeech:"这还是英语,但是是'科技+慈善'领域的英语"。

🔍 关键节点与流控字典

Confidence Gate (置信度门控)

逻辑: Score > 0.95 ? Pass : Fix
这是一个省电且提速的开关。如果 SFSpeech 非常确信自己听对了,直接输出。

Step 1: JSON Rules (规则硬修正)

输入源: 来自 Dispatcher 的"顽固错词"。
作用: JSON 静态规则触发。基于 AC 自动机的高速匹配。

Step 2: T5TokenizerFast (生成式纠错)

输入源: 接收所有词表作为 Trie Constraint。
技术: Seq2Seq Context Loop T5TokenizerFast
利用上下文信息解决"语义歧义"。比如根据前文 "Energy" 将 "New clear" 修正为 "Nuclear"。T5TokenizerFast 提供了更快的 token 处理速度。

📚 5. 核心资产详解:单人纠错模型 (Single-Speaker Model)

这是离线训练产出的核心资产,其训练逻辑遵循"极致过拟合 (Active Overfitting)"原则。

训练规则 (Policy)

  • 放弃泛化: 明确告诉模型"你只需要听懂 Bill Gates,不需要听懂其他人"。
  • 领域锁定: 强化 Climate, Energy, Polio 等特定领域词汇的生成概率。
  • 口癖捕捉: 专门学习 Gates 的特定吞音和连读习惯(如 "gonna", "wanna" 的特定发音模式在文本层面的映射)。

处理流水线 (Pipeline)

  1. 数据清洗: 爬取 Gates 的 YouTube 视频字幕,过滤掉主持人和其他嘉宾的发言,只保留 Gates 本人的语料。
  2. TTS 增强: 使用 ElevenLabs 克隆 Gates 的声音,生成大量合成语音,制造更多的"ASR 错误样本"用于训练(Data Augmentation)。
  3. 微调 (Fine-tuning): 使用 `(ASR Error Text, Ground Truth)` 数据对,对 T5-small 进行全量或 LoRA 微调。