研究笔记

围绕 aistack 涉及的技术与决策做出来的稳定结论。形态包括但不限于:

共同点是以后还会被引用:跨项目演进周期保持有效。

笔记列表

笔记	主题
消费级 GPU 本地 ASR 性能基线	50 分钟英文音频 / RTX 4060 8GB / 62s 端到端 / RTF 0.021。读者拿这数据自行决定本地 ASR 是否适合自己场景。
NVIDIA Parakeet TDT 在消费级 GPU 上跑长音频	8 GB 卡上跑 Parakeet 长音频的可工作配置:哪几个旋钮要开、哪几个不能碰、为什么 NVIDIA 官方文档没把这事说全。
Whisper 翻译能力的真实边界	Whisper `task=translate` 是 X→English only,不能做 EN→ZH 或任何 non-English 目标翻译。需要 EN→ZH 字幕时三条可行路径的对比。
中文 ASR 引擎选型基线研究	FireRedASR-AED / Paraformer / SenseVoice / Whisper-large-v3 / Fun-ASR / FireRedASR2S 全景对比。AISHELL/WenetSpeech 公开 CER + 设计意图 + 评估方法陷阱 + 8GB 卡集成成本。desk research,实测前必读。
Whisper 生态系统全景	6 大类 25+ 项目分类整理。推理引擎 / 蒸馏小模型 / 功能增强层 / 流式化 / Whisper-style 重训 / 跨域反演。aistack 该集成什么、不该集成什么、未来产品形态用得上什么的判断。