快速結論
StudioV1 保底主線
Wan2.2 S2V
快、穩,適合 demo 與較長段落。
品質候選線
LTX2.3
10Eros / 10S / custom-audio,控制力高。
Wan 實測速度
13.55s
每 output-second,10.31s clip。
LTX 實測速度
27.49s
每 output-second,guided v2。
影片回放比較
Wan2.2 S2V baseline
LTX2.3 / 10Eros / 10S guided v2
核心差異
| 面向 | Wan2GP / Wan2.2 S2V | LTX2.3 / 10Eros / 10S | StudioV1 意義 |
|---|---|---|---|
| 定位 | 快速音訊驅動老師影片。 | 高控制度身份與表情候選。 | Wan 先保底,LTX 再拚品質。 |
| 模型 | `wan2.2_s2v_14B_fp8_scaled.safetensors` | `10Eros_v1_fp8_transformer.safetensors` + LTX2.3 text/video/audio parts | 不同模型族,不能直接互換。 |
| 音訊條件 | wav2vec2 audio encoder → `WanSoundImageToVideo`。 | Audio VAE latent → LTX AV latent concat。 | LTX 更接近音視訊基座模型的 custom-audio 原理。 |
| 身份保持 | 靠 reference image、prompt、S2V 模型行為。 | IC-LoRA guide、crop guides、TemporalInpainter、MotionSharpener。 | LTX 控制鉤子更多,但要嚴格 QA。 |
| 速度 | 10.31s output / 139.72s gen。 | 3.936s output / 108.19s gen。 | Wan 明顯較適合 demo deadline。 |
| 風險 | 品質、身份、嘴型可能有限。 | 節點、模型、tensor size、widget offset、OOM 風險高。 | LTX 工作流已修好,但仍要鎖版本。 |
工作流拆解
Wan2.2 S2V
LoadImage + LoadAudio + wav2vec2 + WanSoundImageToVideo + 8-step KSampler。圖短、清楚、容易快速重跑。
fastbaseline
LTX2.3 / 10Eros
VHS audio upload + Audio VAE + 10Eros UNET + IC-LoRA guide + TemporalInpainter + MotionSharpener。
complexguided
合作方式
同一張老師 reference、同一段 StudioV1 audio,各跑短段,從嘴型、眼睛、身份、服裝與速度決定 final。
A/Bdemo-ready
StudioV1 決策
目前決策:StudioV1 的 demo final 預設走 Wan2.2 S2V,因為它比較快且已支援較長實用片段;LTX2.3 / 10Eros / 10S 使用 `ltx23-10eros-10s-custom-audio-studiov1-second-teacher.production.api.json` 作為 advanced quality branch。LTX 只有在短段 A/B 明顯勝出時,才提升成 final 路線。
完整分析與本地證據
完整分析 Markdown
wan2gp-vs-ltx23-10eros-studiov1-analysis.md
Benchmark
avatar-generation-benchmarks.csv
LTX workflow note
ltx23-10eros-10s-workflow.md
StudioV1 demo worklog
demo-2026-06-21.html
外部來源
WanGP GitHub
github.com/deepbeepmeep/Wan2GP
LTX2.3 model card
huggingface.co/Lightricks/LTX-2.3
ComfyUI LTX2.3 docs
docs.comfy.org/tutorials/video/ltx/ltx-2-3
TenStrip 10S nodes
github.com/TenStrip/10S-Comfy-nodes