← MentorAI 工作紀錄

StudioV1:Wan2GP / Wan2.2 S2V vs LTX2.3 / 10Eros 分析

整理 StudioV1 目前兩條聲音驅動老師影片路線:Wan2.2 S2V 作為快速可交付主線,LTX2.3 / 10Eros / 10S custom-audio 作為身份穩定與表情品質候選線。

Updated 2026-06-14 StudioV1
Asia/Taipei

快速結論

StudioV1 保底主線
Wan2.2 S2V
快、穩,適合 demo 與較長段落。
品質候選線
LTX2.3
10Eros / 10S / custom-audio,控制力高。
Wan 實測速度
13.55s
每 output-second,10.31s clip。
LTX 實測速度
27.49s
每 output-second,guided v2。

影片回放比較

Wan2.2 S2V baseline

輸出
wan22_s2v_local_segment01_00001.mp4
規格
512x512, 16fps, 10.312s
生成
約 139.72s,約 13.55s/output-second
用途
StudioV1 demo 保底與較長段落主線。

LTX2.3 / 10Eros / 10S guided v2

輸出
ltx23_10eros_10s_custom_audio_guided_v2_audio0_00001-audio.mp4
規格
1088x1088, 24fps, 3.936s
生成
108.19s,約 27.49s/output-second
用途
身份穩定、表情、聲音節奏帶動動作的品質候選線。

核心差異

面向 Wan2GP / Wan2.2 S2V LTX2.3 / 10Eros / 10S StudioV1 意義
定位 快速音訊驅動老師影片。 高控制度身份與表情候選。 Wan 先保底,LTX 再拚品質。
模型 `wan2.2_s2v_14B_fp8_scaled.safetensors` `10Eros_v1_fp8_transformer.safetensors` + LTX2.3 text/video/audio parts 不同模型族,不能直接互換。
音訊條件 wav2vec2 audio encoder → `WanSoundImageToVideo`。 Audio VAE latent → LTX AV latent concat。 LTX 更接近音視訊基座模型的 custom-audio 原理。
身份保持 靠 reference image、prompt、S2V 模型行為。 IC-LoRA guide、crop guides、TemporalInpainter、MotionSharpener。 LTX 控制鉤子更多,但要嚴格 QA。
速度 10.31s output / 139.72s gen。 3.936s output / 108.19s gen。 Wan 明顯較適合 demo deadline。
風險 品質、身份、嘴型可能有限。 節點、模型、tensor size、widget offset、OOM 風險高。 LTX 工作流已修好,但仍要鎖版本。

工作流拆解

Wan2.2 S2V

LoadImage + LoadAudio + wav2vec2 + WanSoundImageToVideo + 8-step KSampler。圖短、清楚、容易快速重跑。

fastbaseline

LTX2.3 / 10Eros

VHS audio upload + Audio VAE + 10Eros UNET + IC-LoRA guide + TemporalInpainter + MotionSharpener。

complexguided

合作方式

同一張老師 reference、同一段 StudioV1 audio,各跑短段,從嘴型、眼睛、身份、服裝與速度決定 final。

A/Bdemo-ready

StudioV1 決策

目前決策:StudioV1 的 demo final 預設走 Wan2.2 S2V,因為它比較快且已支援較長實用片段;LTX2.3 / 10Eros / 10S 使用 `ltx23-10eros-10s-custom-audio-studiov1-second-teacher.production.api.json` 作為 advanced quality branch。LTX 只有在短段 A/B 明顯勝出時,才提升成 final 路線。

完整分析與本地證據

外部來源