MentorAI GPU 工作紀錄

單一入口,集中記錄 BYGPU / ComfyUI / LongCat / Wan / Z-Image 的工作狀態、生成耗時、交付品與下一步。新增紀錄先寫這裡,再同步到 CSV 或 Trello。

Updated
2026-06-22
Asia/Taipei

目前判斷

最快可用 talking-video
Wan2.2 S2V
約 13.55s / output-second
最高表情樣片
InfiniteTalk
短樣片可用,長版目前過慢
參考圖生成
Z-Image
後續 seed 約 4s / 張
長版風險
>70 min
InfiniteTalk 257 frames / 32 steps 推估

工作板

完成 6

ComfyUI + Cloudflare 已跑通

G49206 的 ComfyUI 可透過 momooAi.com 入口使用。

infradone
Wan2.2 S2V 本地工作流

Segment 01 輸出 10.31 秒,生成約 139.72 秒。

fastestlocal
Z-Image 老師參考圖

已選出溫和微笑、乾淨綠幕的男老師參考圖。

reference
Wan InfiniteTalk 81-frame 樣片

3.24 秒樣片已完成並傳 Telegram message 24。

sampleslow
模型耗時表

Markdown 與 CSV 已建立,後續生成需追加紀錄。

benchmark
LTX2.3 / 10Eros guided-v Q3_K_S

只換 GGUF 小模型,30 秒 1088x1088 成功,峰值 23647MB,低於 24GB。

ltx2.324gbapi

觀察中 3

InfiniteTalk 長版太慢

257 frames / 32 steps 第一 sampler step 約 135.93 秒。

bottleneck
InfiniteTalk CFG 限制

`cfg=5` 會出現 audio batch shape mismatch;穩定值是 `cfg=1`。

known failure
Partner/API 節點未使用

Seedance / Kling 等 Partner nodes 需 Comfy API key 與 credits。

blocked

下一步 4

把新生成統一追加到本頁

不要只寫到 research 檔或 terminal log。

process
測 Wan2.2 S2V 品質參數

以 Wan2.2 S2V 作長段主線,嘗試提升表情但控制耗時。

quality
InfiniteTalk 只做短樣片

先用 81 frames 比較嘴型、表情與身份,不直接跑 10 秒以上。

cost control
若要 Trello,從本頁匯出

用本頁作單一資料源,再建立 Trello cards,避免雙寫。

trello-ready

平台開發歷程 · 能力地圖

以 skill 維度整理 mentorai-platform monorepo 的完整開發紀錄。每項能力對應 git commits 與任務清單,所有項目均已驗證部署。

🏗 基礎架構 ✓ 完成

  • pnpm Monorepo + Turborepo (apps: api / web / worker · packages: shared)
  • NestJS API → Coolify 自動部署 (Docker build pack, git push trigger)
  • Next.js static export → Cloudflare Pages (wrangler deploy)
  • MongoDB Atlas-compatible + Redis on Coolify (Oracle Cloud VM)
  • ComfyUI 公網入口 comfy.momooai.com (Cloudflare Tunnel + token proxy)
  • CORS 多域名白名單 (web / worklog / briefing Pages)

🤖 AI 分析引擎 ✓ 完成

  • Claude Sonnet 整合:課文分析 / 分鏡生成 / 語意對齊 / 逐字注釋
  • Groq 優先 LLM,純 HTTP 可插拔 provider(OpenAI-compatible)
  • Whisper ASR → WhisperX 字級時間戳 + Claude 語意校正
  • 分鏡自動鏡位 (4 種)・場景分析・記憶點萃取
  • 前端可切換分析模型 (OpenCode / Kimi / Groq / Claude)
  • ANALYSIS_MODELS 登錄表 + Job/Lesson 欄位帶模型選擇

🎙 語音合成 ✓ 完成

  • edge-tts 台灣華語 (男/女聲) + atempo 語速調整 + 特殊發音修正
  • BreezyVoice (MediaTek) GPU 零樣本語音克隆,自動重試 3 次
  • 音色管理:上傳人聲樣本 → GPU enroll → 前端選用
  • 雙人差異化語音 (訪談:主持人 vs 作者, per-line concat)
  • GridFS 音檔儲存 + GET /files/:id Range 串流
  • TTS 口白逐板配音 + 滾動自動播放 (IntersectionObserver)

🎨 影像生成 ✓ 完成

  • Z-Image / kie.ai 電影級分鏡圖 (cinematic prompt 自動生成)
  • Playwright + Headless Chromium 白板渲染 (注音 ruby + 課文高亮)
  • Noto Serif TC 字型內嵌,課文對照/注音釋義/原片參考
  • 背景/角色上傳管理 (MongoDB GridFS)・R2/MinIO 儲存支援
  • 分鏡圖轉存自家儲存 (脫離 kie.ai 暫存過期)
  • LLM 自動生副標/記憶點/場景 prompt (卡通海報模式)

🎬 影片製作 ✓ 完成

  • 白板成片:絕對時間軸 assemble (板 × 板切換, 音訊對齊)
  • WhisperX 字級對齊 → spotlight / cumulative 揭示動畫
  • InfiniteTalk 唇形同步數位人 (ComfyUI workflow, audio-driven)
  • 三種影片風格:ink 水墨捲軸 / dual 圖文講義 / cine 沉浸故事
  • TikTok 後製疊字:頻道名 + 愛心/留言/分享互動列 + 字幕
  • 9:16 直式渲染・CATCH 角度主標/副標疊字・課名角標

📱 內容生產線 ✓ 完成

  • ① 貼文字 → LLM 白板草稿 + 口稿 (draftLesson, 目標時長旋鈕)
  • ② TTS 口白配音 (BreezyVoice / edge-tts 可切換)
  • ③ 背景影片選用 + 數位人生成 (InfiniteTalk)
  • ④ 合成成片 → pending 排程 → Email 通知
  • Web UI:草稿 → 調教 → 確認 → 排程・站內任務面板
  • 三種工作流:白板棚拍 / 卡通海報 / 古裝訪談一鍵切換

💻 Mac Mini 常駐服務 ✓ 完成

  • LaunchAgent 安裝腳本 (com.mentorai.worker.plist, 開機自啟)
  • Worker heartbeat → API upsert → 前端 WorkerStatus 面板
  • 外接卷 repo 路徑適配 (絕對路徑, 不依賴 Homebrew node 位置)
  • BullMQ job queue + HTTP 輪詢 (Oracle 防火牆擋 Redis 埠的備案)
  • Material 雲端來源管理・ingest 腳本・素材上雲
  • BreezyVoice CUDA OOM 自動重試・GPU 狀態即時回報

📚 教育工作流設計 ✓ 完成

  • 白板棚拍:老師 + 課文逐句,棚拍 still 鏡位,家長信任感
  • 卡通海報:皮克斯風格 9:16,「假如你沒有手機?」hook 系列
  • 古裝訪談:主持人(畫外音)× 作者(入鏡),雙聲道差異化
  • 假如系列三型:沒有X (認知衝突) / 你是X (角色代入) / 作者在現代 (去距離化)
  • 三種搭配組合:社群漏斗 / 連續劇型 / 長尾省力型
  • 開發簡報站獨立 (mentorai-briefing.pages.dev, 密碼保護)

開發里程碑時序

2026 Q1 初Monorepo 架構 + Coolify/Cloudflare 部署鏈建立;ComfyUI + InfiniteTalk 接通 2026 Q1 中AI 分析引擎 (Claude/Groq) + Whisper ASR + 分鏡圖生成 (Z-Image/kie.ai) 2026 Q1 末Playwright 白板渲染 + WhisperX 字級對齊 + 聚光揭示動畫 + 影片合成 2026 Q2 初Mac Mini 常駐服務 + BreezyVoice 語音克隆 + 三種影片風格 + 數位人生成 2026 Q2 中內容生產線 UI + Email 通知 + 訪談工作流 + TikTok 後製疊字 2026-06-22開發簡報站獨立 + 滾動音訊播放 + 三工作流搭配策略 + 假如系列教學方法論

最新交付

StudioV1 2026-06-21 Demo 工作紀錄

StudioV1 授權聲音教學影片 demo 的完整紀錄頁:可視進度、可回放素材、可比較版本、可追蹤驗收。

開啟 StudioV1 Demo 紀錄 查看 Wan/LTX 分析

LTX2.3 / 10Eros guided-v GGUF Q3_K_S

測試日期
2026-06-18
模型
vantagewithai/LTX2.3-10Eros-GGUF · 10Eros_v1-Q3_K_S.gguf
工作流
ltx23-10eros-guided-v-gguf-q3ks-small/segment-00.api.json
原則
不改原始 safetensors guided-v workflow;只複製一份並把 10Eros UNET 換成 GGUF 小模型。
規格
1088x1088, 24fps, 30.00s, AAC audio
生成時間
1213.6s(約 20m14s)
峰值 VRAM
23647MB(低於 24GB)
API 驗證
ComfyUI `/prompt` 成功、`node_errors={}`;token proxy `/queue` 200;公網 `https://comfy.momooai.com/v1/comfy/workflows` 可列出此 workflow。
交付
Telegram message 77;工作紀錄站預覽版本機原始輸出
結論
目前第一個保留 guided-v 架構、只換小模型、且能壓進 24GB 的可行版本;速度比 safetensors 慢,但可在 24GB 級 GPU 測試。

Wan2.1 InfiniteTalk stable sample

輸出
wan21_infinitetalk_local_hq_sample81_stable_00001.mp4
工作流
wan21-infinitetalk-local-hq-sample81-stable.api.json
規格
832x480, 25fps, 81 frames, 3.24s
生成時間
267.06s
速度
82.43s / output-second
交付
Telegram message 24; Cloudflare Pages
結論
短樣片可用;不適合直接跑長版。

模型耗時表

Date Pipeline Params Output Gen sec Sec / out sec VRAM Status Notes
2026-06-18 LTX2.3 / 10Eros guided-v GGUF Q3_K_S 1088x1088; 721 frames; 24fps; 30s; custom audio; TemporalInpainter; MotionSharpener 30.00s MP4 1213.60 40.45 23647MB pass Only swapped 10Eros UNET to GGUF Q3_K_S; API `/prompt` success; Telegram message 77.
2026-06-13 Z-Image Turbo still reference 768x768; 8 steps; cfg=1.5; euler/simple PNG ~10 n/a n/r pass First run includes model load.
2026-06-13 Z-Image Turbo still reference 768x768; 8 steps; cfg=1.5; euler/simple PNG ~4 n/a n/r pass Later seeds.
2026-06-13 Wan2.2 S2V local smoke 512x512; 65 frames; 16fps; 8 steps; cfg=1 4.06s MP4 n/r n/r n/r pass Generation wall time not recorded.
2026-06-13 Wan2.2 S2V local segment01 512x512; 165 frames; 16fps; 8 steps; cfg=1 10.31s MP4 139.72 13.55 ~30GB pass Fastest usable talking-video branch so far.
2026-06-13 Wan2.2 S2V local composite 1920x1080; 30fps composite 70.83s MP4 n/r n/r n/a pass Composite render time not captured separately.
2026-06-14 Wan2.1 InfiniteTalk long attempt 832x480; 257 frames; 25fps; 32 steps target 10.3s MP4 229.10 projected slow ~40GB interrupted Step 1/32 took ~135.93s; projected >70 min.
2026-06-14 Wan2.1 InfiniteTalk bad CFG test 832x480; 81 frames; 20 steps; cfg=5 target 3.24s MP4 3.53 n/a ~27GB fail CFG/audio batch mismatch.
2026-06-14 Wan2.1 InfiniteTalk stable sample 832x480; 81 frames; 20 steps; cfg=1; audio_scale=1 3.24s MP4 267.06 82.43 ~31GB pass Telegram message 24.

單一來源與紀錄規則

新增紀錄規則

  1. 任何新生成先追加到本頁與 CSV,不只寫在聊天或 terminal。
  2. 生成時間使用 ComfyUI `Prompt executed in ... seconds`,不要把影片時長當生成耗時。
  3. 每筆至少記錄模型、workflow、解析度、frames、fps、steps、CFG、audio scale、VRAM、輸出路徑。
  4. 長任務先跑 81-frame 或 3-5 秒樣片,再決定是否跑完整段。
  5. 若要同步到 Trello,從本頁的工作板建立 cards,避免 Trello 與 repo 文件各寫各的。