先建立可校對教學結構,再進入影片生成。
長影片拆成多段生成,最後 FFmpeg 組片。
Wan2GP 只作內部實驗與備援,不作 v1 使用者入口。
以單使用者工作台、16:9 繁中教學影片為第一版。
LTX 2.3 教師影片已完成 75 段組片,含音訊與 Telegram review 版。
產品定位
一般 AI 影片工具只處理「畫面怎麼動」,但教學影片還需要回答「學生要學會什麼」。MentorAI 教學導演台要把教材轉成教學腳本、投影片板書、老師講解、字幕時間軸和可控鏡頭,再交給 LTX / ComfyUI 生成動態片段。
核心流程
教學影片需要補強的能力
教學設計腦
將教材拆成 5-8 個 teaching segments,每段都有 focus、board notes、narration、checkpoint。
板書與投影片
支援概念公式、雙視窗、故事地圖、語法標註、總結測驗,避免只做標題加條列。
字幕與 TTS 適配
把眼睛能讀的文字改寫成聲音能載的口語,控制字幕行長、斷句、語氣與節奏。
老師講解角色
老師表情、鏡頭位置、指向區域和板書內容同步,不只是一段 talking head。
品質檢查
自動標出缺考點、字太密、字幕過長、音訊缺失、shot 未渲染和 final duration mismatch。
可追蹤生產線
每段任務記錄 provider、workflow、runtime、成本、輸出和錯誤摘要,方便比較模型。
後端架構規劃
5 分鐘 LTX 實跑回饋
2026-06-14 使用 BYGPU G49206 / RTX 4090 48GB 跑通 LTX 2.3 教師影片,最後輸出 298.37 秒完整 MP4,並產生 720p Telegram review 版。這次證明長片可行,但也暴露出 v1 規劃必須補強「遠端渲染完成」到「本機可交付」之間的整條收檔、驗證、組片與傳送流程。
品質註記:本次成品只能視為技術管線通過,不能視為教學影片品質通過。分段後再合併造成明顯切斷感,說話不連貫,表情連續性不自然,lip-sync 也有音嘴不同步問題;後續必須加入 watchability review、segment boundary QC、lip-sync QC 與表情一致性檢查。
API prompts 於約 2 分鐘內送入 ComfyUI queue。
75 段 video-only,75 段含音訊 MP4。
Final MP4 有 H.264 video 與 AAC audio。
自動壓成約 25MB review 版後傳送。
實跑後的核心修正
分段策略要產品化
75 段約 4 秒一段,適合測試但不適合正式量產。v1 預設改成 policy:test_safe 4-6 秒、balanced 8-12 秒、production 12-18 秒,並可依 TTS 停頓與投影片段落切分。
不能只看技術成功
這次完整組片雖然有聲音、有影像、有總時長,但觀感上像很多短片硬接。v1 必須把 watchability_status 納入品質閘門,未通過時不可標為可交付。
完成狀態要分層
ComfyUI 顯示 success 不代表本機已有檔案,也不代表能組片。shot 狀態必須拆成 queued、running、remote_rendered、remote_verified、downloaded、assembled、delivered。
收檔不能只靠 /view
大量檔案透過 ComfyUI /view 逐段下載會卡住。v1 需要 Remote Artifact Collector:遠端列檔、打 tar、單包下載、解壓、ffprobe 驗證。
輸出合約要明確
這次 workflow 同時輸出 video-only 與 audio MP4。template 必須宣告 pattern、role、requiredStreams、preferredForAssemble,組片前自動拒絕無音訊素材。
交付要自動分版本
master 約 289MB,不適合直接丟 Telegram。後端應自動產生 master、review_720、thumbnail/contact sheet、worklog/R2 版本。
模型表格要由 job 產生
每段 runtime、模型、workflow、prompt id、檔案大小、音訊狀態、錯誤摘要應進資料庫,避免生成時間與品質紀錄散落在 terminal。
後端 API 範圍
| Endpoint | 用途 | v1 行為 |
|---|---|---|
| POST /api/director/projects | 建立教學影片專案 | 設定標題、語言、比例、目標時長。 |
| POST /api/director/projects/:id/materials | 上傳或貼入教材 | 文字、PDF metadata、音訊/影片素材先入 asset store。 |
| POST /api/director/projects/:id/lesson-plan | 產生教學結構 | 建立 5-8 段 teaching segments,可人工校對。 |
| POST /api/director/projects/:id/slides | 產生板書與版型 | 輸出 TeachingSlide 與可渲染 PNG 的 slide plan。 |
| POST /api/director/projects/:id/shots | 建立鏡頭計畫 | 每個 teaching segment 至少一個主 shot。 |
| PATCH /api/director/shots/:id | 編輯鏡頭 | 更新 prompt、camera、lighting、motion、transition、linked assets。 |
| POST /api/director/shots/:id/render | 渲染單段 | 建立 shot-render job,回傳 job id。 |
| POST /api/director/projects/:id/render-all | 批次渲染 | 只排 ready shots,略過 needs_material / failed unless retry。 |
| POST /api/director/projects/:id/collect-artifacts | 收集遠端輸出 | 依 workflow output contract 遠端打包、下載、驗證 stream。 |
| POST /api/director/projects/:id/export-review | 產生交付版本 | 由 master MP4 轉出 Telegram / web review 版。 |
| POST /api/director/projects/:id/assemble | 組片 | 檢查所有必要段落後建立 assemble job。 |
| POST /api/director/projects/:id/deliver | 傳送成品 | 支援 Telegram、R2、工作網站連結。 |
| GET /api/director/projects/:id/quality-report | 品質檢查 | 回傳可修復 checklist。 |
| GET /api/director/jobs/:id | 查任務 | 回傳狀態、進度、runtime、output、error summary。 |
前端工作台規劃
四區工作介面
- 左側:Projects / Materials / Assets / Templates / Queue。
- 中左:教學段落與 shot timeline。
- 中央:選中段落的教學、鏡頭、字幕、投影片編輯器。
- 右側:Preview、Job progress、Variants、QualityReport。
使用者路徑
- 貼入教材或選擇專案。
- 審核 LessonPlan 與考點。
- 檢查板書/投影片。
- 調整老師講稿、字幕、鏡頭。
- 逐段渲染、比較 variants。
- 組成 final MP4 並發送或下載。
前端元件清單
DirectorShell
整體 app shell、左側導覽、頂部專案狀態。
LessonOutline
教學段落、目標、考點、易錯點。
TeachingSlideEditor
slide type、板書、圖像、標註與 target regions。
ShotTimeline
shot 狀態、縮圖、時長、provider、runtime。
ShotEditor
mode、prompt、seed、workflow template。
CameraPanel
景別、角度、運鏡、鏡頭感、人物位置。
LightingPanel
教室、舞台、柔光、城市夜景等光影 preset。
MotionPanel
動作強度、節奏來源、lip-sync、表情要求。
TransitionPanel
fade、match cut、whip pan、light sweep 等轉場。
SubtitleEditor
字幕斷句、行長、時間點、TTS 對齊。
PreviewPanel
單段預覽、variants、final MP4、輸出 metadata。
QualityReportPanel
品質檢查、可修復清單、定位到 slide/shot。
RenderBatchPanel
批次進度:remote render、artifact collection、validation、assemble、delivery。
ModelProfilePanel
模型建議切段長度、輸出命名合約、音訊能力與已知風險。
ArtifactInspector
檢查每段是否有 video/audio stream、大小、時長、遠端與本機路徑。
DeliveryPanel
產生 Telegram review、R2/worklog 發布與傳送紀錄。
WatchabilityReview
人工標記切斷感、說話流暢度、表情自然度、lip-sync 與是否可交付。
前端 UX 修正
進度不可只顯示 Render
- Render:遠端成功幾段。
- Collect:已拉回幾段 video/audio。
- Validate:ffprobe 通過幾段。
- Assemble:是否產出 master MP4。
- Deliver:是否產出 review 並傳送。
Timeline 預設要分組
- 75 個 shot 不應一排攤開,預設依 lesson segment / slide / batch group 摺疊。
- 每段顯示 audio/video icon、target/actual duration、provider、runtime、retry。
- 當平均片段低於 6 秒時提示「測試切法,正式版建議合併」。
實作排程
| 週次 | 重點 | 交付物 |
|---|---|---|
| Week 1 | Backend schemas、Mongo collections、Lesson Planner | 可建立 project,貼教材後產生 5-8 段 LessonPlan。 |
| Week 2 | SlidePlan、SubtitlePlan、ShotPlan、Director API | 每段有板書、字幕、老師講稿和 shot metadata。 |
| Week 3 | BullMQ workers、TTS、slide render、Remote Artifact Collector、FFmpeg assemble | 可不依賴 GPU 產生骨架,並可從遠端批次收檔、驗證、組片。 |
| Week 4 | 前端導演台、batch progress、job polling、quality report | 可在 UI 審核教學、渲染單段/批次、查看 render/collect/assemble/deliver 分層進度。 |
| Week 5 | LTX / ComfyUI adapter、review exports、Telegram/worklog delivery、驗收 demo | 《兒時記趣》至少 5 段 demo,含板書、老師講解、字幕、master MP4、review MP4 與傳送紀錄。 |
風險與處理
LTX 版本敏感
工作流、custom nodes、model filename 要 pin 住,並在 `/object_info` 做啟動前檢查。
老師表情不可控
不要只靠 prompt;保留 expression-control 模型與 reference still 生成支線。
字幕與板書過密
QualityReport 先檢查行長、字數、target regions,再允許 final export。
長影片不穩
統一切成多 shot 渲染,不做單次超長生成;支援 retry 和 variants。
遠端 GPU 成本
記錄每段 runtime、provider、失敗原因,建立模型表格與成本估算。
教學準確性
古文、考點、注釋需保留來源與人工確認欄位,不直接信任轉錄或生成內容。
驗收標準
| 類別 | 標準 |
|---|---|
| 教學結構 | LessonPlan 至少有教學目標、核心觀念、每段 focus、narration、checkpoint。 |
| 投影片 | 至少支援雙視窗、故事地圖、語法標註、總結測驗四種教學版型。 |
| 字幕/TTS | 每段都有可編輯字幕與 TTS text,繁中預設每行 13-16 字限制。 |
| 生成任務 | 單段可 render,render-all 只排 ready shots,失敗可 retry。 |
| 遠端收檔 | render success 後可批次收集遠端輸出,驗證 video/audio stream 與段落數。 |
| 組片 | final MP4 可播放、有音訊、有字幕/板書,時長接近所有 segment duration 總和。 |
| 交付 | master 過大時自動建立 Telegram review 版,保存 delivery message id / URL。 |
| 品質檢查 | 能指出缺考點、字幕過長、字太密、shot 未渲染、音畫不同步等問題。 |
| 觀感驗收 | final MP4 必須通過人工 watchability review;若說話不連貫、表情跳動或 lip-sync 明顯不準,標記為 rejected_for_quality。 |
第一個 demo 建議:《兒時記趣》
用現有《兒時記趣》研究成果作為驗收教材,輸出 5-8 段 16:9 教學影片。必含:核心公式「觀察力 + 想像力 = 物外之趣」、蚊變鶴雙視窗、三件趣事故事地圖、之/以/為語法標註、老師講解、逐句字幕、final MP4。