MentorAI 教學導演台企劃書

把 LTX 2.3 影片導演能力補強成可校對、可排程、可生成、可組片的教學影片製作系統。重點不是只做漂亮畫面,而是把教材理解、板書設計、老師講稿、字幕、鏡頭和輸出品質整合成一條穩定生產線。

版本:v1.1 實跑後修正版
日期:2026-06-14
狀態:已納入 5 分鐘 LTX 實跑回饋
企劃核心
教學先行

先建立可校對教學結構,再進入影片生成。

生成方式
多段 Shot

長影片拆成多段生成,最後 FFmpeg 組片。

主要後端
ComfyUI / LTX

Wan2GP 只作內部實驗與備援,不作 v1 使用者入口。

MVP 工期
4-5 週

以單使用者工作台、16:9 繁中教學影片為第一版。

實跑驗證
298 秒

LTX 2.3 教師影片已完成 75 段組片,含音訊與 Telegram review 版。

產品定位

一般 AI 影片工具只處理「畫面怎麼動」,但教學影片還需要回答「學生要學會什麼」。MentorAI 教學導演台要把教材轉成教學腳本、投影片板書、老師講解、字幕時間軸和可控鏡頭,再交給 LTX / ComfyUI 生成動態片段。

教材解析 教學段落 板書版型 老師講稿 字幕對齊 鏡頭控制 品質檢查

核心流程

1. 教材輸入課文、講義、PDF、音訊或影片轉錄。
2. LessonPlan原文、白話、教學目標、考點、易錯點。
3. SlidePlan概念頁、雙視窗、故事地圖、語法標註。
4. TeacherScript老師講稿、TTS 文字、情緒、斷句。
5. SubtitlePlan逐句字幕、行長限制、時間對齊。
6. ShotPlan鏡頭、光影、動作、轉場、素材綁定。
7. RenderJobComfyUI / LTX / FFmpeg 生成任務。
8. AssembleJob多段影片組片、音訊正規化、輸出 MP4。
9. QualityReport檢查字幕、板書、考點、音畫同步。

教學影片需要補強的能力

教學設計腦

將教材拆成 5-8 個 teaching segments,每段都有 focus、board notes、narration、checkpoint。

板書與投影片

支援概念公式、雙視窗、故事地圖、語法標註、總結測驗,避免只做標題加條列。

字幕與 TTS 適配

把眼睛能讀的文字改寫成聲音能載的口語,控制字幕行長、斷句、語氣與節奏。

老師講解角色

老師表情、鏡頭位置、指向區域和板書內容同步,不只是一段 talking head。

品質檢查

自動標出缺考點、字太密、字幕過長、音訊缺失、shot 未渲染和 final duration mismatch。

可追蹤生產線

每段任務記錄 provider、workflow、runtime、成本、輸出和錯誤摘要,方便比較模型。

後端架構規劃

資料與內容層
Mongo Collectionsprojects, materials, assets, lessonPlans, slides, shots, jobs, qualityReports
Shared SchemasLessonPlan, TeachingSlide, TeacherScript, SubtitlePlan, DirectorShot, QualityReport
Storage本機 storage 與 R2 adapter;輸入、預覽、最終 MP4 統一保存。
任務與生成層
BullMQ Queueslesson-plan, slide-render, tts, shot-render, assemble, quality-check
GPU Worker封裝 ComfyUI / LTX workflow template、狀態輪詢、錯誤分類。
FFmpeg Worker投影片影片段、字幕、音訊正規化和最終組片。
API 與整合層
Director APIproject/material/lesson-plan/slide/shot/render/assemble/quality endpoints
Provider Adapterlocal_comfy 為 v1 主線;Wan2GP 與 hosted providers 保持內部 adapter。
Telemetryruntime、model、workflow、error summary、output asset、retry count。

5 分鐘 LTX 實跑回饋

2026-06-14 使用 BYGPU G49206 / RTX 4090 48GB 跑通 LTX 2.3 教師影片,最後輸出 298.37 秒完整 MP4,並產生 720p Telegram review 版。這次證明長片可行,但也暴露出 v1 規劃必須補強「遠端渲染完成」到「本機可交付」之間的整條收檔、驗證、組片與傳送流程。

品質註記:本次成品只能視為技術管線通過,不能視為教學影片品質通過。分段後再合併造成明顯切斷感,說話不連貫,表情連續性不自然,lip-sync 也有音嘴不同步問題;後續必須加入 watchability review、segment boundary QC、lip-sync QC 與表情一致性檢查。

提交任務
74

API prompts 於約 2 分鐘內送入 ComfyUI queue。

輸出片段
75 + 75

75 段 video-only,75 段含音訊 MP4。

組片結果
4:58

Final MP4 有 H.264 video 與 AAC audio。

交付
TG #35

自動壓成約 25MB review 版後傳送。

實跑後的核心修正

分段策略要產品化

75 段約 4 秒一段,適合測試但不適合正式量產。v1 預設改成 policy:test_safe 4-6 秒、balanced 8-12 秒、production 12-18 秒,並可依 TTS 停頓與投影片段落切分。

不能只看技術成功

這次完整組片雖然有聲音、有影像、有總時長,但觀感上像很多短片硬接。v1 必須把 watchability_status 納入品質閘門,未通過時不可標為可交付。

完成狀態要分層

ComfyUI 顯示 success 不代表本機已有檔案,也不代表能組片。shot 狀態必須拆成 queued、running、remote_rendered、remote_verified、downloaded、assembled、delivered。

收檔不能只靠 /view

大量檔案透過 ComfyUI /view 逐段下載會卡住。v1 需要 Remote Artifact Collector:遠端列檔、打 tar、單包下載、解壓、ffprobe 驗證。

輸出合約要明確

這次 workflow 同時輸出 video-only 與 audio MP4。template 必須宣告 pattern、role、requiredStreams、preferredForAssemble,組片前自動拒絕無音訊素材。

交付要自動分版本

master 約 289MB,不適合直接丟 Telegram。後端應自動產生 master、review_720、thumbnail/contact sheet、worklog/R2 版本。

模型表格要由 job 產生

每段 runtime、模型、workflow、prompt id、檔案大小、音訊狀態、錯誤摘要應進資料庫,避免生成時間與品質紀錄散落在 terminal。

後端 API 範圍

Endpoint 用途 v1 行為
POST /api/director/projects建立教學影片專案設定標題、語言、比例、目標時長。
POST /api/director/projects/:id/materials上傳或貼入教材文字、PDF metadata、音訊/影片素材先入 asset store。
POST /api/director/projects/:id/lesson-plan產生教學結構建立 5-8 段 teaching segments,可人工校對。
POST /api/director/projects/:id/slides產生板書與版型輸出 TeachingSlide 與可渲染 PNG 的 slide plan。
POST /api/director/projects/:id/shots建立鏡頭計畫每個 teaching segment 至少一個主 shot。
PATCH /api/director/shots/:id編輯鏡頭更新 prompt、camera、lighting、motion、transition、linked assets。
POST /api/director/shots/:id/render渲染單段建立 shot-render job,回傳 job id。
POST /api/director/projects/:id/render-all批次渲染只排 ready shots,略過 needs_material / failed unless retry。
POST /api/director/projects/:id/collect-artifacts收集遠端輸出依 workflow output contract 遠端打包、下載、驗證 stream。
POST /api/director/projects/:id/export-review產生交付版本由 master MP4 轉出 Telegram / web review 版。
POST /api/director/projects/:id/assemble組片檢查所有必要段落後建立 assemble job。
POST /api/director/projects/:id/deliver傳送成品支援 Telegram、R2、工作網站連結。
GET /api/director/projects/:id/quality-report品質檢查回傳可修復 checklist。
GET /api/director/jobs/:id查任務回傳狀態、進度、runtime、output、error summary。

前端工作台規劃

四區工作介面

  • 左側:Projects / Materials / Assets / Templates / Queue。
  • 中左:教學段落與 shot timeline。
  • 中央:選中段落的教學、鏡頭、字幕、投影片編輯器。
  • 右側:Preview、Job progress、Variants、QualityReport。

使用者路徑

  1. 貼入教材或選擇專案。
  2. 審核 LessonPlan 與考點。
  3. 檢查板書/投影片。
  4. 調整老師講稿、字幕、鏡頭。
  5. 逐段渲染、比較 variants。
  6. 組成 final MP4 並發送或下載。

前端元件清單

DirectorShell

整體 app shell、左側導覽、頂部專案狀態。

LessonOutline

教學段落、目標、考點、易錯點。

TeachingSlideEditor

slide type、板書、圖像、標註與 target regions。

ShotTimeline

shot 狀態、縮圖、時長、provider、runtime。

ShotEditor

mode、prompt、seed、workflow template。

CameraPanel

景別、角度、運鏡、鏡頭感、人物位置。

LightingPanel

教室、舞台、柔光、城市夜景等光影 preset。

MotionPanel

動作強度、節奏來源、lip-sync、表情要求。

TransitionPanel

fade、match cut、whip pan、light sweep 等轉場。

SubtitleEditor

字幕斷句、行長、時間點、TTS 對齊。

PreviewPanel

單段預覽、variants、final MP4、輸出 metadata。

QualityReportPanel

品質檢查、可修復清單、定位到 slide/shot。

RenderBatchPanel

批次進度:remote render、artifact collection、validation、assemble、delivery。

ModelProfilePanel

模型建議切段長度、輸出命名合約、音訊能力與已知風險。

ArtifactInspector

檢查每段是否有 video/audio stream、大小、時長、遠端與本機路徑。

DeliveryPanel

產生 Telegram review、R2/worklog 發布與傳送紀錄。

WatchabilityReview

人工標記切斷感、說話流暢度、表情自然度、lip-sync 與是否可交付。

前端 UX 修正

進度不可只顯示 Render

  • Render:遠端成功幾段。
  • Collect:已拉回幾段 video/audio。
  • Validate:ffprobe 通過幾段。
  • Assemble:是否產出 master MP4。
  • Deliver:是否產出 review 並傳送。

Timeline 預設要分組

  • 75 個 shot 不應一排攤開,預設依 lesson segment / slide / batch group 摺疊。
  • 每段顯示 audio/video icon、target/actual duration、provider、runtime、retry。
  • 當平均片段低於 6 秒時提示「測試切法,正式版建議合併」。

實作排程

週次 重點 交付物
Week 1 Backend schemas、Mongo collections、Lesson Planner 可建立 project,貼教材後產生 5-8 段 LessonPlan。
Week 2 SlidePlan、SubtitlePlan、ShotPlan、Director API 每段有板書、字幕、老師講稿和 shot metadata。
Week 3 BullMQ workers、TTS、slide render、Remote Artifact Collector、FFmpeg assemble 可不依賴 GPU 產生骨架,並可從遠端批次收檔、驗證、組片。
Week 4 前端導演台、batch progress、job polling、quality report 可在 UI 審核教學、渲染單段/批次、查看 render/collect/assemble/deliver 分層進度。
Week 5 LTX / ComfyUI adapter、review exports、Telegram/worklog delivery、驗收 demo 《兒時記趣》至少 5 段 demo,含板書、老師講解、字幕、master MP4、review MP4 與傳送紀錄。

風險與處理

LTX 版本敏感

工作流、custom nodes、model filename 要 pin 住,並在 `/object_info` 做啟動前檢查。

老師表情不可控

不要只靠 prompt;保留 expression-control 模型與 reference still 生成支線。

字幕與板書過密

QualityReport 先檢查行長、字數、target regions,再允許 final export。

長影片不穩

統一切成多 shot 渲染,不做單次超長生成;支援 retry 和 variants。

遠端 GPU 成本

記錄每段 runtime、provider、失敗原因,建立模型表格與成本估算。

教學準確性

古文、考點、注釋需保留來源與人工確認欄位,不直接信任轉錄或生成內容。

驗收標準

類別 標準
教學結構LessonPlan 至少有教學目標、核心觀念、每段 focus、narration、checkpoint。
投影片至少支援雙視窗、故事地圖、語法標註、總結測驗四種教學版型。
字幕/TTS每段都有可編輯字幕與 TTS text,繁中預設每行 13-16 字限制。
生成任務單段可 render,render-all 只排 ready shots,失敗可 retry。
遠端收檔render success 後可批次收集遠端輸出,驗證 video/audio stream 與段落數。
組片final MP4 可播放、有音訊、有字幕/板書,時長接近所有 segment duration 總和。
交付master 過大時自動建立 Telegram review 版,保存 delivery message id / URL。
品質檢查能指出缺考點、字幕過長、字太密、shot 未渲染、音畫不同步等問題。
觀感驗收final MP4 必須通過人工 watchability review;若說話不連貫、表情跳動或 lip-sync 明顯不準,標記為 rejected_for_quality。

第一個 demo 建議:《兒時記趣》

用現有《兒時記趣》研究成果作為驗收教材,輸出 5-8 段 16:9 教學影片。必含:核心公式「觀察力 + 想像力 = 物外之趣」、蚊變鶴雙視窗、三件趣事故事地圖、之/以/為語法標註、老師講解、逐句字幕、final MP4。