標記人力規劃 · 討論稿 v1

臨時人員怎麼補、補幾個

為了把「測試／驗證集建置」與「訓練資料補充」的標記量撐起來，採分層人力：高級標記顧難場域，臨時人員做 AI 前置後的 yes / no / not_visible 快判。本稿聚焦臨時人員的工作定義與人數估算；周邊議題（基準偏誤、測試集隔離）先標為待議、不展開。

來源：2026-06-16 討論　·　相關工具：fp-sweeps／fp-tool／lighting-preview　·　供後續會議對齊「量、時限、人數」用

01一句話定位

這是「標記產能與驗證基準」的規劃，不是模型演算法的調整。

目標

把標記量撐起來

用分層人力同時餵「測試集建置」與「訓練資料補充」兩條需求。

本稿範圍

臨時人員 × 人數

只談臨時人員的工作內容與頭數估算，其餘擱置避免發散。

前提

工具完善

AI 前置已跑完、快判介面已就緒——本稿在此前提上談人力配置。

02現行兩個痛點

測試集建置貴、模型成長卡——兩者透過「驗證標準」連在一起。

痛點 ①

測試／驗證集建置繁重

要取得「有效驗證」的成本高，整體標記負擔重。

痛點 ②

模型表現上升有限

需資料補充，但盲補成效遞減。

連動

無驗證標準 → 看不到方向

沒有基準就無法快速反應模型缺失方向，於是又繞回痛點①的建置問題。

03解法骨架：分層人力

難場域留給高級標記，簡單辨識釋放給臨時人員。

第一層

高級標記 → 困難部分

興農等複雜場域中困難的標記，需經驗判斷與完整標註（沿用既有 CVAT 流程）。把高級人力集中到這裡。

第二層

臨時人員 → 簡單部分

單一、明確的辨識：AI 前置跑完後做 yes / no / nv 快判。連興農廠內的簡單任務也歸這裡，卸載高級人力。

⚠️ 廠商標記要做「簡單／困難分群」（含興農）

不是「興農整廠 → 高級」這麼粗。困難廠商內部也有簡單任務——簡單的切給臨時人員以減 loading，困難的才留高級。所以路由不是純按場域，要逐廠（甚至逐 label / 逐 frame）拆簡單 vs 困難。
估算影響：分群後落到臨時人員的 label 數，整體平均預期變化不大（興農的簡單部分加入、困難部分移出，大致抵銷）——但目前皆為粗估，待分群實做校正。

04資料前處理（frame 進臨時佇列前已篩過）

前處理＝三條腿；本稿把它當「frame 已篩好」的前提，但腿的組成決定下游能量到什麼。

① 模型取指定物件
→ precision 腿

＋

② 變動率
→ 活動腿

＋

③ 場域隨機取／排除已取
→ recall＋背景腿

▶

◆ 臨時人員快判佇列

yes / no / not_visible

▸ 方案 A = 三腿都有；方案 B = 只有 ①②。B 會少「純場域圖」與「模型漏標的物件」→ 採 A。　▸ 第③腿（隨機取）是唯一能量到漏報（false negative）的腿；①②都是「模型／動作已先篩」的偏誤樣本，當訓練料好、當基準分母會灌高分數。

✔ 對齊重點

偏好方案 A 的直覺正確。需注意：第②腿「變動率」本身也是一道 gate，會系統性漏掉低變動但真實存在的物件（站著不動的人、遠處小目標）——這是結構性盲區，不只是隨機取抽中與否的機率問題。對「人數估算」無影響，但對「基準可信度」有影響，列入 §08 待議。

05臨時人員工作定義

AI 前置跑完 → 逐張判 yes / no / nv → 按完成。這是存在性標記，與「模型誤報／正確」無關。

yes

該物件有

目標物存在且看得到。

該物件沒有

目標物不存在於畫面。

該物件看不到

被遮擋／模糊／出框，無法判定。

計量單位＝每個「鏡頭 × label」一格。一個鏡頭要標複數種 label（各 label 各自一格、各自一套 yes/no/nv）。每格的資料量：

每格(鏡頭×label)	張數	組成 / 用途
基礎訓練＋驗證（預設）	~1,500	訓練 600（yes/no/nv 各 200，平衡）＋驗證 ~900（按真實比例下分）
高驗證力	~3,500	信賴區間更緊（±1.7% vs 基礎 ±2.5%）；邊際遞減，只給少數關鍵 label／鏡頭

✔ 臨時人員只做標記

臨時人員只負責逐張判 yes/no/nv。每格的張數、yes/no/nv 採什麼比例、類別不平衡等屬蒐集端的事，不在本人力模型流程內（僅附註備查，見 §06 註）。本稿目的＝確認人員數量。

06單人吞吐＆人數估算

三個輸入定出吞吐：單筆耗時、有效工時、工作量。

假設有效工時 5.5 小時（＝19800 秒，已扣休息與疲勞的可產出時間）。單筆耗時暫訂 3–5 秒，最差 ≤10 秒：

單張耗時	每人每天可判	備註
3 秒	~6,600 張	樂觀
4 秒	~4,950 張	規劃基準
5 秒	~3,960 張	保守
10 秒	~1,980 張	最差，吞吐砍半

扣掉 gold 暗樁抽查＋疲勞，4 秒情境實務抓 ~4,500 張/人日。每格（鏡頭×label）基礎＝ 1,500 張。

✅ 規劃基準

1 格（鏡頭×label）≈ 0.33 人天（1,500 張 ÷ 4,500 張/人日，基礎）。每鏡頭再乘 label 數 L̄：PPE 情況很粗略約 2–2.5 label/鏡頭 → 1 鏡頭 ≈ 0.67–0.83 人天。

⚠️ 兩個最大槓桿：label 數 L̄ ＆單張耗時

L̄：總量直接 ×L̄，是主導變數（PPE 約 2–2.5，粗估，且為稀疏矩陣，嚴格要那張「鏡頭×label」表加總）。單張耗時：掉到最差 10 秒 → 吞吐砍半、人數加倍，務必試標實測釘死。
附註（不進主流程）：每格 yes/no/nv 的類別不平衡屬蒐集端的事，臨時人員只做標記；湊平衡訓練的稀有類成本由蒐集端承擔，此處僅備查。

07代入計算：基礎 1,500 vs 高驗證力 3,500

152 鏡頭、PPE 約 2–2.5 label/鏡頭，兩種每格張數並排，方便抉擇方向。

總張數＝ 152 鏡頭 × L̄ label × 每格張數　→　一輪人天＝總張數 ÷ 4,500 張/人日　基礎 1,500：L̄=2 → 45.6 萬 → ~101 人天　／　L̄=2.5 → 57.0 萬 → ~127 人天 　高力 3,500：L̄=2 → 106 萬 → ~236 人天　／　L̄=2.5 → 133 萬 → ~296 人天

A · 基礎 1,500/格（CI ±2.5%）— 落在「臨時一波」可行帶

時限	工作天	人數（L̄=2，~101 人天）	人數（L̄=2.5，~127 人天）
1 週	5	~21 人	~26 人
2 週	10	~11 人	~13 人
3 週	15	~7 人	~9 人
1 個月	22	~5 人	~6 人
2 個月	44	~3 人	~3 人

B · 高驗證力 3,500/格（CI ±1.7%）— 多數時限跨過「質疑範圍」門檻（>200 人天）

時限	工作天	人數（L̄=2，~236 人天）	人數（L̄=2.5，~296 人天）
1 週	5	~48 人	~60 人
2 週	10	~24 人	~30 人
3 週	15	~16 人	~20 人
1 個月	22	~11 人	~14 人
2 個月	44	~6 人	~7 人

註：以 4 秒/張為基準。單張耗時掉到最差 10 秒 → 兩表人數皆 ×~2.3。

✔ 抉擇判斷

高力比基礎多花 ~2.3 倍人力，只換到信賴區間從 ±2.5% 緊到 ±1.7%（0.8pp，邊際遞減）。建議：預設走 A 基礎 1,500；只對少數關鍵 label／鏡頭局部升到高力，而非全面 3,500。混合策略的人天落在兩表之間，依高力覆蓋比例內插。

⚠️ 三個修正項（這表是估算，不是定數）

① 困難標記走高級人力、不算臨時——但不是整廠扣除：困難廠商（興農）內部也有簡單任務歸臨時，要做廠商簡單/困難分群才知道真正歸臨時的量（預估平均變化不大，皆粗估）。② L̄ = 2–2.5 是 PPE 的很粗略估算——且為稀疏矩陣，正式要以「鏡頭×label」表加總取代平均。③ 一次性 vs 每月重跑：表為「一波清一輪」；定期重跑則人數從臨時一波變常駐編制。

輸入狀態	值 / 待補
總鏡頭數	已給＝ 152（ISMS 粗估、含高難場域）
每格張數	已給＝ 1,500（基礎）/ 3,500（高力）
每鏡頭 label 數 L̄	粗估＝ 2–2.5（PPE，很粗略）→ 正式要「鏡頭×label」矩陣加總
廠商標記簡單／困難分群	待補——含興農：困難廠商內部也拆簡單(臨時)/困難(高級)，定真正歸臨時的量（預估平均變化不大，皆粗估）
時限 / 清完週期	待補——一次性 or 每月重跑（一波 vs 常駐）
單張耗時（實測）	待補——試標釘死，取代 3–5 秒暫訂值；吞吐最敏感

08待議（本輪刻意不展開，避免發散）

這些不影響「人數算術」，但影響「算出來的基準能不能信」，留待後續會議。

⛔ 驗證標準是「規格問題」，不是「人力問題」

建好測試集 ≠ 有標準。標準＝凍結的代表性測試集＋ 判定規則書（rulebook） ＋目標指標／門檻。臨時人員快判邊界案例各判各的、又無 QC → 產出的是「自信的錯誤基準」，比沒有基準更糟（會把模型改進方向帶歪）。必備：判定指引＋ gold 暗樁＋高級人員一致性抽查。

⚠️ yes/no 只量得到誤報，量不到漏報

對「模型取的 frame」做 yes/no ＝ precision 訊號。但能量到漏報的只有第③隨機腿，而隨機腿是「在背景裡找模型沒抓到的物件」＝搜尋任務，恰恰不適合最便宜的臨時人員。建議：臨時人員只接「模型腿」的確認；隨機腿的找漏交高級人員或至少以 gold 暗樁壓著。

✔ 測試集要凍結、與訓練資料隔離

測試集須凍結、永不進訓練；補資料迴路只餵 train。現行 fp-sweeps → CVAT 是「驗證完一鍵回流重標」的訓練迴路，同一出口很容易讓測試圖洩進訓練集 → 基準失效。流程上要硬切兩條路。