標記人力規劃 · 討論稿 v1

臨時人員怎麼補、補幾個

為了把「測試／驗證集建置」與「訓練資料補充」的標記量撐起來，採分層人力：高級標記顧難場域，臨時人員做 AI 前置後的 yes / no / not_visible 快判。本稿聚焦臨時人員的工作定義與人數估算；周邊議題（基準偏誤、測試集隔離）先標為待議、不展開。

來源：2026-06-16 討論　·　相關工具：fp-sweeps／fp-tool／lighting-preview　·　供後續會議對齊「量、時限、人數」用

01一句話定位

這是「標記產能與驗證基準」的規劃，不是模型演算法的調整。

目標

把標記量撐起來

用分層人力同時餵「測試集建置」與「訓練資料補充」兩條需求。

本稿範圍

臨時人員 × 人數

只談臨時人員的工作內容與頭數估算，其餘擱置避免發散。

前提

工具完善

AI 前置已跑完、快判介面已就緒——本稿在此前提上談人力配置。

02現行兩個痛點

測試集建置貴、模型成長卡——兩者透過「驗證標準」連在一起。

痛點 ①

測試／驗證集建置繁重

要取得「有效驗證」的成本高，整體標記負擔重。

痛點 ②

模型表現上升有限

需資料補充，但盲補成效遞減。

連動

無驗證標準 → 看不到方向

沒有基準就無法快速反應模型缺失方向，於是又繞回痛點①的建置問題。

03解法骨架：分層人力

難場域留給高級標記，簡單辨識釋放給臨時人員。

第一層

高級標記 → 難場域

興農等高度複雜、困難的場域，需經驗判斷與完整標註（沿用既有 CVAT 流程）。把高級人力釋放、集中到這裡。

第二層

臨時人員 → 簡單辨識

單一、明確的辨識：AI 前置跑完後，人只做 yes / no / not_visible 快判。臨時補充人員即可勝任。

⚠️ 路由準則待定（標記，不在本輪展開）

「簡單→臨時、興農→高級」目前是按場域分。但難度常是逐 frame 的（遮擋、擁擠、曖昧光影）——簡單場域裡也會混進難 frame。較穩的是用 AI 信心／曖昧度做 frame 級路由。先記著，後續再定。

04資料前處理（frame 進臨時佇列前已篩過）

前處理＝三條腿；本稿把它當「frame 已篩好」的前提，但腿的組成決定下游能量到什麼。

① 模型取指定物件
→ precision 腿

＋

② 變動率
→ 活動腿

＋

③ 場域隨機取／排除已取
→ recall＋背景腿

▶

◆ 臨時人員快判佇列

yes / no / not_visible

▸ 方案 A = 三腿都有；方案 B = 只有 ①②。B 會少「純場域圖」與「模型漏標的物件」→ 採 A。　▸ 第③腿（隨機取）是唯一能量到漏報（false negative）的腿；①②都是「模型／動作已先篩」的偏誤樣本，當訓練料好、當基準分母會灌高分數。

✔ 對齊重點

偏好方案 A 的直覺正確。需注意：第②腿「變動率」本身也是一道 gate，會系統性漏掉低變動但真實存在的物件（站著不動的人、遠處小目標）——這是結構性盲區，不只是隨機取抽中與否的機率問題。對「人數估算」無影響，但對「基準可信度」有影響，列入 §08 待議。

05臨時人員工作定義

AI 前置跑完 → 逐張判 yes / no / not_visible → 按完成。

判定語意：yes ＝ AI 的框／判斷正確；no ＝錯；not_visible ＝ 確定無法看到目標物。資料量級：單鏡頭 ≈ 1,000 張圖，內含約 3,500 個框（≈ 3.5 框/張，同一批資料的兩種粒度，不是相加）。

⚠️ 「判斷單位」未定 → 總量在 1,000 ～ 3,500 間飄（直接決定人數）

逐框確認 ＝ 3,500 判斷/鏡頭（驗每個 AI 框對錯）；逐圖確認 ＝ 1,000 判斷/鏡頭（每張看一眼）。另有「整圖找漏」是對同批圖的第二趟掃描（找模型沒抓到的），若要做才額外疊加，否則不疊。本稿下面以逐框 3,500/鏡頭為主估。

要先釘的點	現況	為何影響人數
判斷單位	逐框（3,500/鏡頭）or 逐圖（1,000/鏡頭）（待定）	總工作量差 3.5 倍，人數直接跟著差
not_visible 判準	「確定無法看到目標」＝ nv。遮擋／模糊是否併入此類（待定）	判準越鬆，邊界爭議越多 → 拖慢單筆耗時
是否做整圖找漏	確認框之外，是否再掃一趟找漏網物件（待定）	要做＝額外 +1,000 圖掃描/鏡頭，且更慢
gold 暗樁抽查	是否混入已知答案的暗樁做品質稽核（待定）	要做的話每人吞吐打折，需先決定才能估人數

06單人吞吐＆人數估算

三個輸入定出吞吐：單筆耗時、有效工時、工作量。

假設有效工時 5.5 小時（＝19800 秒，已扣休息與疲勞的可產出時間）。單筆耗時暫訂 3–5 秒，最差 ≤10 秒：

單筆耗時	每人每天可判	備註
3 秒	~6,600 筆	樂觀
4 秒	~4,950 筆	規劃基準
5 秒	~3,960 筆	保守
10 秒	~1,980 筆	最差，吞吐砍半

扣掉 gold 暗樁抽查＋疲勞，4 秒情境實務抓 ~4,500 框/天。單鏡頭工作量暫訂＝ 3,500 框（逐框）。

✅ 規劃基準

1 個臨時人員 ≈ 0.8 人天清 1 個鏡頭（3,500 框 ÷ 4,500 框/天，4 秒/框含輕量 QC）→ 約 1.2–1.3 鏡頭/人天（5 秒則≈1 鏡頭/人天）。

⚠️ 最大槓桿：單筆耗時

若耗時掉到最差 10 秒 → 吞吐砍半 → 變 ~1.8 人天/鏡頭，人數要加倍。所以單筆耗時務必在試標時實測釘死，別用暫訂值。此外，若加做整圖「找漏網物件」（搜尋任務，≠ 單框確認），那是每鏡頭額外 ~1,000 張掃描且更慢——會把人天往上推。

07代入計算：152 鏡頭

代入鏡頭總數 152，逐框 3,500/鏡頭，人數隨「時限」攤開。

工作量＝ 152 鏡頭 × 3,500 框 ＝ ~53 萬框　→　一輪 ≈ ~120 人天（4 秒/框，~4,500 框/天）人數＝ ~120 人天 ÷ 時限內工作天數

時限	工作天	人數（4 秒基準）	人數（最差 10 秒）
1 週	5	~24 人	~54
2 週	10	~12 人	~27
3 週	15	~8 人	~18
1 個月	22	~5–6 人	~12
2 個月	44	~3 人	~6

註：一輪人天 4 秒≈118、5 秒≈134；表以 4 秒為基準欄。逐圖（1,000/鏡頭）情境總量降為 ~15 萬，人天約 1/3.5。

⚠️ 三個修正項（這表是上限，不是定數）

① 152 含高難場域（ISMS 粗估）——那些走高級標記、不算臨時人員，故表中為上限，要扣掉高難鏡頭數才收斂。② 判斷單位未定：逐框 3,500 vs 逐圖 1,000，差 3.5 倍。③ 一次性 vs 每月重跑：表為「一波清一輪」；定期重跑則人數從臨時一波變常駐編制。

輸入狀態	值 / 待補
總鏡頭數	已給＝ 152（ISMS 粗估、含高難場域）
每鏡頭量	已給＝ 1,000 張 ≈ 3,500 框（暫訂，試標校正）
判斷單位（框 / 圖）	待補——決定每鏡頭 3,500 還是 1,000，差 3.5 倍
簡單／高難鏡頭拆分	待補——決定 152 中實際歸臨時人員的數量
時限 / 清完週期	待補——一次性 or 每月重跑（一波 vs 常駐）
單筆耗時（實測）	待補——試標釘死，取代 3–5 秒暫訂值；吞吐最敏感

08待議（本輪刻意不展開，避免發散）

這些不影響「人數算術」，但影響「算出來的基準能不能信」，留待後續會議。

⛔ 驗證標準是「規格問題」，不是「人力問題」

建好測試集 ≠ 有標準。標準＝凍結的代表性測試集＋ 判定規則書（rulebook） ＋目標指標／門檻。臨時人員快判邊界案例各判各的、又無 QC → 產出的是「自信的錯誤基準」，比沒有基準更糟（會把模型改進方向帶歪）。必備：判定指引＋ gold 暗樁＋高級人員一致性抽查。

⚠️ yes/no 只量得到誤報，量不到漏報

對「模型取的 frame」做 yes/no ＝ precision 訊號。但能量到漏報的只有第③隨機腿，而隨機腿是「在背景裡找模型沒抓到的物件」＝搜尋任務，恰恰不適合最便宜的臨時人員。建議：臨時人員只接「模型腿」的確認；隨機腿的找漏交高級人員或至少以 gold 暗樁壓著。

✔ 測試集要凍結、與訓練資料隔離

測試集須凍結、永不進訓練；補資料迴路只餵 train。現行 fp-sweeps → CVAT 是「驗證完一鍵回流重標」的訓練迴路，同一出口很容易讓測試圖洩進訓練集 → 基準失效。流程上要硬切兩條路。