標記人力規劃 · 討論稿 v1

臨時人員怎麼補、補幾個

為了把「測試/驗證集建置」與「訓練資料補充」的標記量撐起來,採分層人力:高級標記顧難場域,臨時人員做 AI 前置後的 yes / no / not_visible 快判。本稿聚焦臨時人員的工作定義與人數估算;周邊議題(基準偏誤、測試集隔離)先標為待議、不展開。

來源:2026-06-16 討論 · 相關工具:fp-sweeps/fp-tool/lighting-preview · 供後續會議對齊「量、時限、人數」用

01一句話定位

這是「標記產能與驗證基準」的規劃,不是模型演算法的調整。

目標

把標記量撐起來

用分層人力同時餵「測試集建置」與「訓練資料補充」兩條需求。

本稿範圍

臨時人員 × 人數

只談臨時人員的工作內容與頭數估算,其餘擱置避免發散。

前提

工具完善

AI 前置已跑完、快判介面已就緒——本稿在此前提上談人力配置。

02現行兩個痛點

測試集建置貴、模型成長卡——兩者透過「驗證標準」連在一起。

痛點 ①

測試/驗證集建置繁重

要取得「有效驗證」的成本高,整體標記負擔重。

痛點 ②

模型表現上升有限

需資料補充,但盲補成效遞減。

連動

無驗證標準 → 看不到方向

沒有基準就無法快速反應模型缺失方向,於是又繞回痛點①的建置問題。

03解法骨架:分層人力

難場域留給高級標記,簡單辨識釋放給臨時人員。

第一層
高級標記 → 難場域

興農等高度複雜、困難的場域,需經驗判斷與完整標註(沿用既有 CVAT 流程)。把高級人力釋放、集中到這裡。

第二層
臨時人員 → 簡單辨識

單一、明確的辨識:AI 前置跑完後,人只做 yes / no / not_visible 快判。臨時補充人員即可勝任。

⚠️ 路由準則待定(標記,不在本輪展開)

「簡單→臨時、興農→高級」目前是按場域分。但難度常是逐 frame 的(遮擋、擁擠、曖昧光影)——簡單場域裡也會混進難 frame。較穩的是用 AI 信心/曖昧度做 frame 級路由。先記著,後續再定。

04資料前處理(frame 進臨時佇列前已篩過)

前處理=三條腿;本稿把它當「frame 已篩好」的前提,但腿的組成決定下游能量到什麼。

① 模型取指定物件
→ precision 腿
② 變動率
→ 活動腿
③ 場域隨機取/排除已取
→ recall+背景腿
◆ 臨時人員快判佇列
yes / no / not_visible
方案 A = 三腿都有;方案 B = 只有 ①②。B 會少「純場域圖」與「模型漏標的物件」→ 採 A。 ▸ 第③腿(隨機取)是唯一能量到漏報(false negative)的腿;①②都是「模型/動作已先篩」的偏誤樣本,當訓練料好、當基準分母會灌高分數。
✔ 對齊重點

偏好方案 A 的直覺正確。需注意:第②腿「變動率」本身也是一道 gate,會系統性漏掉低變動但真實存在的物件(站著不動的人、遠處小目標)——這是結構性盲區,不只是隨機取抽中與否的機率問題。對「人數估算」無影響,但對「基準可信度」有影響,列入 §08 待議。

05臨時人員工作定義

AI 前置跑完 → 逐張判 yes / no / not_visible → 按完成。

判定語意:yes = AI 的框/判斷正確;no = 錯;not_visible確定無法看到目標物。資料量級:單鏡頭 ≈ 1,000 張圖,內含約 3,500 個框(≈ 3.5 框/張,同一批資料的兩種粒度,不是相加)。

⚠️ 「判斷單位」未定 → 總量在 1,000 ~ 3,500 間飄(直接決定人數)

逐框確認 = 3,500 判斷/鏡頭(驗每個 AI 框對錯);逐圖確認 = 1,000 判斷/鏡頭(每張看一眼)。另有「整圖找漏」是對同批圖的第二趟掃描(找模型沒抓到的),若要做才額外疊加,否則不疊。本稿下面以逐框 3,500/鏡頭為主估。

要先釘的點現況為何影響人數
判斷單位逐框(3,500/鏡頭)or 逐圖(1,000/鏡頭)(待定)總工作量差 3.5 倍,人數直接跟著差
not_visible 判準「確定無法看到目標」= nv。遮擋/模糊是否併入此類(待定)判準越鬆,邊界爭議越多 → 拖慢單筆耗時
是否做整圖找漏確認框之外,是否再掃一趟找漏網物件(待定)要做=額外 +1,000 圖掃描/鏡頭,且更慢
gold 暗樁抽查是否混入已知答案的暗樁做品質稽核(待定)要做的話每人吞吐打折,需先決定才能估人數

06單人吞吐 & 人數估算

三個輸入定出吞吐:單筆耗時、有效工時、工作量。

假設有效工時 5.5 小時(=19800 秒,已扣休息與疲勞的可產出時間)。單筆耗時 暫訂 3–5 秒,最差 ≤10 秒

單筆耗時每人每天可判備註
3 秒~6,600 筆樂觀
4 秒~4,950 筆規劃基準
5 秒~3,960 筆保守
10 秒~1,980 筆最差,吞吐砍半

扣掉 gold 暗樁抽查+疲勞,4 秒情境實務抓 ~4,500 框/天。單鏡頭工作量 暫訂3,500 框(逐框)。

✅ 規劃基準

1 個臨時人員 ≈ 0.8 人天清 1 個鏡頭(3,500 框 ÷ 4,500 框/天,4 秒/框含輕量 QC)→ 約 1.2–1.3 鏡頭/人天(5 秒則≈1 鏡頭/人天)。

⚠️ 最大槓桿:單筆耗時

若耗時掉到最差 10 秒 → 吞吐砍半 → 變 ~1.8 人天/鏡頭,人數要加倍。所以單筆耗時務必在試標時實測釘死,別用暫訂值。此外,若加做整圖「找漏網物件」(搜尋任務,≠ 單框確認),那是每鏡頭額外 ~1,000 張掃描且更慢——會把人天往上推。

07代入計算:152 鏡頭

代入鏡頭總數 152,逐框 3,500/鏡頭,人數隨「時限」攤開。

工作量 = 152 鏡頭 × 3,500 框~53 萬框 → 一輪 ≈ ~120 人天(4 秒/框,~4,500 框/天) 人數 = ~120 人天 ÷ 時限內工作天數
時限工作天人數(4 秒基準)人數(最差 10 秒)
1 週5~24 人~54
2 週10~12 人~27
3 週15~8 人~18
1 個月22~5–6 人~12
2 個月44~3 人~6

註:一輪人天 4 秒≈118、5 秒≈134;表以 4 秒為基準欄。逐圖(1,000/鏡頭)情境總量降為 ~15 萬,人天約 1/3.5。

⚠️ 三個修正項(這表是上限,不是定數)

152 含高難場域(ISMS 粗估)——那些走高級標記、不算臨時人員,故表中為上限,要扣掉高難鏡頭數才收斂。② 判斷單位未定:逐框 3,500 vs 逐圖 1,000,差 3.5 倍。③ 一次性 vs 每月重跑:表為「一波清一輪」;定期重跑則人數從臨時一波常駐編制

輸入狀態值 / 待補
總鏡頭數已給 = 152(ISMS 粗估、含高難場域)
每鏡頭量已給 = 1,000 張 ≈ 3,500 框(暫訂,試標校正)
判斷單位(框 / 圖)待補——決定每鏡頭 3,500 還是 1,000,差 3.5 倍
簡單/高難鏡頭拆分待補——決定 152 中實際歸臨時人員的數量
時限 / 清完週期待補——一次性 or 每月重跑(一波 vs 常駐)
單筆耗時(實測)待補——試標釘死,取代 3–5 秒暫訂值;吞吐最敏感

08待議(本輪刻意不展開,避免發散)

這些不影響「人數算術」,但影響「算出來的基準能不能信」,留待後續會議。

⛔ 驗證標準是「規格問題」,不是「人力問題」

建好測試集 ≠ 有標準。標準=凍結的代表性測試集 + 判定規則書(rulebook) + 目標指標/門檻。臨時人員快判邊界案例各判各的、又無 QC → 產出的是「自信的錯誤基準」,比沒有基準更糟(會把模型改進方向帶歪)。必備:判定指引 + gold 暗樁 + 高級人員一致性抽查。

⚠️ yes/no 只量得到誤報,量不到漏報

對「模型取的 frame」做 yes/no = precision 訊號。但能量到漏報的只有第③隨機腿,而隨機腿是「在背景裡找模型沒抓到的物件」=搜尋任務,恰恰不適合最便宜的臨時人員。建議:臨時人員只接「模型腿」的確認;隨機腿的找漏交高級人員或至少以 gold 暗樁壓著。

✔ 測試集要凍結、與訓練資料隔離

測試集須凍結、永不進訓練;補資料迴路只餵 train。現行 fp-sweeps → CVAT 是「驗證完一鍵回流重標」的訓練迴路,同一出口很容易讓測試圖洩進訓練集 → 基準失效。流程上要硬切兩條路。