標記人力規劃 · 討論稿 v1

臨時人員怎麼補、補幾個

為了把「測試/驗證集建置」與「訓練資料補充」的標記量撐起來,採分層人力:高級標記顧難場域,臨時人員做 AI 前置後的 yes / no / not_visible 快判。本稿聚焦臨時人員的工作定義與人數估算;周邊議題(基準偏誤、測試集隔離)先標為待議、不展開。

來源:2026-06-16 討論 · 相關工具:fp-sweeps/fp-tool/lighting-preview · 供後續會議對齊「量、時限、人數」用

01一句話定位

這是「標記產能與驗證基準」的規劃,不是模型演算法的調整。

目標

把標記量撐起來

用分層人力同時餵「測試集建置」與「訓練資料補充」兩條需求。

本稿範圍

臨時人員 × 人數

只談臨時人員的工作內容與頭數估算,其餘擱置避免發散。

前提

工具完善

AI 前置已跑完、快判介面已就緒——本稿在此前提上談人力配置。

02現行兩個痛點

測試集建置貴、模型成長卡——兩者透過「驗證標準」連在一起。

痛點 ①

測試/驗證集建置繁重

要取得「有效驗證」的成本高,整體標記負擔重。

痛點 ②

模型表現上升有限

需資料補充,但盲補成效遞減。

連動

無驗證標準 → 看不到方向

沒有基準就無法快速反應模型缺失方向,於是又繞回痛點①的建置問題。

03解法骨架:分層人力

難場域留給高級標記,簡單辨識釋放給臨時人員。

第一層
高級標記 → 困難部分

興農等複雜場域中困難的標記,需經驗判斷與完整標註(沿用既有 CVAT 流程)。把高級人力集中到這裡。

第二層
臨時人員 → 簡單部分

單一、明確的辨識:AI 前置跑完後做 yes / no / nv 快判。連興農廠內的簡單任務也歸這裡,卸載高級人力。

⚠️ 廠商標記要做「簡單/困難分群」(含興農)

不是「興農整廠 → 高級」這麼粗。困難廠商內部也有簡單任務——簡單的切給臨時人員以減 loading,困難的才留高級。所以路由不是純按場域,要逐廠(甚至逐 label / 逐 frame)拆簡單 vs 困難
估算影響:分群後落到臨時人員的 label 數,整體平均預期變化不大(興農的簡單部分加入、困難部分移出,大致抵銷)——但目前皆為粗估,待分群實做校正。

04資料前處理(frame 進臨時佇列前已篩過)

前處理=三條腿;本稿把它當「frame 已篩好」的前提,但腿的組成決定下游能量到什麼。

① 模型取指定物件
→ precision 腿
② 變動率
→ 活動腿
③ 場域隨機取/排除已取
→ recall+背景腿
◆ 臨時人員快判佇列
yes / no / not_visible
方案 A = 三腿都有;方案 B = 只有 ①②。B 會少「純場域圖」與「模型漏標的物件」→ 採 A。 ▸ 第③腿(隨機取)是唯一能量到漏報(false negative)的腿;①②都是「模型/動作已先篩」的偏誤樣本,當訓練料好、當基準分母會灌高分數。
✔ 對齊重點

偏好方案 A 的直覺正確。需注意:第②腿「變動率」本身也是一道 gate,會系統性漏掉低變動但真實存在的物件(站著不動的人、遠處小目標)——這是結構性盲區,不只是隨機取抽中與否的機率問題。對「人數估算」無影響,但對「基準可信度」有影響,列入 §08 待議。

05臨時人員工作定義

AI 前置跑完 → 逐張判 yes / no / nv → 按完成。這是存在性標記,與「模型誤報/正確」無關。

yes

該物件有

目標物存在且看得到。

no

該物件沒有

目標物不存在於畫面。

nv

該物件看不到

被遮擋/模糊/出框,無法判定。

計量單位 = 每個「鏡頭 × label」一格。一個鏡頭要標複數種 label(各 label 各自一格、各自一套 yes/no/nv)。每格的資料量:

每格(鏡頭×label)張數組成 / 用途
基礎訓練+驗證 (預設)~1,500訓練 600(yes/no/nv 各 200,平衡)+ 驗證 ~900(按真實比例下分)
高驗證力~3,500信賴區間更緊(±1.7% vs 基礎 ±2.5%);邊際遞減,只給少數關鍵 label/鏡頭
✔ 臨時人員只做標記

臨時人員只負責逐張判 yes/no/nv。每格的張數、yes/no/nv 採什麼比例、類別不平衡等屬蒐集端的事,不在本人力模型流程內(僅附註備查,見 §06 註)。本稿目的=確認人員數量

06單人吞吐 & 人數估算

三個輸入定出吞吐:單筆耗時、有效工時、工作量。

假設有效工時 5.5 小時(=19800 秒,已扣休息與疲勞的可產出時間)。單筆耗時 暫訂 3–5 秒,最差 ≤10 秒

單張耗時每人每天可判備註
3 秒~6,600 張樂觀
4 秒~4,950 張規劃基準
5 秒~3,960 張保守
10 秒~1,980 張最差,吞吐砍半

扣掉 gold 暗樁抽查+疲勞,4 秒情境實務抓 ~4,500 張/人日。每格(鏡頭×label)基礎1,500 張

✅ 規劃基準

1 格(鏡頭×label)≈ 0.33 人天(1,500 張 ÷ 4,500 張/人日,基礎)。每鏡頭再乘 label 數 L̄:PPE 情況 很粗略2–2.5 label/鏡頭 → 1 鏡頭 ≈ 0.67–0.83 人天

⚠️ 兩個最大槓桿:label 數 L̄ & 單張耗時

:總量直接 ×L̄,是主導變數(PPE 約 2–2.5,粗估,且為稀疏矩陣,嚴格要那張「鏡頭×label」表加總)。單張耗時:掉到最差 10 秒 → 吞吐砍半、人數加倍,務必試標實測釘死。
附註(不進主流程):每格 yes/no/nv 的類別不平衡屬蒐集端的事,臨時人員只做標記;湊平衡訓練的稀有類成本由蒐集端承擔,此處僅備查。

07代入計算:基礎 1,500 vs 高驗證力 3,500

152 鏡頭、PPE 約 2–2.5 label/鏡頭,兩種每格張數並排,方便抉擇方向。

總張數 = 152 鏡頭 × L̄ label × 每格張數 → 一輪人天 = 總張數 ÷ 4,500 張/人日  基礎 1,500:L̄=2 → 45.6 萬 → ~101 人天 / L̄=2.5 → 57.0 萬 → ~127 人天  高力 3,500:L̄=2 → 106 萬 → ~236 人天 / L̄=2.5 → 133 萬 → ~296 人天

A · 基礎 1,500/格(CI ±2.5%)— 落在「臨時一波」可行帶

時限工作天人數(L̄=2,~101 人天)人數(L̄=2.5,~127 人天)
1 週5~21 人~26 人
2 週10~11 人~13 人
3 週15~7 人~9 人
1 個月22~5 人~6 人
2 個月44~3 人~3 人

B · 高驗證力 3,500/格(CI ±1.7%)— 多數時限跨過「質疑範圍」門檻(>200 人天)

時限工作天人數(L̄=2,~236 人天)人數(L̄=2.5,~296 人天)
1 週5~48 人~60 人
2 週10~24 人~30 人
3 週15~16 人~20 人
1 個月22~11 人~14 人
2 個月44~6 人~7 人

註:以 4 秒/張為基準。單張耗時掉到最差 10 秒 → 兩表人數皆 ×~2.3。

✔ 抉擇判斷

高力比基礎多花 ~2.3 倍人力,只換到信賴區間從 ±2.5% 緊到 ±1.7%(0.8pp,邊際遞減)。建議:預設走 A 基礎 1,500;只對少數關鍵 label/鏡頭局部升到高力,而非全面 3,500。混合策略的人天落在兩表之間,依高力覆蓋比例內插。

⚠️ 三個修正項(這表是估算,不是定數)

困難標記走高級人力、不算臨時——但不是整廠扣除:困難廠商(興農)內部也有簡單任務歸臨時,要做廠商簡單/困難分群才知道真正歸臨時的量(預估平均變化不大,皆粗估)。② L̄ = 2–2.5 是 PPE 的很粗略估算——且為稀疏矩陣,正式要以「鏡頭×label」表加總取代平均。③ 一次性 vs 每月重跑:表為「一波清一輪」;定期重跑則人數從臨時一波常駐編制

輸入狀態值 / 待補
總鏡頭數已給 = 152(ISMS 粗估、含高難場域)
每格張數已給 = 1,500(基礎)/ 3,500(高力)
每鏡頭 label 數 L̄粗估 = 2–2.5(PPE,很粗略)→ 正式要「鏡頭×label」矩陣加總
廠商標記簡單/困難分群待補——含興農:困難廠商內部也拆簡單(臨時)/困難(高級),定真正歸臨時的量(預估平均變化不大,皆粗估)
時限 / 清完週期待補——一次性 or 每月重跑(一波 vs 常駐)
單張耗時(實測)待補——試標釘死,取代 3–5 秒暫訂值;吞吐最敏感

08待議(本輪刻意不展開,避免發散)

這些不影響「人數算術」,但影響「算出來的基準能不能信」,留待後續會議。

⛔ 驗證標準是「規格問題」,不是「人力問題」

建好測試集 ≠ 有標準。標準=凍結的代表性測試集 + 判定規則書(rulebook) + 目標指標/門檻。臨時人員快判邊界案例各判各的、又無 QC → 產出的是「自信的錯誤基準」,比沒有基準更糟(會把模型改進方向帶歪)。必備:判定指引 + gold 暗樁 + 高級人員一致性抽查。

⚠️ yes/no 只量得到誤報,量不到漏報

對「模型取的 frame」做 yes/no = precision 訊號。但能量到漏報的只有第③隨機腿,而隨機腿是「在背景裡找模型沒抓到的物件」=搜尋任務,恰恰不適合最便宜的臨時人員。建議:臨時人員只接「模型腿」的確認;隨機腿的找漏交高級人員或至少以 gold 暗樁壓著。

✔ 測試集要凍結、與訓練資料隔離

測試集須凍結、永不進訓練;補資料迴路只餵 train。現行 fp-sweeps → CVAT 是「驗證完一鍵回流重標」的訓練迴路,同一出口很容易讓測試圖洩進訓練集 → 基準失效。流程上要硬切兩條路。