為了把「測試/驗證集建置」與「訓練資料補充」的標記量撐起來,採分層人力:高級標記顧難場域,臨時人員做 AI 前置後的 yes / no / not_visible 快判。本稿聚焦臨時人員的工作定義與人數估算;周邊議題(基準偏誤、測試集隔離)先標為待議、不展開。
這是「標記產能與驗證基準」的規劃,不是模型演算法的調整。
用分層人力同時餵「測試集建置」與「訓練資料補充」兩條需求。
只談臨時人員的工作內容與頭數估算,其餘擱置避免發散。
AI 前置已跑完、快判介面已就緒——本稿在此前提上談人力配置。
測試集建置貴、模型成長卡——兩者透過「驗證標準」連在一起。
要取得「有效驗證」的成本高,整體標記負擔重。
需資料補充,但盲補成效遞減。
沒有基準就無法快速反應模型缺失方向,於是又繞回痛點①的建置問題。
難場域留給高級標記,簡單辨識釋放給臨時人員。
興農等複雜場域中困難的標記,需經驗判斷與完整標註(沿用既有 CVAT 流程)。把高級人力集中到這裡。
單一、明確的辨識:AI 前置跑完後做 yes / no / nv 快判。連興農廠內的簡單任務也歸這裡,卸載高級人力。
不是「興農整廠 → 高級」這麼粗。困難廠商內部也有簡單任務——簡單的切給臨時人員以減 loading,困難的才留高級。所以路由不是純按場域,要逐廠(甚至逐 label / 逐 frame)拆簡單 vs 困難。
估算影響:分群後落到臨時人員的 label 數,整體平均預期變化不大(興農的簡單部分加入、困難部分移出,大致抵銷)——但目前皆為粗估,待分群實做校正。
前處理=三條腿;本稿把它當「frame 已篩好」的前提,但腿的組成決定下游能量到什麼。
偏好方案 A 的直覺正確。需注意:第②腿「變動率」本身也是一道 gate,會系統性漏掉低變動但真實存在的物件(站著不動的人、遠處小目標)——這是結構性盲區,不只是隨機取抽中與否的機率問題。對「人數估算」無影響,但對「基準可信度」有影響,列入 §08 待議。
AI 前置跑完 → 逐張判 yes / no / nv → 按完成。這是存在性標記,與「模型誤報/正確」無關。
目標物存在且看得到。
目標物不存在於畫面。
被遮擋/模糊/出框,無法判定。
計量單位 = 每個「鏡頭 × label」一格。一個鏡頭要標複數種 label(各 label 各自一格、各自一套 yes/no/nv)。每格的資料量:
| 每格(鏡頭×label) | 張數 | 組成 / 用途 |
|---|---|---|
| 基礎訓練+驗證 (預設) | ~1,500 | 訓練 600(yes/no/nv 各 200,平衡)+ 驗證 ~900(按真實比例下分) |
| 高驗證力 | ~3,500 | 信賴區間更緊(±1.7% vs 基礎 ±2.5%);邊際遞減,只給少數關鍵 label/鏡頭 |
臨時人員只負責逐張判 yes/no/nv。每格的張數、yes/no/nv 採什麼比例、類別不平衡等屬蒐集端的事,不在本人力模型流程內(僅附註備查,見 §06 註)。本稿目的=確認人員數量。
三個輸入定出吞吐:單筆耗時、有效工時、工作量。
假設有效工時 5.5 小時(=19800 秒,已扣休息與疲勞的可產出時間)。單筆耗時 暫訂 3–5 秒,最差 ≤10 秒:
| 單張耗時 | 每人每天可判 | 備註 |
|---|---|---|
| 3 秒 | ~6,600 張 | 樂觀 |
| 4 秒 | ~4,950 張 | 規劃基準 |
| 5 秒 | ~3,960 張 | 保守 |
| 10 秒 | ~1,980 張 | 最差,吞吐砍半 |
扣掉 gold 暗樁抽查+疲勞,4 秒情境實務抓 ~4,500 張/人日。每格(鏡頭×label)基礎 = 1,500 張。
1 格(鏡頭×label)≈ 0.33 人天(1,500 張 ÷ 4,500 張/人日,基礎)。每鏡頭再乘 label 數 L̄:PPE 情況 很粗略 約 2–2.5 label/鏡頭 → 1 鏡頭 ≈ 0.67–0.83 人天。
L̄:總量直接 ×L̄,是主導變數(PPE 約 2–2.5,粗估,且為稀疏矩陣,嚴格要那張「鏡頭×label」表加總)。單張耗時:掉到最差 10 秒 → 吞吐砍半、人數加倍,務必試標實測釘死。
附註(不進主流程):每格 yes/no/nv 的類別不平衡屬蒐集端的事,臨時人員只做標記;湊平衡訓練的稀有類成本由蒐集端承擔,此處僅備查。
152 鏡頭、PPE 約 2–2.5 label/鏡頭,兩種每格張數並排,方便抉擇方向。
A · 基礎 1,500/格(CI ±2.5%)— 落在「臨時一波」可行帶
| 時限 | 工作天 | 人數(L̄=2,~101 人天) | 人數(L̄=2.5,~127 人天) |
|---|---|---|---|
| 1 週 | 5 | ~21 人 | ~26 人 |
| 2 週 | 10 | ~11 人 | ~13 人 |
| 3 週 | 15 | ~7 人 | ~9 人 |
| 1 個月 | 22 | ~5 人 | ~6 人 |
| 2 個月 | 44 | ~3 人 | ~3 人 |
B · 高驗證力 3,500/格(CI ±1.7%)— 多數時限跨過「質疑範圍」門檻(>200 人天)
| 時限 | 工作天 | 人數(L̄=2,~236 人天) | 人數(L̄=2.5,~296 人天) |
|---|---|---|---|
| 1 週 | 5 | ~48 人 | ~60 人 |
| 2 週 | 10 | ~24 人 | ~30 人 |
| 3 週 | 15 | ~16 人 | ~20 人 |
| 1 個月 | 22 | ~11 人 | ~14 人 |
| 2 個月 | 44 | ~6 人 | ~7 人 |
註:以 4 秒/張為基準。單張耗時掉到最差 10 秒 → 兩表人數皆 ×~2.3。
高力比基礎多花 ~2.3 倍人力,只換到信賴區間從 ±2.5% 緊到 ±1.7%(0.8pp,邊際遞減)。建議:預設走 A 基礎 1,500;只對少數關鍵 label/鏡頭局部升到高力,而非全面 3,500。混合策略的人天落在兩表之間,依高力覆蓋比例內插。
① 困難標記走高級人力、不算臨時——但不是整廠扣除:困難廠商(興農)內部也有簡單任務歸臨時,要做廠商簡單/困難分群才知道真正歸臨時的量(預估平均變化不大,皆粗估)。② L̄ = 2–2.5 是 PPE 的很粗略估算——且為稀疏矩陣,正式要以「鏡頭×label」表加總取代平均。③ 一次性 vs 每月重跑:表為「一波清一輪」;定期重跑則人數從臨時一波變常駐編制。
| 輸入狀態 | 值 / 待補 |
|---|---|
| 總鏡頭數 | 已給 = 152(ISMS 粗估、含高難場域) |
| 每格張數 | 已給 = 1,500(基礎)/ 3,500(高力) |
| 每鏡頭 label 數 L̄ | 粗估 = 2–2.5(PPE,很粗略)→ 正式要「鏡頭×label」矩陣加總 |
| 廠商標記簡單/困難分群 | 待補——含興農:困難廠商內部也拆簡單(臨時)/困難(高級),定真正歸臨時的量(預估平均變化不大,皆粗估) |
| 時限 / 清完週期 | 待補——一次性 or 每月重跑(一波 vs 常駐) |
| 單張耗時(實測) | 待補——試標釘死,取代 3–5 秒暫訂值;吞吐最敏感 |
這些不影響「人數算術」,但影響「算出來的基準能不能信」,留待後續會議。
建好測試集 ≠ 有標準。標準=凍結的代表性測試集 + 判定規則書(rulebook) + 目標指標/門檻。臨時人員快判邊界案例各判各的、又無 QC → 產出的是「自信的錯誤基準」,比沒有基準更糟(會把模型改進方向帶歪)。必備:判定指引 + gold 暗樁 + 高級人員一致性抽查。
對「模型取的 frame」做 yes/no = precision 訊號。但能量到漏報的只有第③隨機腿,而隨機腿是「在背景裡找模型沒抓到的物件」=搜尋任務,恰恰不適合最便宜的臨時人員。建議:臨時人員只接「模型腿」的確認;隨機腿的找漏交高級人員或至少以 gold 暗樁壓著。
測試集須凍結、永不進訓練;補資料迴路只餵 train。現行 fp-sweeps → CVAT 是「驗證完一鍵回流重標」的訓練迴路,同一出口很容易讓測試圖洩進訓練集 → 基準失效。流程上要硬切兩條路。