為了把「測試/驗證集建置」與「訓練資料補充」的標記量撐起來,採分層人力:高級標記顧難場域,臨時人員做 AI 前置後的 yes / no / not_visible 快判。本稿聚焦臨時人員的工作定義與人數估算;周邊議題(基準偏誤、測試集隔離)先標為待議、不展開。
這是「標記產能與驗證基準」的規劃,不是模型演算法的調整。
用分層人力同時餵「測試集建置」與「訓練資料補充」兩條需求。
只談臨時人員的工作內容與頭數估算,其餘擱置避免發散。
AI 前置已跑完、快判介面已就緒——本稿在此前提上談人力配置。
測試集建置貴、模型成長卡——兩者透過「驗證標準」連在一起。
要取得「有效驗證」的成本高,整體標記負擔重。
需資料補充,但盲補成效遞減。
沒有基準就無法快速反應模型缺失方向,於是又繞回痛點①的建置問題。
難場域留給高級標記,簡單辨識釋放給臨時人員。
興農等高度複雜、困難的場域,需經驗判斷與完整標註(沿用既有 CVAT 流程)。把高級人力釋放、集中到這裡。
單一、明確的辨識:AI 前置跑完後,人只做 yes / no / not_visible 快判。臨時補充人員即可勝任。
「簡單→臨時、興農→高級」目前是按場域分。但難度常是逐 frame 的(遮擋、擁擠、曖昧光影)——簡單場域裡也會混進難 frame。較穩的是用 AI 信心/曖昧度做 frame 級路由。先記著,後續再定。
前處理=三條腿;本稿把它當「frame 已篩好」的前提,但腿的組成決定下游能量到什麼。
偏好方案 A 的直覺正確。需注意:第②腿「變動率」本身也是一道 gate,會系統性漏掉低變動但真實存在的物件(站著不動的人、遠處小目標)——這是結構性盲區,不只是隨機取抽中與否的機率問題。對「人數估算」無影響,但對「基準可信度」有影響,列入 §08 待議。
AI 前置跑完 → 逐張判 yes / no / not_visible → 按完成。
判定語意:yes = AI 的框/判斷正確;no = 錯;not_visible = 確定無法看到目標物。資料量級:單鏡頭 ≈ 1,000 張圖,內含約 3,500 個框(≈ 3.5 框/張,同一批資料的兩種粒度,不是相加)。
逐框確認 = 3,500 判斷/鏡頭(驗每個 AI 框對錯);逐圖確認 = 1,000 判斷/鏡頭(每張看一眼)。另有「整圖找漏」是對同批圖的第二趟掃描(找模型沒抓到的),若要做才額外疊加,否則不疊。本稿下面以逐框 3,500/鏡頭為主估。
| 要先釘的點 | 現況 | 為何影響人數 |
|---|---|---|
| 判斷單位 | 逐框(3,500/鏡頭)or 逐圖(1,000/鏡頭)(待定) | 總工作量差 3.5 倍,人數直接跟著差 |
| not_visible 判準 | 「確定無法看到目標」= nv。遮擋/模糊是否併入此類(待定) | 判準越鬆,邊界爭議越多 → 拖慢單筆耗時 |
| 是否做整圖找漏 | 確認框之外,是否再掃一趟找漏網物件(待定) | 要做=額外 +1,000 圖掃描/鏡頭,且更慢 |
| gold 暗樁抽查 | 是否混入已知答案的暗樁做品質稽核(待定) | 要做的話每人吞吐打折,需先決定才能估人數 |
三個輸入定出吞吐:單筆耗時、有效工時、工作量。
假設有效工時 5.5 小時(=19800 秒,已扣休息與疲勞的可產出時間)。單筆耗時 暫訂 3–5 秒,最差 ≤10 秒:
| 單筆耗時 | 每人每天可判 | 備註 |
|---|---|---|
| 3 秒 | ~6,600 筆 | 樂觀 |
| 4 秒 | ~4,950 筆 | 規劃基準 |
| 5 秒 | ~3,960 筆 | 保守 |
| 10 秒 | ~1,980 筆 | 最差,吞吐砍半 |
扣掉 gold 暗樁抽查+疲勞,4 秒情境實務抓 ~4,500 框/天。單鏡頭工作量 暫訂 = 3,500 框(逐框)。
1 個臨時人員 ≈ 0.8 人天清 1 個鏡頭(3,500 框 ÷ 4,500 框/天,4 秒/框含輕量 QC)→ 約 1.2–1.3 鏡頭/人天(5 秒則≈1 鏡頭/人天)。
若耗時掉到最差 10 秒 → 吞吐砍半 → 變 ~1.8 人天/鏡頭,人數要加倍。所以單筆耗時務必在試標時實測釘死,別用暫訂值。此外,若加做整圖「找漏網物件」(搜尋任務,≠ 單框確認),那是每鏡頭額外 ~1,000 張掃描且更慢——會把人天往上推。
代入鏡頭總數 152,逐框 3,500/鏡頭,人數隨「時限」攤開。
| 時限 | 工作天 | 人數(4 秒基準) | 人數(最差 10 秒) |
|---|---|---|---|
| 1 週 | 5 | ~24 人 | ~54 |
| 2 週 | 10 | ~12 人 | ~27 |
| 3 週 | 15 | ~8 人 | ~18 |
| 1 個月 | 22 | ~5–6 人 | ~12 |
| 2 個月 | 44 | ~3 人 | ~6 |
註:一輪人天 4 秒≈118、5 秒≈134;表以 4 秒為基準欄。逐圖(1,000/鏡頭)情境總量降為 ~15 萬,人天約 1/3.5。
① 152 含高難場域(ISMS 粗估)——那些走高級標記、不算臨時人員,故表中為上限,要扣掉高難鏡頭數才收斂。② 判斷單位未定:逐框 3,500 vs 逐圖 1,000,差 3.5 倍。③ 一次性 vs 每月重跑:表為「一波清一輪」;定期重跑則人數從臨時一波變常駐編制。
| 輸入狀態 | 值 / 待補 |
|---|---|
| 總鏡頭數 | 已給 = 152(ISMS 粗估、含高難場域) |
| 每鏡頭量 | 已給 = 1,000 張 ≈ 3,500 框(暫訂,試標校正) |
| 判斷單位(框 / 圖) | 待補——決定每鏡頭 3,500 還是 1,000,差 3.5 倍 |
| 簡單/高難鏡頭拆分 | 待補——決定 152 中實際歸臨時人員的數量 |
| 時限 / 清完週期 | 待補——一次性 or 每月重跑(一波 vs 常駐) |
| 單筆耗時(實測) | 待補——試標釘死,取代 3–5 秒暫訂值;吞吐最敏感 |
這些不影響「人數算術」,但影響「算出來的基準能不能信」,留待後續會議。
建好測試集 ≠ 有標準。標準=凍結的代表性測試集 + 判定規則書(rulebook) + 目標指標/門檻。臨時人員快判邊界案例各判各的、又無 QC → 產出的是「自信的錯誤基準」,比沒有基準更糟(會把模型改進方向帶歪)。必備:判定指引 + gold 暗樁 + 高級人員一致性抽查。
對「模型取的 frame」做 yes/no = precision 訊號。但能量到漏報的只有第③隨機腿,而隨機腿是「在背景裡找模型沒抓到的物件」=搜尋任務,恰恰不適合最便宜的臨時人員。建議:臨時人員只接「模型腿」的確認;隨機腿的找漏交高級人員或至少以 gold 暗樁壓著。
測試集須凍結、永不進訓練;補資料迴路只餵 train。現行 fp-sweeps → CVAT 是「驗證完一鍵回流重標」的訓練迴路,同一出口很容易讓測試圖洩進訓練集 → 基準失效。流程上要硬切兩條路。