ASSERT 框架是什麼？有什麼用途？

ASSERT 是微軟推出的開源框架，全名為 Adaptive Spec-driven Scoring for Evaluation and Regression Testing。它能將自然語言撰寫的行為規範自動轉換為可執行的評估流程，自動產生測試場景、資料集、評估指標和計分卡，用於評測 AI 模型、應用或智慧代理的行為表現。

ASSERT 的評測準確度如何？

根據微軟的驗證研究，ASSERT 使用的 LLM 判定器與人工審核的一致率通常落在 80%–90%，而人工標註者之間的一致率約為 90%，顯示自動化評測已能捕捉大部分目標訊號，但在高度專業領域仍需人工輔助判斷。

ASSERT 適合哪些使用場景？

ASSERT 最適用於行為定義明確、約束清晰的場景，例如具備豐富工具描述、政策文件和邊界定義的 AI 應用。微軟強調它無法取代人工判斷與領域專家評審，應作為加速評估迭代的輔助工具。

微軟發布 ASSERT 開源框架：讓開發者更有效率地評測 AI 智慧代理與應用行為

微軟推出開源框架 ASSERT，可將自然語言撰寫的行為規範自動轉換為可執行的評估流程，涵蓋測試場景生成、資料集建立、評分卡輸出等四大階段，LLM 判定器與人工審核一致率達 80%–90%。

22 days ago

AI自動駕駛

軟體韌體更新

新品發表

電腦視覺

Highlights

微軟推出開源框架 ASSERT，可將自然語言行為規範自動轉換為四階段可執行評估流程

ASSERT 自動產生測試場景、資料集、評估指標和計分卡，支援單輪與多輪測試用例

驗證研究顯示 LLM 判定器與人工審核一致率達 80%–90%，人工標註者間一致率約 90%

相較傳統評估集，ASSERT 生成的測試集覆蓋範圍更廣，能暴露更多獨特失敗模式

微軟強調 ASSERT 無法取代人工判斷與領域專家評審，應作為加速評估迭代的輔助工具

微軟於 6 月 3 日宣布推出開源框架 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自適應規範驅動評分），目標是將以自然語言撰寫的行為規範，直接轉換為可執行的評估流程。

據介紹，ASSERT 能從產品需求、政策文件或系統提示等文本出發，自動產生測試場景、資料集、評估指標和計分卡，並針對目標模型、應用或智慧代理（Agent）執行測試。

該框架建立在一個核心前提之上：行為規範本身應當成為評估的核心輸入，而非僅僅作為背景參考。ASSERT 將整個流程系統化為四個階段：

規範細化：將廣泛的行為描述細化為明確的概念規範，進而轉換為可編輯的許可與不許可行為分類體系；
測試用例生成：基於開發者指定的維度（如任務類型、角色、工具可用性等）產生分層測試用例，涵蓋單輪提示、多輪場景，以及善意互動和對抗性探測；
軌跡記錄：對目標系統執行這些用例並記錄完整軌跡，包括工具呼叫、中間決策等；
評分輸出：對照行為分類和策略立場，對每條軌跡進行評分，輸出通過與否標籤、判斷理由、策略引用，以及作出該裁決的具體回合或動作。

驗證結果

為驗證 ASSERT 的有效性，微軟團隊進行了兩項覆蓋率研究和人工評審對比。

第一項覆蓋率研究顯示，相較於直接從意圖生成的評估集，ASSERT 在多項行為（如社會評分、拍馬屁行為、任務遵循、工具使用規範、不安全健康建議等）上產生的測試集覆蓋範圍更廣，能暴露出更多值得檢查的案例，區分強弱系統的能力更強，同時呈現出更多獨特的失敗模式。

第二項驗證透過對比 LLM 判定器與人工審核，顯示兩者一致率通常落在 80%–90%，而人工標註者之間的一致率約為 90%，表明 LLM 判定器能夠捕捉大部分目標訊號，但在策略細微差異或高度專業領域仍需謹慎看待。

適用場景與限制

微軟指出，ASSERT 最適用於行為定義明確、約束清晰的場景。豐富的工具、政策和邊界描述有助於產生更精確的測試用例。開發者不應將彙總評分視為最終結論，多數情況下，所蒐集的失敗案例和操作軌跡對改進系統和評估方法更有價值。

ASSERT 並不能取代人工判斷、遙測數據或領域專家評審，而應將其視為一種讓評估更快速、更明確且更容易迭代的輔助方式。

參考資料：

程式碼庫：GitHub - ASSERT
專案網站：aka.ms/ASSERT
範例：travel-planning agent

原文來源： 查看原文

微軟發布 ASSERT 開源框架：讓開發者更有效率地評測 AI 智慧代理與應用行為

Highlights

驗證結果

適用場景與限制

FAQ

Subscribe to our Low-Altitude Industry Newsletter

綠色岩石超滑！DJI Ronin RS 4 Mini 強力穩定器讓拍攝不失手

初次入門Vlog創作？DJI Neo 2輕巧151g、支援4K/60fps，全向避障讓新手也能安心飛

科技微型化趨勢：實驗室級技術如今濃縮進151克無人機