微軟發布 ASSERT 開源框架:讓開發者更有效率地評測 AI 智慧代理與應用行為
微軟推出開源框架 ASSERT,可將自然語言撰寫的行為規範自動轉換為可執行的評估流程,涵蓋測試場景生成、資料集建立、評分卡輸出等四大階段,LLM 判定器與人工審核一致率達 80%–90%。

Highlights
- 微軟推出開源框架 ASSERT,可將自然語言行為規範自動轉換為四階段可執行評估流程
- ASSERT 自動產生測試場景、資料集、評估指標和計分卡,支援單輪與多輪測試用例
- 驗證研究顯示 LLM 判定器與人工審核一致率達 80%–90%,人工標註者間一致率約 90%
- 相較傳統評估集,ASSERT 生成的測試集覆蓋範圍更廣,能暴露更多獨特失敗模式
- 微軟強調 ASSERT 無法取代人工判斷與領域專家評審,應作為加速評估迭代的輔助工具
微軟於 6 月 3 日宣布推出開源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自適應規範驅動評分),目標是將以自然語言撰寫的行為規範,直接轉換為可執行的評估流程。
據介紹,ASSERT 能從產品需求、政策文件或系統提示等文本出發,自動產生測試場景、資料集、評估指標和計分卡,並針對目標模型、應用或智慧代理(Agent)執行測試。
該框架建立在一個核心前提之上:行為規範本身應當成為評估的核心輸入,而非僅僅作為背景參考。ASSERT 將整個流程系統化為四個階段:
- 規範細化:將廣泛的行為描述細化為明確的概念規範,進而轉換為可編輯的許可與不許可行為分類體系;
- 測試用例生成:基於開發者指定的維度(如任務類型、角色、工具可用性等)產生分層測試用例,涵蓋單輪提示、多輪場景,以及善意互動和對抗性探測;
- 軌跡記錄:對目標系統執行這些用例並記錄完整軌跡,包括工具呼叫、中間決策等;
- 評分輸出:對照行為分類和策略立場,對每條軌跡進行評分,輸出通過與否標籤、判斷理由、策略引用,以及作出該裁決的具體回合或動作。
驗證結果
為驗證 ASSERT 的有效性,微軟團隊進行了兩項覆蓋率研究和人工評審對比。
第一項覆蓋率研究顯示,相較於直接從意圖生成的評估集,ASSERT 在多項行為(如社會評分、拍馬屁行為、任務遵循、工具使用規範、不安全健康建議等)上產生的測試集覆蓋範圍更廣,能暴露出更多值得檢查的案例,區分強弱系統的能力更強,同時呈現出更多獨特的失敗模式。
第二項驗證透過對比 LLM 判定器與人工審核,顯示兩者一致率通常落在 80%–90%,而人工標註者之間的一致率約為 90%,表明 LLM 判定器能夠捕捉大部分目標訊號,但在策略細微差異或高度專業領域仍需謹慎看待。
適用場景與限制
微軟指出,ASSERT 最適用於行為定義明確、約束清晰的場景。豐富的工具、政策和邊界描述有助於產生更精確的測試用例。開發者不應將彙總評分視為最終結論,多數情況下,所蒐集的失敗案例和操作軌跡對改進系統和評估方法更有價值。
ASSERT 並不能取代人工判斷、遙測數據或領域專家評審,而應將其視為一種讓評估更快速、更明確且更容易迭代的輔助方式。
參考資料:
- 程式碼庫:GitHub - ASSERT
- 專案網站:aka.ms/ASSERT
- 範例:travel-planning agent
原文來源: 查看原文
FAQ
Newsletter
Subscribe to our Low-Altitude Industry Newsletter
Daily curated news on low-altitude economy and drone industry, delivered to your inbox.

