21/10/2025 09:21
【AI】美團LongCat團隊發布並開源VitaBench大模型評測基準
美團LongCat團隊20日正式發布當前高度貼近真實生活場景、面向複雜問題的大模型智能體評測基準--VitaBench(Versatile Interactive Tasks Benchmark),並已全面開源。
據官方介紹,VitaBench以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體,構建了包含66個工具的交互式評測環境,並進行了跨場景的綜合任務設計。例如,在旅遊規劃任務中,要求智能體通過思考、調用工具和用戶交互,完整執行從買好票到訂好餐廳的終端狀態。
《經濟通通訊社21日專訊》
據官方介紹,VitaBench以外賣點餐、餐廳就餐、旅遊出行三大高頻真實生活場景為典型載體,構建了包含66個工具的交互式評測環境,並進行了跨場景的綜合任務設計。例如,在旅遊規劃任務中,要求智能體通過思考、調用工具和用戶交互,完整執行從買好票到訂好餐廳的終端狀態。
《經濟通通訊社21日專訊》
【你點睇?】特朗普料本月中訪華並與習近平會面,你認為中美元首會面後,兩國關係會否改善?習特會是否有助穩定全球局勢? ► 立即投票
備註︰
即時報價更新時間為 05/05/2026 17:59
港股即時基本市場行情由香港交易所提供; 香港交易所指定免費發放即時基本市場行情的網站