08/05/2026 18:31
【AI】百度DuMate登頂PinchBench,成全球龍蝦執行爭霸賽冠軍
免責聲明
本內容由人工智能根據現有市場數據及新聞來源生成,僅供參考。其內容不代表《經濟通》之觀點或立場,亦不構成任何投資建議。鑒於AI生成資訊可能存在錯誤、遺漏或偏差,用戶應自行核實相關內容或諮詢專業意見後再作出投資決定。《經濟通》對因依賴本內容而導致之任何損失或損害概不負責。
▷ 百度DuMate登頂PinchBench及DeepResearchBench榜首
▷ PinchBench成績93.3%、93.2%,超越Anthropic及OpenAI
▷ 採用端雲協同架構,通過信通院兩項安全測評
▷ PinchBench成績93.3%、93.2%,超越Anthropic及OpenAI
▷ 採用端雲協同架構,通過信通院兩項安全測評
百度DuMate登頂智能體評測基準PinchBench榜首,並在前5位中佔據3席,超越Anthropic和OpenAI拿下全球龍蝦執行爭霸賽冠軍。在另外一項DeepResearch深度研究榜單中,DuMate同樣位列第一。
PinchBench是OpenClaw賽道最能體現Agent真實工作能力的評測基準,重點考察Agent在23個真實工作場景下147個任務的多步推理、工具調用和任務閉環能力,並從成功率、速度、成本三個維度綜合排名。榜單顯示,DuMate以93.3%和93.2%的總成績包攬前兩名。作為對照,Anthropic和OpenAI的同款模型場景下的成績分別為89.0%和91.6%。這意味著,同一模型在DuMate框架中,展現出更強的執行力。
超越原生表現的技術基礎,是DuMate的端雲協同Harness架構。該系統在任務到達時進行意圖識別和敏感度判斷,隱私相關操作留在本地執行,複雜推理任務上雲完成,無需用戶手動切換。同時,系統對每次執行所需的上下文做按需組裝--根據任務語義和用戶歷史行為,預判並注入必要的背景信息,減少冗餘干擾。Harness與Skills還基於歷史執行軌跡持續迭代,使得不同底層模型都能在接近其能力上限的狀態下穩定運行。
DeepResearch Bench是當前對深度研究型Agent最全面的評測基準,從洞察深度、內容準確性、可讀性等維度考察Agent處理複雜研究任務的綜合能力。DuMate以58.03的綜合分位列第一,支撐這一成績的是DuMate自研Skills體系中的Deep Search與Deep Research雙引擎--前者負責跨平台語義檢索與高價值信息定位,後者在此基礎上疊加多輪推理與因果分析,將碎片信息提煉為結構化研究成果。
自2026年3月上線以來,DuMate保持一日一版的更新節奏,已通過信通院兩項安全測評且均獲最高等級。
《經濟通通訊社8日專訊》
PinchBench是OpenClaw賽道最能體現Agent真實工作能力的評測基準,重點考察Agent在23個真實工作場景下147個任務的多步推理、工具調用和任務閉環能力,並從成功率、速度、成本三個維度綜合排名。榜單顯示,DuMate以93.3%和93.2%的總成績包攬前兩名。作為對照,Anthropic和OpenAI的同款模型場景下的成績分別為89.0%和91.6%。這意味著,同一模型在DuMate框架中,展現出更強的執行力。
超越原生表現的技術基礎,是DuMate的端雲協同Harness架構。該系統在任務到達時進行意圖識別和敏感度判斷,隱私相關操作留在本地執行,複雜推理任務上雲完成,無需用戶手動切換。同時,系統對每次執行所需的上下文做按需組裝--根據任務語義和用戶歷史行為,預判並注入必要的背景信息,減少冗餘干擾。Harness與Skills還基於歷史執行軌跡持續迭代,使得不同底層模型都能在接近其能力上限的狀態下穩定運行。
DeepResearch Bench是當前對深度研究型Agent最全面的評測基準,從洞察深度、內容準確性、可讀性等維度考察Agent處理複雜研究任務的綜合能力。DuMate以58.03的綜合分位列第一,支撐這一成績的是DuMate自研Skills體系中的Deep Search與Deep Research雙引擎--前者負責跨平台語義檢索與高價值信息定位,後者在此基礎上疊加多輪推理與因果分析,將碎片信息提煉為結構化研究成果。
自2026年3月上線以來,DuMate保持一日一版的更新節奏,已通過信通院兩項安全測評且均獲最高等級。
《經濟通通訊社8日專訊》
【香港好去處】2026去邊最好玩?etnet為你提供全港最齊盛事活動,所有資訊盡在掌握!► 即睇
-
上一篇
【新股上市】百度旗下崑崙芯擬港上市,據報目標估值至少1000億人幣 08/05/2026 18:48
-
下一篇
中海外(00688)合約物業銷售金額按年升20%,首四月升… 08/05/2026 18:19
-
保監局:就完善風險為本資本制度目標於今年12月31日起生效 08/05/2026 18:10
-
美團、攜程等平台承諾持續優化算法機制並保持透明度,包括展示價格變動原因等 08/05/2026 18:07
-
電能(00006)約13﹒2億元認購合營CK Willia… 08/05/2026 18:07
-
《行業數據》乘聯分會:4月乘用車市場零售量同比跌20%,新… 08/05/2026 17:51
-
【定期存款】中銀香港特選客3個月最高2.6厘,匯立銀行2年期2.8厘全城新高 08/05/2026 17:46
備註︰
即時報價更新時間為 08/05/2026 17:59
港股即時基本市場行情由香港交易所提供; 香港交易所指定免費發放即時基本市場行情的網站