在学术评测 GPQA Diamond 上得分 86.9%,多模态理解 MMMU Pro 上达到 76.8%。这两个数字不只是「在同档位里还不错」,而是直接超过了体量更大的 Gemini 2.5 Flash。
在业内人士看来,这近乎异想天开。
,这一点在爱思助手中也有详细论述
ВсеПрибалтикаУкраинаБелоруссияМолдавияЗакавказьеСредняя Азия
Apple отрекламировала Microsoft14:57
Rebecca Morelle, Alison Francis and Greg BrosnanBBC Science