GNT est le portail Hi-Tech français consacré aux nouvelles technologies (internet, logiciel, matériel, mobilité, entreprise) et au jeu vidéo PC et consoles.
基准测试本身也引发了讨论。Opus 4.5在去年11月达到63.3%,12月却跌到43.8%,波动之大让一些人质疑其可靠性。但支持者认为这正体现了真实场景的不确定性,每月使用全新问题正是避免数据污染的设计初衷。也有人指出,模型在Python上被过度训练,希望看到持续更新的多语言基准测试,比如Elixir或Rust。