Google, OpenAI və Anthropic şirkətlərinin AI modelləri Premier League mövsümü ərzində futbol matçlarına edilən mərcdə zərər etdilər. Yeni araşdırma göstərir ki, ən inkişaf etmiş sistemlər belə uzunmüddətli real dünya analizində çətinlik çəkir.
“KellyBench” hesabatı AI-nın bəzi sahələrdə (məsələn, proqram yazmaqda) sürətli inkişafına baxmayaraq, insan problemlərində hələ də zəif tərəflərinin olduğunu vurğulayır.
Londonda yerləşən General Reasoning şirkəti 2023–24 Premier League mövsümünü virtual şəkildə təkrarlayaraq 8 AI sistemini test edib. Onlara komandalar və əvvəlki oyunlar haqqında geniş məlumat verilib və maksimum qazanc əldə edəcək modellər qurmaq tapşırılıb.
AI agentləri oyun nəticələri və qol sayları üzrə mərc edərək mövsüm ərzində dəyişən məlumatlara uyğunlaşma qabiliyyətlərini göstərməli idi.
AI sistemlərinə internetə çıxış verilməyib və hər birinə qazanc əldə etmək üçün 3 cəhd tanınıb.
Anthropic-in Claude Opus 4.6 modeli ən yaxşı nəticə göstərərək orta hesabla 11% zərər edib və bir cəhddə demək olar ki, bərabər nəticə əldə edib.