
Два года назад искусственный интеллект не мог сдать даже школьный уровень. Сегодня он набирает почти половину баллов на экзамене, который создан специально для PhD-учёных. А полная победа — вопрос месяцев.
Экзамен под громким названием «Последний экзамен человечества» (HLE) создали техногиганты, чтобы проверить: насколько умны их машины? В тесте — 2 500 тщательно отобранных вопросов примерно по сотне направлений: от ракетостроения до мифологии, от физиологии до лингвистики. Каждый вопрос требует уровня эксперта с докторской степенью — и даже близкий к 100% результат дал бы человеку титул «универсального гения».
От 3% до 45% за два года: фантастический рывок
Вспомните 2024 год. ChatGPT от OpenAI, тогдашняя гордость индустрии, провалился на экзамене с жалкими 3%. Конкуренты из Google и Anthropic показали не лучшие результаты. Исследователи вздохнули с облегчением: между ИИ и настоящими учёными — пропасть.
Но пропасть стремительно сужается. В прошлом месяце Google Gemini набрал 45.9% — взлетев с 18.8% всего за несколько месяцев после первой попытки. Anthropic с их системой Claude достиг 34.2% и ускоряется. По словам Кэлвина Чжана, руководителя исследований в Scale (компании, стоящей за экзаменом), полный балл уже на горизонте.
Что за экзамен и почему он особенный?
«Мы хотели создать планку на уровне лучших людей-экспертов, которую способны преодолеть лишь единицы на планете», — объясняет Чжан.
Тест создали исследователи из Scale и некоммерческого Центра Безопасности ИИ. Осенью 2024 года они обратились к экспертам из 50 стран — те прислали 70 000 вопросов на конкурс с призовым фондом в полмиллиона долларов.
Отбор был жёстким:
Сначала убрали всё, на что мог ответить существующий ИИ
Осталось 13 000 вопросов
Финальный отбор — 2 500 лучших
Многие вопросы до сих пор засекречены, чтобы системы не могли «подсмотреть» ответы в интернете.
Почему это важно для каждого из нас?
Представьте: если ИИ сдаст этот экзамен на 100%, нам придётся создавать тесты с вопросами, на которые не знает ответ ни один человек на Земле. Мы приблизимся к моменту, когда машина станет умнее всего человечества вместе взятого.
Это напоминает 1997 год, когда суперкомпьютер Deep Blue впервые обыграл чемпиона мира по шахматам Гарри Каспарова — вопреки прогнозам экспертов. С тех пор ИИ преодолел десятки «непреодолимых» барьеров. Тест MMLU 2020 года, охватывающий множество дисциплин, вообще перестали использовать — машины набирали на нём больше 90%.
Где человек ещё впереди?
Кейт Олшевска из Google DeepMind признаёт:
«Если бы это было единственной целью в жизни, мы достигли бы её очень быстро».
Но есть области, где людям пока нечего бояться. По словам Чжана, физические навыки — например, хирургия — а также способность к суждениям и креативности останутся козырями человека.
Итог: гонка между человеком и машиной выходит на финишную прямую. Вопрос уже не «сможет ли ИИ пройти экзамен?», а «что мы будем делать, когда это случится?»
* Каспаров Гарри Кимович, включен(на) в реестр иностранных агентов, Статья 2.1 Федерального закона от 28.12.2012 № 272-ФЗ «О мерах воздействия на лиц, причастных к нарушениям основополагающих прав и свобод человека, прав и свобод граждан Российской Федерации».