Илья Суцкевер
Шалыто А.А.
Илья Суцкевер – выдающийся специалист в области ИИ. Он родился в Горьком в 1986 г. Когда ему было пять лет семья переехала в Израиль, а когда исполнилось 16 лет – в Канаду. Илья поступил в Университет Торонто. В 2005 г. стал бакалавром математики и компьютерных наук, в 2007 г. – магистром, в 2012 г. – стал PhD (Sutskever I. Training Recurrent Neural Networks. PhD thesis, Univ. Toronto). Здесь список его публикаций: https://scholar.google.com/citations?user=x04W_mMAAAAJ&hl=en. На 11.08.2025 г. у него индекс Хирша – 99, а число цитирований – 675 793.
В 2003 г. на втором курсе Илья спросил у руководителя баквалариата по математике, есть ли в университете исследовательские проекты в области машинного обучения. Ему рекомендовали поговорить с Джеффри Хинтоном. Это знакомство стало для Ильи судьбоносным. Профессор рекомендовал ему прочесть несколько статей по машинному обучению и предложил работу в одном из проектов.
Суцкеверу нужно было улучшить алгоритм машинного обучения для визуализации данных (Stochastic Neighbor Embedding), который разработал Хинтон. Илья справился с этой задачей. Благодаря сотрудничеству с Хинтоном у него появилась возможность работать над одними из самых важных научных проблем нашего времени и развивать идеи, которые в то время были крайне недооценены большинством учёных, но оказались совершенно правильными.
Вот одна из их совместных работ того времени: Sutskever I., Hinton G. Learning Multilevel Distributed Representations for High-Dimensional Sequences / In Proceeding of the Eleventh International Conference on Artificial Intelligence and Statistics. 2007. pp. 544-551.
В 2010 г. Суцкевер стал единственным канадским лауреатом международной премии Google PhD Fellowship Program. В рамках определения номинантов на премию исследователи Google отбирали самых многообещающих молодых учёных в мире, которые занимаются инновационными исследованиями в области информационных технологий. Аспиранты получали ежегодную стипендию (в 2010 г. она составляла $25 тыс.) и другие меры поддержки.
В это время Илья работал над программой, которая после ввода символов (букв и цифр) могла точно предсказывать последующие символы. В обучающую выборку вошли 16 миллионов статей из «Википедии». Результаты этих исследований были опубликованы в 2011 г. в статье Sutskever I., Martens J., Hinton G. Generating Text with Recurrent Neural Networks / Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011, pp. 1017-1024. Предложенный подход был реализован на графических процессорах (GPU), которые Илья купил на свою аспирантскую стипендию. Подход работал удивительно хорошо. Он сейчас используется практически во всех чат-ботах. Отмечу, что мозг учится похожим образом: по данному кадру видео обычно можно предсказать следующий кадр. Так же дело обстоит и со звуками.
В 1999 г. корпорация Nvidia представила видеокарты GeForce, для которых через восемь лет (в 2007 г.) была разработана программно-аппаратная архитектура для обеспечения параллельных вычислений CUDA (Compute Unified Device Architecture). Это потребовало огромных вложений. У CUDA не только не было конкурентов, но и почти не было потребителей.
В 2009 г. исследовательская группа Хинтона использовала GPU для обучения нейронной сети распознаванию речи. Он был удивлён качеством результатов, которые представил на конференции в том же году. После этого он обратился в Nvidia. «Я отправил им письмо со словами: «Я только что рассказал многим исследователям машинного обучения, что они должны пойти и купить карты Nvidia. Не могли бы вы прислать мне одну карту бесплатно?» – рассказывал Хинтон. Они ответили отказом. Отказали и в университете.
Несмотря на это, Хинтон посоветовал своим ученикам использовать CUDA. В 2012 г. Алекс Крижевский и Илья Суцкевер купили две карты GeForce за свой счёт. Они использовали эти карты совместно, разработав систему, способную анализировать тысячи фотографий и обучать саму себя распознавать с высокой точностью такие объекты как цветы, собаки и автомобили. Тем самым ими было значительно улучшено компьютерное зрение. Крижевский обучал нейронную сеть для распознавания изображений, передавая ей миллионы изображений в неделю.
Крижевский и Суцкевер были поражены возможностями использованной платформы. Ранее в том же году исследователи из Google обучили нейронную сеть, которая распознавала видео с кошками. Им для этого потребовалось около шестнадцати тысяч центральных процессоров (CPU). Суцкевер и Крижевский добились результатов мирового уровня, используя всего две видеокарты NVIDEA. Это было похоже на чудо. Использование GPU позволило в 30 раз ускорить обработку информации по сравнению с обычными процессорами, что соответствует 10 годам прогресса в компьютерах!
Их глубокая свёрточная нейронная сеть, названная ими AlexNet, классифицировала по 1000 различным классам 1,3 миллиона изображений с высоким разрешением из обучающего набора LSVRC-2010 ImageNet. Нейронная сеть имела 500 тысяч нейронов и 60 миллионов параметров.
В то время лучшие алгоритмы ошибались при классификации изображения в 25% случаев. Глубокое обучение позволило снизить частоту ошибок чуть ли не в двое. В дальнейшем они достигли показателя, характерного для людей – трёх процентов. Это была первая работа, которая популяризировала в компьютерном зрении сверхточные нейронные сети, разработанные Яном Лекуном.
С их помощью решаются задачи сегментации, классификации, детектирования, обработки изображений. AlexNet положила начало революции в области ИИ. Эта технология стала интеллектуальной основой для создания ИИ, которую крупнейшие технологические компании в этой отрасли считают ключом к будущему развитию.
Основная публикация на эту тему: Krizhevsky A., Sutskever I., Hinton G. ImageNet Classification with Deep Convolutional Neural Networks / Proceeding of Advances in Neural Information Processing Systems 25 (NIPS 2012), pp. 1090-1098. Эта девятистраничная статья по цитируемости стала одной из самых важных работ в истории информатики – её на 11.08.2025 г. процитировали 182 084 раза!
После своего триумфа Хинтон, Суцкевер и Крижевский создали научно-исследовательский стартап DNNResearch (аббревиатура DNN происходит от словосочетания «Глубокие (Deep) Нейронные (Neural), Сети (Networks)». Здесь они продолжили заниматься разработками в области ИИ, связанными с распознаванием речи, компьютерным зрением и пониманием языка (Natural Language Understanding). В 2013 г. компанию купил Google. «Я думал, их интересует наша интеллектуальная собственность, а оказалось, что им были нужны мы», – рассказывает Хинтон. Илья Суцкевер оказался в Google Brain. Он работал над моделированием последовательностей, которые можно применять к речи, тексту и видео.
В 2014 г. была опубликована статья, посвящённая методу последовательного обучения в нейросетях: Sutskever I., Vinyals O., Le Q. Sequence to Sequence Learning with Neural Networks. 2014.
Модель Seq2seq, основанная на глубоком обучении, произвела революцию в машинном переводе. Она принимает на вход последовательность элементов и возвращает другую последовательность элементов. Это значит, что при переводе учитывается не только текущее слово, но и окружающие его слова – учитывается контекст. Эта работа послужила основой для серьёзного обновления Google Translate. До этого исследователи не верили, что нейронные сети смогут переводить текст, поэтому, когда они всё же смогли этого добиться, это стало для них большим сюрпризом. Если модель может преобразовывать одну последовательность слов в другую, то она может научиться не только переводить, но и отвечать на вопросы, генерировать текст и т. д. Эта модель стала основой того, что сейчас называется генеративным ИИ.
В конце 2015 г. Илон Маск и Сэм Альтман создали компанию OpenAI для общедоступных исследований в области ИИ. В качестве технического лидера мирового уровня они пригласили Суцкевера. Он стал сооснователем компании и главным научным сотрудником. Для того, чтобы его удержать Google предлагал любые условия, но Илья выбрал стартап, так как хотел приносить пользу всему человечеству, а не одной компании.
Через шесть лет (!) после появления указанной выше статьи Sutskever I., Martens J., Hinton G. 12.06.2017 г. появилась новая архитектура от восьми сотрудников Google для обучения нейронных сетей под названием «трансформер»: Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł., Polosukhin I. Attention is all you need. Она перевернула мир ИИ, так как преодолевала последовательный характер рекуррентных нейронных сетей за счёт использования механизма внимания. Статья об авторах «трансформера» на русском языке приведена здесь: https://habr.com/ru/articles/809531/.
Новая архитектура была описана в статье под тем же названием, которая была опубликована в материалах 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA. В ней говорится, что при использовании этой архитектуры можно обрабатывать огромные массивы данных, что, правда, требует таких же вычислительных мощностей. Эта архитектура была спроектирована под GPU и оказалась удивительно устойчивой – то, что используется в больших языковых моделях сегодня, не сильно отличается от того, что было предложено исходно. Она в течение длительного времени позволяла успешно проводить масштабирование языковых моделей.
В 2018 г. в OpenAI использовали «трансформер» от Google для создания первого «генеративного предварительно обученного трансформатора» (GPT). Эту работу возглавлял Суцкевер. Модели GPT учились на суперкомпьютерах Nvidia, поглощая огромные массивы текстов и обучаясь создавать человекоподобные взаимосвязи.
При Суцкевере OpenAI выпустил следующие большие языковой модели ChatGPT: ChatGPT-2 (2019 г.), ChatGPT-3 (2020 г.), ChatGPT-3.5 (ноябрь 2022 г.). Последняя из моделей умела с поразительной правдоподобностью «разговаривать» на естественном языке. За неделю она набрала миллион пользователей. Модель учитывала контекст разговора и одновременно дообучалась, взаимодействуя с пользователем – использовалось «обучение с подкреплением» (Reinforcement Learning). В результате модель могла решать так называемые задачи на рассуждение (Reasoning)»: отвечать на вопрос, используя то, что называется «здравым смыслом». Модель обучалась не только на пользовательских текстах, но и на изучении кодов программ, решений математических задач и текстов художественной литературы». Она может писать код, но время на написание требований к нему человеком, может превосходить время написания его человеком.
За несколько месяцев модель ChatGPT-3.5 смогла сдать экзамен на получение степени MBA в Уортонской школе бизнеса при Пенсильванском университете, экзамен на получение медицинской лицензии в США, несколько экзаменов на юридическом факультете Университета Миннесоты.
14.03.2023 г. компания официально представила ChatGPT-4 – очередную версию языковой модели с генеративным ИИ, а уже через две недели – первого февраля – число пользователей модели достигло 100 миллионов. «Если Вы позволите себе поверить, что искусственный нейрон похож на биологический, то Вы как будто обучаете мозг, который должен делать всё, что можем делать мы», – говорил Илья. Он в OpenAI участвовал также в разработке DALL- E – нейросети для генерации изображений на основе текстовых описаний. Это мультимодальная версия ChatGPT-3, работающая с разнородными типами данных.
Все рассмотренные модели имеют один недостаток: подбор наиболее вероятного ответа – вероятного, а не правильного или точного.
Всё это время Суцкевер пытался согласовать суперинтеллект и человеческие ценности. Этим он занимался четыре года, используя 20% вычислительных ресурсов компании.
Ещё в конце 2022 г. Суцкевер выразил обеспокоенность тем, что «Общий ИИ» (Artificial General Intelligence, AGI) будет относиться к людям так же, как люди относятся к животным – не спрашивая их мнение о совершаемых нами поступках.
В июле 2023 г. Илья возглавил отдел Superalignment в OpenAI, задачей которого было обеспечить безопасность и управляемость ИИ, превосходящего человека. В результате он осознал, что ИИ может развиваться до уровня AGI, который будет превосходить человеческие возможности и может быть опасен, если он не «согласован» с человеческими ценностями.
К осени 2023 г. между Альтманом и Суцкевером возник конфликт. Илья считал, что компания движется слишком быстро, игнорируя риски, а Сэм хотел быстро использовать открывшееся окно возможностей. 17.11.2023 г. Совет директоров, где Суцкевер был ключевой фигурой, уволил Альтмана, за которого заступилось 700 из 770 сотрудников компании, и через пять дней Сэм вернулся.
Конфликт закончился тем, что 15.05.2024 г. Суцкевер ушёл. При этом он считал, что через какое-то время из-за отсутствия новых данных в Интернете предобучение закончится. Придётся перейти к синтетическим данным, но это только несколько улучшит значения метрик, не обеспечив нового качества, в отличие от того, как это было раньше. Похоже, это и произошло при выпуске в июле 2025 г. ChatGPT-5.
После этого Илья решил создавать новую модель масштабирования ИИ на основе трёх принципов: 1. Использование агентов, которые не просто отвечают на вопросы, а будут обладать собственными целями, инициативой, стремлением узнать что-то новое, проводя эксперименты. 2. Модель генерирует собственные обучающие примеры, обновляя представление о мире, так, как это делают учёные. 3. Непредсказуемость как признак суперинтеллекта, так как никто не может предсказать, что создаст гений.
Для реализации этих принципов нужна новая архитектура, которая масштабируется лучше, чем при использовании трансформеров. При этом ожидается переход от статистического ИИ к когнитивному.
19.06.2024 г. Илья объявил о запуске нового стартапа – Safe Superintelligence (SSI). Он подчеркнул, что первым его продуктом станет безопасный суперинтеллект, который уже на базовом уровне не сможет причинить масштабный вред человечеству. Суцкевер заявил, что его проект «будет полностью изолирован от внешнего давления, связанного с необходимостью иметь дело с большим и сложным продуктом и необходимостью погрязнуть в конкурентной борьбе».
В сентябре 2024 г. стартап привлёк один миллиард долларов инвестиций при оценке компании в пять миллиардов. В апреле 2025 г. он привлёк ещё два миллиарда долларов инвестиций при оценке компании в 32 миллиарда, и это при том, что в ней работает всего 50 человек, и у неё даже нет прототипа, а первые результаты он собирается получить не ранее 2027 г., что является вечностью в мире ИИ сегодня. При этом отмечу, что в июле 2025 г. оценка компании Open IA в тысячу человек – $500 млрд, так как у неё 700 млн активных пользователей в неделю. Это вдвое превышает оценку на начало 2024 г.
В новой архитектуре Суцкевер предполагает применять не GPU от Nvidea, а специальные тензорные процессоры от Google. Он, в своё время работая в Google Brain, разрабатывал платформу TensorFlow – сравнительно простой инструмент, который позволяет обучать нейросети.
Илья считает, что суперинтеллект может стать последним изобретением человечества, так как после этого изобретать в основном будет ИИ.
Об авторе: Анатолий Шалыто - докт. техн. наук, профессор, Университет ИТМО
Помещена в музей с разрешения автора
15 сентября 2025