Фэй-Фэй Ли – крёстная мать глубокого обучения

Галерея славы Зарубежные ученые и инженеры

Шалыто А.А.

Фэй-Фэй Ли (Fei-Fei Li) – выдающаяся китайско‑американская учёная в области ИИ. Она одна из создателей систем компьютерного зрения и самых влиятельных людей в ИИ, и, в частности, в области глубокого обучения. За это её часто называют «крёстной матерью ИИ» по аналогии с лауреатами премии Тьюринга Джеффри Хинтоном, Яном Лекуном, Йошуа Бенжио, которых называют «крёстными отцами глубокого обучения».

Фэй-Фэй родилась 3 июля 1976 года в Пекине. Отец был инженером, а мать – учительницей. Когда Ли немного повзрослела, её семья переехала в Сычуань, где сильная академическая атмосфера средней школы позволила ей раскрыть способности в области физики. В 1992 году она с родителями оказалась в США. Никто в семье не говорил по-английски. В 1995 году Фэй-Фэй получила стипендию для обучения в Принстонском университете. В 1999 году получила диплом бакалавра по физике с отличием. У неё была возможность работы в финансовых гигантах, но она отправилась в Тибет изучать фармакологию и медицину.

В 2000 году она была принята в аспирантуру Калифорнийского технологического института. В 2005 году она становится PhD в области электротехники.

Ли начала свою преподавательскую деятельность в этом же году в Иллинойском университете на факультете компьютерных и электротехнических наук. Она также работала в рабочих группах по ИИ в Институте Бекмана при этом университете.

В 2007 году Фэй-Фэй Ли начала работать на факультете компьютерных наук Принстонского университета, сотрудничая с другими учёными в области компьютерных наук. Там она полностью посвятила себя проекту ImageNet, целью которого было собрать базу изображений с десятками тысяч категорий. Тогда этот проект выглядел невероятно смело. Многие скептически относились к нему, считая его практически невыполнимым, но у Фэй-Фэй Ли была безумная идея: скачать очень много изображений из Интернета и научить компьютер распознавать их.

Сбор изображений требовал огромных усилий и времени, а также поднимал вопросы по авторским правам. Ещё сложнее дело обстояло с маркировкой данных: ручная обработка такого объёма данных могла занять по оценкам специалистов многие годы и требовала огромных финансовых вложений.

К счастью, Фэй-Фэй получила нужную ей финансовую поддержку. К 2009 году команда из пяти человек под её руководством пришла к выводу, что собранная и аннотированная база данных из 3,2 миллиона изображений является достаточно полной для развития ИИ-приложений в области распознавания изображений. Они опубликовали эту базу данных и статью ImageNet: A Large-Scale Hierarchical Image Database (ImageNet: крупномасштабная иерархическая база данных изображений),

Эта база данных в то время была беспрецедентной по качеству и объёму. Ли сделала её общедоступной, что позволило исследователям всего мира использовать базу для обучения и проверки алгоритмов компьютерного зрения.

В 2009 году Фэй-Фэй Ли стала доцентом Стэнфордского университета, где продолжила углубленно изучать компьютерное зрение. Также под её руководством команда разработала алгоритм, который объединял сверточные и рекуррентные нейронные сети для обработки естественного языка. Это позволило компьютерам не только распознавать объекты, но и описывать целые сцены, что стало важным шагом для применения ИИ в понимании и интерпретации изображений.

В 2010 году Ли и её коллеги провели первое соревнование ImageNet Large Scale Visual Recognition Challenge (ILSVRC), в котором они предлагали другим исследователям как можно точнее классифицировать как можно большее число изображений из ImageNet с наименьшим числом ошибок, используя собственные алгоритмы. С каждым годом число ошибок в алгоритмах исследователей уменьшалось благодаря их обучению на наборе данных ImageNet. Со временем эта иерархическая база данных стала содержать почти 15 миллионов размеченных изображений, разделённых на 22 000 категорий. База ImageNet стал стандартным датасетом для обучения и оценки алгоритмов визуального распознавания. Она считается ключевой для разработки систем распознавания изображений с помощью ИИ. Её часто называют «глазами ИИ».

Указанные соревнования стали катализатором бума глубокого обучения. Именно на этих соревнованиях в 2012 году сеть AlexNet, созданная Алексом Крыжевским, Ильей Суцкевером и Джеффри Хинтоном, обученная на базе данных ImageNet, разгромила всех, в том числе и алгоритмы, созданные Фей-Фей Ли и её командой. Сеть AlexNet продемонстрировала преимущества свёрточных сетей для обработки изображений, что изменило всю индустрию. Это привело к началу практического применения «глубокого обучения» в мире и сделало такое обучение доминирующим подходом в компьютерном зрении. При этом отмечу, что сверточные сети были предложены задолго до этого Яном ЛеКуном.

Указанная сеть имела 60 млн параметров. Она обучалась шесть дней на двух топовых для того времени GPU (графических процессорах) типа GTX580S. Сегодня на GPU типа GB200 обучение этой сети заняло бы меньше пяти минут.

Сеть LeNet, созданная ЛеКуном, мало чем структурно отличалась от AlexNet. Прорыв обеспечили вычислительные мощности и объём данных для обучения. Как отмечено выше, эти данные были размеченными, так как у пикселей по сравнению со словами нет неявной разметки. Следующий прорыв был на текстах, для которых обучение можно было проводить без явной разметки.

В 2013 году Фэй-Фэй Ли назначили директором лаборатории ИИ в Стэнфорде. В 2015 году она выступила с докладом «How we teach computers to understand pictures», в котором рассказала о ранних шагах компьютерного зрения и роли ImageNet в его развитии.

В этом же году Фэй-Фэй Ли стала соавтором работы (Karpathy A., Johnson J., Li Fei-Fei Visualizing and Understanding Recurrent Networks. 2015), в которой было предложено как изображения описывать словами. При этом она подумала, что мечта всей ее жизни свершилась, но это оказалось не так. «Раньше я думала, что на решение одной из наших сверхзадач – автоматического создания связных историй по изображениям – уйдет лет сто, но Джаспер и Андрей блестяще справились с ней за короткий срок».

Во время творческого отпуска в Стэнфорде с 2017 по 2018 год она – главный специалист по ИИ (AI) и машинному обучению (ML) и вице-президент в облачном подразделении Google – Google Cloud. Работая там, она создала платформу Google Cloud AutoML, которая позволяла непрофессионалам обучать модели ИИ. Платформа быстро завоевала популярность: всего за несколько месяцев число пользователей превысило миллион. Таким образом, Фэй-Фэй помогла внедрить ИИ в повседневную жизнь.

В 2018 году Ли стала полным профессором в Стэнфорде. Там Фэй-Фэй Ли и её коллеги начали читать и читают по сей день популярный курс CS231n «Deep Learning for Computer Vision». Вот первая лекция про этому курсу, прочитанная ею: https://www.youtube.com/watch?v=2fq9wYslV0A.

Она активно продвигала и продвигает сейчас идеи этичного и ориентированного на человека ИИ. Фэй-Фэй считает, что ИИ должен служить людям, а не заменять их. Она отмечает, что «если ИИ отнимает у нас достоинство, значит, что-то идёт совсем не так».

Начать воплощать эти идеи ей удалось в 2019 году, когда она была назначена содиректором Института человеко-ориентированного искусственного интеллекта в Стэнфордском университете (The Stanford Institute for Human-Centered AI (HAI). Там под руководством Ли начали проводиться исследования в области «пространственного интеллекта» (Spatial Intelligence) с использованием датчиков для анализа окружающего мира. Она также стала содиректором Stanford Vision and Learning Lab.

В рамках этих исследований Фэй-Фэй стала инициатором создания стартапа World Labs, цель которого разработка алгоритмов указанной разновидности ИИ, которая способна понимать трёхмерный физический мир.

Эти алгоритмы смогут анализировать изображения и текст, создавать на их основе 3D-модели. Более того, она рассматривает не только 3D-модели, но и 4D-модели, так как в них также используется время.

Она считает, что модели должны, интерпретируя визуальную информацию, «рассуждать», как люди. При этом будут обрабатываться данные, полученные не только из текстов, но и, например, со смартфонов, находящихся в реальном мире. Исследователей из стартапа интересуют модели мира – реального и генерируемого.

Такой подход во многом связан с тем, что у Фэй-Фэй Ли базовая специальность физика, и поэтому она хочет построить модели ИИ, которые обучаются в физическом мире.

Сейчас Фэй-Фэй Ли считает, что «мы находимся эпицентре настоящего «кембрийского взрыва», ведь помимо текста мы умеем работать с изображениями, видео и аудио, и эта многомодальность открывает новые возможности при построении моделей и приложений».

У стартапа World Labs ещё три сооснователя: упоминавшийся выше Джастин Джонсон (Justin Jonson), Бен Милденхолл (Ben Mindenhall) и Кристоф Ласснер (Christoph Lassner). Упомянутый выше Джастин считает, что ему повезло, так как в их распоряжении есть мощные алгоритмы, большие вычислительные ресурсы и огромные данные.

Бен Милденхолл был приглашён в сооснователи, так как был известен в мире по статье: NeRF: Representing Scenes as Neural Radiance Fields for View Synthsis, опубликованной в 2020 году.

Описанные в статье нейронные поля излучения (Neural Radiance Fields – NeRF) представляют собой революционную технологию в области генеративного ИИ, предназначенную для синтеза фотореалистичных 3D-сцен из небольшой коллекции 2D-изображений. В отличие от традиционных методов 3D-моделирования, которые опираются на явные геометрические структуры, такие как полигоны, облака точек или сетки, NeRF используют нейронную сеть для создания «неявного» представления сцены. Такой подход позволяет модели генерировать новые точки обзора с исключительной точностью, фиксируя сложные визуальные явления, такие как переменное освещение, отражения и прозрачность, которые часто трудно воспроизвести с помощью традиционных методов.

Если в сегодняшних языковых моделях используются одномерные данные, то здесь идёт речь о применении данных трёхмерных! Язык по своей природе сгенерирован людьми. Его нет в физическом мире. С трёхмерным миром ситуация другая – он существует объективно, подчиняясь законам физики. Наша сетчатка получает 2D-сигналы, а мозг интерпретирует их, как проекцию трёхмерного мира. Однако моделирование 2D-проекций трёхмерного мира – не является оптимальным решением. Всё становится значительно естественнее, если в качестве основы сразу использовать 3D-представление. Сегодня создание виртуальных миров очень дорогое удовольствие, при предлагаемом в статье подходе всё в этом вопросе значительно упростится. Это очень важно для индустрии компьютерных игр.

Еще один сооснователь – Кристоф Ласснер – известен, как соавтор статьи Neural Lens Modeling, посвящённой созданию нейронной модели линзы NeuroLens, что очень важно для компьютерной графики.

Такая концентрация суперспециалистов из разных областей в одном стартапе большая редкость. Это позволило стартапу провестит два раунда финансирования, и к сентябрю 2024 года привлечь $230 млн, причём на втором раунде в него было инвестировано около $100 млн. Таким образом, всего за четыре месяца с момента запуска стоимость стартапа превысила $1 млрд.

В сентябре 2024 года в стартапе работало 20 человек, которые будут обучать базовые модели, называемые основателями стартапа «большими моделями мира» или «LWM».

В ноябре 2023 года была опубликована книга: Fei-Fei Li. The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI (Каким я вижу мир: любопытство, исследования и открытия на заре ИИ). Это автобиография, которая сочетает личную историю Ли – от иммиграции из Китая в США до пионерских работ в компьютерном зрении (включая создание ImageNet) – с размышлениями о развитии ИИ. Книга вошла в список лучших бизнес- и техно-книг 2023 года по версии Financial Times и получила положительные отзывы за доступное изложение истории ИИ без техно-жаргона.

Ли входила в совет директоров Twitter, консультировала администрацию США, а в 2023 году вошла в Научный консультативный совет ООН по ИИ.

Фэй-Фэй Ли считает, что ИИ – очень-очень мощная технология, сопоставимая с точками изменения, которые человечество переживало в истории своей цивилизации, будь то открытие огня, изобретение электричества или появление персональных компьютеров. У него та же масштабность и глубина.

В мае 2024 года Фэй-Фэй Ли сделала TED-доклад на тему «With Spatial Intelligence, AI Will Understand the Real World» (С пространственным интеллектом ИИ поймёт реальный мир). В нём она излагает эволюцию компьютерного зрения от ImageNet до пространственного интеллекта, показывая, как ИИ учится понимать 3D-мир для действий и взаимодействия с людьми.

Вклад Фэй-Фэй Ли в науку оценен в мире. Она получила мемориальную премию Кусаки в области физики (Принстонский университет, 1999), стипендию для новых американцев (частный фонд, 1999-2003), награду выдающимся выпускникам Калифорнийского технологического института (2020), вошла в 100 влиятельных персон мира в области AI по версии журнала Time (2023), получила премию Вудро Вильсона (Принстонский университет, 2024).

В 2025 году за создание базы данных изображений ImageNet, которая способствовала разработке алгоритмов компьютерного зрения, ей присудили премию королевы Елизаветы II в области инженерии за вклад в развитие ИИ наряду с ещё шестью известными в этой области учёными. Церемония награждения прошла в Сент-Джеймсском дворце в Лондоне под председательством короля Карла III. Четверо лауреатов – Джеффри Хинтон, Ян Лекун, Йошуа Бенжио и Джон Хопфилд получили награду за исследование нейронных сетей, которые имитируют работу человеческого мозга, а Дженсен Хуанг и Билл Далли из компании Nvidia получили её за достижения в разработке графических процессоров. Беседа со всеми лауреатами, кроме Хопфилда, приведена здесь: https://youtu.be/Ix-eu5aqYkQ.

В этом же году журнал Time назвал Фэй-Фэй Ли «Человеком года» среди «архитекторов ИИ» наряду с Марком Цукербергом, Илоном Маском, Сэмом Альтманом, Дженсеном Хуангом, гендиректором AMD Лизой Су, Демисом Хассабисом и главой Anthropic Дарио Амодеем. Интересно, что на обложке этого номера, оформленной наподобие известной фотографии «Обед на небоскребе», «архитекторы ИИ» сидят на стальной балке над пропастью, отделяющей их от Нью-Йорка.

Интервью с Фэй-Фэй Ли приведены по адресам: https://www.youtube.com/watch?v=fQGu016AlVo, https://www.youtube.com/watch?v=5UyDO5qNV7Q, https://www.youtube.com/watch?v=ru3_O_dM_9s, https://www.youtube.com/watch?v=E2yzX6Gch40. Дискуссия между Фэй-Фэй Ли и Эриком Шмидтом приведена здесь: https://www.youtube.com/watch?v=Q_9KNz7nnlA, а вот большое интервью с её участием: https://www.youtube.com/watch?v=EXXydJOpqpc.

Фэй-Фэй Ли умна, образована и активна, и может еще много добиться в жизни…

Об авторе: Анатолий Шалыто - докт. техн. наук, профессор, Университет ИТМО
Помещена в музей с разрешения автора. В статье сохранено авторское оформление текста. 16 апреля 2026