Тридцатый Диалог — успешный проект длительностью в 35 лет
Документы и публикации

Тридцатый Диалог — успешный проект длительностью в 35 лет

«Диалог» сегодня – крупнейшая и старейшая в стране ежегодная международная конференция по компьютерной лингвистике. «Диалог» вырос из одноимённого семинара, который проводился в СССР ещё с середины 70-х годов. В ранге международной конференции проводится с 2002 года. Таким образом, если вести отсчёт от проведения самого первого семинара, конференция 2009 года стала тридцатой. Поскольку уникальный путь «Диалога» превратил его в имя нарицательное, это позволяет мне опускать далее при упоминании его кавычки.

Замечательны не только статус сегодняшнего Диалога, но и его история, преодолевшая несколько пережитых страной эпох. Стоит вспомнить, что для получения официального статуса семинара в то время необходимо было каждый раз попасть в академический либо отраслевой план, который начинал формироваться года за два до события и требовал столько усилий и такого официального «веса» организаторов, что для актива Диалога они были совершенно недостижимы. Поэтому все Диалоги советского периода с 75 до 89 года – это чистой воды самоорганизация, эффективность которой просто невозможно понять и оценить сегодня, в эпоху ксероксов, Интернета и мобильной связи.

Первые Диалоги

Можно сказать, что рождение Диалога обеспечило сочетание трёх основных факторов. Одним из них было наличие в стране несколько десятков высокопрофессиональных научных коллективов, работавших либо в области компьютерной лингвистики, либо в тематике искусственного интеллекта, либо и в той и другой сфере одновременно. Ключевыми слагаемыми здесь были Советская ассоциация искусственного интеллекта во главе с Г.С. Поспеловым и Д.А. Поспеловым, лингвистическая школа И. МельчукаЮ. Апресяна, МГУ, представленный как коллективом ОТиПЛ (А.Е. Кибрик), так и Вычислительной лабораторией (В.М. Андрющенко). Активную роль в Диалогах играли и коллективы из Ленинграда, Казани, Киева, Тбилиси, Ташкента и всех трёх республик Балтии, о некоторых из которых особо будет сказано ниже.

Вторым фактором было наличие достаточно активного контакта между этими командами и своего рода общий «драйв» – острая потребность в хотя бы ежегодном прямом взаимодействии, которое ощущалось всеми как необходимое, несмотря на достаточно глубокие расхождения в теории и методологии. С образованием Диалога началось формирование общего «тематического поля», позволявшего как минимум уточнить различия в подходах, но часто служившим базой налаживания рамок прямого сотрудничества между участниками.

И, наконец, роль третьего основного фактора сыграло с самого начала активное участие в организации Диалогов наших эстонских коллег и друзей из Тартуского университета (группа Халдура Ыйма) и Таллиннского Института кибернетики Эстонской АН (лаборатория ИИ Энна Тыугу). Десять из первых пятнадцати Диалогов прошли именно в Эстонии, в основном на различных спортивных базах – Вильянде, Отепя, Кяэрику, Сангасте, Янеда. И именно этот фактор обеспечивал с одной стороны полную свободу организации программы, а с другой – доступную всем дешевизну, несравнимую с сегодняшними ценами гостиниц и домов отдыха.

Программа каждого Диалога была предельно насыщенной, но при этом хватало времени и на дискуссии, песни, танцы, лыжи (Диалоги проводились в основном в феврале, одновременно со студенческими каникулами). Обстановка всегда была веселой, – юмор бил ключом и в тостах, и в самых разных шутливых посвящениях: многие Диалоги заканчивались целыми поэмами. Атмосфере Диалогов придавалось очень большое значение, и она всегда была уникальной, тем более, что в нее вносили каждый раз что-нибудь свое наши эстонские коллеги: экскурсии, концерты, а то и большую бочку пива.

Модели Общения

Творческий котел, которым стал Диалог, сохранял позиции на самом переднем крае компьютерной лингвистики в её связи с близкими разделами искусственного интеллекта. При этом ограниченность исходной центральной тематики обработки текста становилась все более заметной на фоне мировой тенденции рассмотрения языка в контексте процессов коммуникации. В программу семинара все шире входили речевой акт, структура диалога и прагматика общения, что существенно раздвинуло рамки «чистой» компьютерной лингвистики.

В результате, десятый семинар, прошедший 23 – 28 апреля 1984 года в Таллине, получил название «Модели общения», которое сохранялось до конца советского периода Диалогов. Программа семинаров становилась все полнее, и спектр включаемых в неё тем быстро расширялся. Максимума он достиг к 1988 году в состоявшемся 21-27 мая в Паланге, Литва, семинаре Модели Общения – 88, организованного нами совместно с Каунасским Политехническим институтом. Здесь приняло участи уже несколько сот специалистов со всей территории СССР, причем программа охватывала не только традиционное ядро тематики Диалога, но и самые различные проекции практики и теории общения: психологии, социологии, когнитивных наук, антропологии, педагогики и т. п., вплоть до административных систем управления, театра, коммуникативных аспектов архитектуры и сексологии. Это была вершина Диалога, превратившегося тогда в ключевую встречу, обсуждавшую как наиболее актуальные вопросы проблематики Моделей Общения, так и тревожные события, уже происходившие в то время на Кавказе и Средней Азии.

Но процесс распада страны развивался и следующий – последний советский – семинар состоялся в 1989 году в Подмосковье уже в достаточно урезанном составе.

Технология организации

Тут стоит хотя бы кратко вспомнить, как удавалось каждый год подготавливать и проводить неофициальный семинар такого масштаба в условиях отсутствия тех самых совершенно необходимых сегодня инструментов как ПК, лазерный принтер, ксерокс, проектор, интернет и мобильная связь.

Прежде всего, мы с самого начала придали Диалогу псевдоофициальную форму «Межинститутского проекта ДИАЛОГ». Был создан виртуальный Рабочий совет, председателем которого стал мой шеф – академик (тогда ещё член-корр.) А.П. Ершов. Понятно, что Андрей Петрович прямо в подготовке Диалогов не участвовал, но конечно, «был в курсе» и часто подписывал в качестве Председателя необходимые письма, игравшие в процессе организации деятельности Диалога достаточно важную роль. Конечно у «проекта ДИАЛОГ» был бланк, на котором в необходимых случаях и отправлялись директорам организаций, к которым принадлежали участники, официальные приглашения за его подписью.

В дальнейшем, когда Диалог стал привычной реальностью, я, как секретарь Рабочего Совета, основную часть писем посылал от своего имени, приняв на себя функции председателя Программного комитета. Далее участники выписывали командировку, что в ту эпоху было делом не слишком дорогим при суточных в два рубля 60 копеек и низких ценах на ж\д билеты до Тарту или Таллина.

Неофициальный статус Диалогов не позволял публиковать сборники трудов, но этот пробел удалось частично компенсировать. Существенную роль в становлении Диалога сыграли сборники серии «Взаимодействие на естественном языке», которые почти сразу же параллельно с Диалогом начали публиковаться у нас в ВЦ Сибирского отделения АН СССР. Поскольку с самого начала 1980-х годов в государственные программы научного сотрудничества с Францией, Чехословакией и ГДР были включены темы по компьютерной лингвистике, эти сборники стали международными, что также работало на статус и энергетику Диалогов.

Связь между «центром» в Новосибирском Академгородке и «местами» – т. е. Москвой, Тарту, Ленинградом, Киевом и другими городами вплоть до Владивостока – осуществлялась в основном почтой (не стоит забывать, что письма тогда шли всего два-три дня), а в необходимых случаях по межгороду. В Москве был свой оперативный центр, возглавляемый Наташей Лауфер (тогда МГУ), которая держала под контролем подготовку в столице, а часто и в других городах. Поскольку почти все хорошо знали друг друга, то рецензии требовались только в редких случаях, однако тексты докладов по возможности присылались заранее, и это обеспечивало необходимую обратную связь в подготовке программы.

Издание международных сборников тиражом в 500 экземпляров тоже было делом непростым и возможным только в условиях либеральных порядков Академгородка и нашего ВЦ СО АН. Если собрать и отредактировать их было не так уж сложно, то подготовка к печати требовала достаточного искусства. Стоит вспомнить, что тогда даже на Западе труды конференций выходили не через типографию: автор присылал свой доклад напечатанным в формате как мог, а организаторы собирали том и тиражировали его на местном большом ксероксе. У нас же тогда, понятно, не было ни ксероксов, ни приличной бумаги, так что обходились, чем могли. Основной проблемой была подготовка макета. Использование для этого обычной машинки и вставка формул от руки красоты международному изданию не добавляли. Однако довольно скоро нам повезло – у нас появилось чудо техники в виде машинки IBM с разными шрифтами на сменяемых шариках (подразумевается печатающая шариковая головка – прим. Э.П.). Шарики, конечно, оставались дефицитом, но с ним мы как-то справлялись за счёт международных связей. Этого феномена прогресса хватило нам лет на десять – до появления лазерных принтеров.

Новая эпоха

С наступлением 1990-х Диалог испытал шок вместе со страной: половина коллег оказалось за границей, в частности, и наши эстонские друзья. Привычные финансовые источники пересохли, поезда подорожали, а гостиницы и аренда помещений стали недосягаемы. Все настолько ушли в борьбу за выживание, что, казалось, Диалог навсегда остался за горизонтом вместе с СССР.

Однако в 1994 году наши постоянные участники из Казани (Ольга Невзорова, Валерий Соловьев, Джавдет Сулейманов) пришли ко мне с тем, что Диалогу дать погибнуть нельзя, и они готовы взять на себя помощь в организации его проведения. Тут еще немного повезло, что для этого удалось выбить небольшие, но достаточные на тот момент европейские деньги. Процесс оживил все то, что сохранилось от прежнего Диалога, в чём ключевую роль сыграла энергия друзей из Татарстана.

Диалог-95 состоялся 31 мая – 4 июня на базе Казанского Госуниверситета в привычном для прежнего семинара формате, хотя и не без потерь, связанных со спецификой новой эпохи. Зато он стал – как всё кругом – международным и первый раз за время своего существования издал полноценные Труды.

Это помогла попасть Диалогу в уже отработанную колею, хотя с 1996 года места его проведения определялись только близостью к Москве: Ясная Поляна, Пущино, Таруса, Протвино и т. д. Но круг его участников восстанавливался и расширялся, хотя и не без потерь, связанных как с постоянной трансформацией жизни научных коллективов, так и с центробежной силой усложнения контактов с коллегами в бывших республиках. К концу 90-х годов Труды стали выходить в двух томах, посвященных, соответственно, теоретическим и прикладным работам.

Последний этап

15 конференций, состоявшихся начиная с Диалога-95, можно разделить примерно пополам. На первом этапе Диалоги сохраняли статус семинаров и организовывались Российским НИИ искусственного интеллекта (РосНИИ ИИ). Финансовая сторона была очень непростой, поскольку половине участников оплачивать дорогу и проживание было очень сложно, а часто и невозможно. Приходилось крутиться: часть денег вкладывать из средств Института (когда они были), и очень помогали спонсоры – нескольких коммерческих фирм, в первую очередь ABBYY Software и Yandex.

Важную роль в финансировании Диалогов играли ежегодные гранты Российского Фонда Фундаментальных исследований, обеспечивавшие, как правило, основные расходы на издание Трудов.

Во второй половине 1990-х найти максимально дешёвый дом отдыха рядом с Москвой было не просто, а про комфорт размещения участников и говорить не приходилось, благо, что подавляющие их число было готово к невзыскательной обстановке еще с советских времен. Однако цены росли, а спонсоры убывали, так что обеспечивать организацию Диалогов становилось все труднее. Сложности возникли и у самого РосНИИ ИИ, так что к 2004 году функция связи с РФФИ формально перешла к Институту проблем информатики РАН (ИПИРАН), а заботы по организации – к основному спонсору Диалога, компании ABBYY. К этому моменту представитель компании Владимир Селегей стал руководителем Оргкомитета и де факто координатором Программного комитета.

Именно в этот момент было решено определить Диалогу статус Международной конференции, который по своему масштабу он заслужил уже давно. Два тома Трудов объединились в один общий объёмом более 700 страниц. Фактически с тех пор ABBYY взяла организацию Диалогов полностью на себя и осуществляет это блестяще, используя свой замечательный кадровый ресурс. Последние три Диалога прошли под Москвой в Доме отдыха «Бекасово» недалеко от г. Наро-Фоминска.

Основные периоды истории Диалога

Содержательную эволюцию Диалога в самой общей форме можно определить как прошедшую ряд периодов, связанных прежде всего с развитием его научных составляющих.

Начальный период становления и интеграции занял первые пять – шесть лет и был посвящён определению того самого исходного тематического пространства Диалога, включавшего компьютерную лингвистику и её приложения, связанные с обработкой текста, а также те направления ИИ, которые непосредственно примыкали к этой тематике.

Следующий период – время Моделей общения – определялся осознанием основной функции языка как коммуникативной, и соответствующим значительным расширением тематики Диалога. И здесь было место приложениям, – по этому поводу хотелось бы вспомнить наш совместный с коллективом А.Е. Кибрика проект по анализу диалогов справочной службы 09. Такого рода работы всё более актуальны и сегодня в связи с автоматизацией call-центров и развитых справочных систем. И ещё одно детище Диалога, о котором стоит вспомнить – это электронная версия знаменитого словаря А.А. Зализняка, послужившая источником подавляющего большинства современных компьютерных словарей русского языка, введённая вручную в ЭВМ сотрудницам Вычислительной лаборатории В.М. Андрющенко по договору с нашей Лабораторией искусственного интеллекта ВЦ СО АН. Наконец, существенную роль в этом периоде Диалога сыграл тот факт, что 1980-е годы были временем японского, а затем и серии других международных и национальных проектов «Компьютеров пятого поколения», в которых одной из основных составляющих был именно естественный язык. Был и советский аналогичный проект “Старт” (1985 – 1998), в котором посчастливилось участвовать мне и нашей лаборатории. Бум этих проектов подчеркнул важность тематики Диалога, что не могло не способствовать его успеху.

Третий период начался в 1995 году и фактически определялся возвращением к тематике первых Диалогов, которая, естественно, существенно продвинулась за истекшие двадцать лет под влиянием новых направлений, связанных с задачами поиска, прикладного машинного перевода, компьютерного представления знаний, активных исследований в области национальных языков. Эти новые направления определялись прежде всего тем, что за эти годы произошла радикальная перестройка всей отрасли ИКТ, повлиявшая и на отношения пользователь – ЭВМ. Приложения перестали ориентироваться на крупные компьютеры, их стали формировать стремительно развивающийся рынок ПК и Интернет. Начинают всё более становятся популярными «статистические» методы освоения языка, использующие технологии автоматической обработки текстовых корпусов и информации в Интернете.

Осознание ключевой важности всё более масштабных текстовых корпусов становится одной из доминант четвёртого периода Диалога, продолжающегося и сегодня. Можно сказать, что этап формирование первых достаточно крупных текстовых массивов завершён и чуть ли не любой доклад на последних Диалогах, касающийся исследований языка, базируется на соответствующих экспериментах на материале того или иного корпуса. Ясно, что пока компоненты этого нового фундамента компьютерной лингвистики ещё далеки от совершенства по объёму и форме, однако процесс их развития уже составляет её неотъемлемую часть. Эпоха, когда языковые исследования базировались на эрудиции и воображении экспертов от лингвистики, ушла навсегда, и это принципиально важно для объективности и доказуемости их результатов.

Второй доминантой текущего периода является осознание важности работ, объединяющих семантику, прагматику и представление знаний. Растёт процент докладов, посвящённых лексической семантике тех или иных разделов языка с одной стороны, и технологиям представления знаний хотя бы на уровне модных последнее время онтологий, с другой. Однако и там и там ощущается недостаточность проработанности аппарата и методик, без которой эти исследования будут оставаться не готовыми для использования в сколько-нибудь серьёзных приложениях.

Диалог сегодня – цели и задачи

Диалог всегда считал своей основной задачей организацию активного творческого общения между теми, кто изучает организацию и функционирование языка, и теми, кто работает в области использования результатов этих исследований для создания практически применимых компьютерных технологий.

С самого начала было принято, что попытка искусственно ограничить его тематическое пространство привязкой к пусть и самым передовым, но замкнутыми школам и языковыми моделями не имеет смысла. Школы приходят и уходят, а цели компьютерной лингвистики и Диалога остаются постоянными. В этом плане даже сама текущая основная область лингвистики считалась, как уже упоминалось, слишком узкой, – неслучайно несколько лет Диалог определял себя как семинар, посвящённый Моделям общения. Последние годы на выбор проблематики оказывало существенное влияние реальные потребности коммерческих фирм, работающих в секторе обработки текстов и определяющих прагматический дух эпохи, но вопрос об ограничении программы Диалогов ориентацией только на приложения никогда даже не ставился.

В программу «Диалога» входят пленарные заседания, специальные и стендовые сессии, круглые столы, демонстрации программных систем. Доклады, включенные в программу, публикуются в сборнике трудов конференции. В случае, если доклад был положительно оценён рецензентами, но не попал в основную программу, он может быть опубликован на сайте конференции. Все доклады – как вошедшие, так и не вошедшие в программу, – начиная с 2000 года, хранятся на сайте http://www.dialog-21.ru/ в полном виде.

Среди участников, как правило, немало представителей ОТиПЛ, кафедры математической лингвистики СПбГУ и некоторых других профильных отделений. Обычно в конференции участвуют видные отечественные лингвисты, в том числе – с приглашёнными докладами. Так, в числе участников последних лет Ю.Д. Апресян, В.И. Беликов, А.А. Зализняк, Л.Л. Иомдин, А.Е. Кибрик, И.М. Кобозева, С.А. Крылов, Н.Н. Леонтьева, Е.В. Падучева и многие другие.

Естественно, что список основных направлений тематики Диалога эволюционирует вместе с развитием и науки и приложений. Иллюстрацией может служить список секций последней юбилейной конференции, сочетавший и теоретические исследования и прикладные работы:

  • Лингвистическая семантика
  • Лингвистические ресурсы
  • Модели общения
  • Извлечение, представление знаний, онтологии
  • Анализ документов
  • Просодия
  • Разработка и использование корпусов
  • Лексикография, фразеология, семантика
  • Речевые технологии
  • Синтаксис и семантика

К этим десяти тематическим секциям необходимо добавить Пленарное заседание «Типология и Интернет-лингвистика» и стендовую секцию, на которой были представлены 17 докладов. А также Круглый стол «*Net – лексические ресурсы в Интернете» (вед. Наталья Лукашевич).

Всего же на Диалоге-2009 было представлено более 80 докладов порядка 120 авторов как российских из Москвы, Санкт-Петербурга, Ростова-на-Дону, Мурома, Новосибирска, Нижнего Новгород и других городов, так и зарубежных, из научных центров Беларуси, Украины, Эстонии, США, Мексики, Италии, Норвегии и Чехии.

Из этого списка видно, что помимо традиционных задач обработки информации на естественном языке в последние годы на первый план вышли такие новые задачи, как информационный поиск, содержательный анализ документов, речевые технологии. Мировой уровень российской лингвистической науки и потенциала наших инженеров и математиков позволяют надеяться на успешное решение этих задач.

Выше поминалась несколько раз особая атмосфера Диалогов. Она, конечно, сохраняется: это и дискуссии на круглых столах, многочисленными тусовками ближе к ночи, часто с исполнением избранных авторских песен. На Диалоге-09 эта обстановка пополнилась выступлением струнного квартета DSCH с отличной программой, включившей произведения Шостаковича, Моцарта, Бетховена и Бородина. И особого упоминания заслуживает масса детей дошкольного возраста, причём в этот раз в ней были особо представлена целая волна двухлетних детишек, чувствовавших на Диалоге как у себя дома.

Думаю (конечно, это еще будет обсуждаться на активе Диалога), что очередными доминантами ближайших конференций должны стать взаимосвязь компьютерной лингвистики и инженерии знаний, в частности, технологии извлечения фактов/знаний, а также расширение тематики моделей общения. Ну и, естественно, все интересные проблемно-ориентированные приложения.

Материал помещен в музей 13.08.2009