Навигационные инструменты в глобальных сетях (краткая история)

Поляк Ю.Е.

Деятельность человека в современном мире все больше зависит от информированности и способности эффективно использовать информацию. Важнейшим источником информации в последние годы стал интернет. В 2005 году информационное наполнение «видимой» части интернета (т.е. индексируемой поисковыми системами) превысило объем Библиотеки Конгресса США[1] и продолжает экспоненциально расти. Ежедневно в сети появляются миллионы новых документов. Это, с одной стороны, означает рост вероятности того, что нужные сведения находятся в сети и в принципе доступны. С другой стороны, сложность поиска этих данных растет так же быстро.

10–15 лет назад исследователи сетовали на невозможность найти в интернете необходимую информацию. Причина банальна: ее там попросту не было. Сейчас претензии к интернету чаще носят иной характер: в ответ на запрос приходят сотни тысяч, а то и миллионы ссылок. Как правило, это означает, что запрос составлен непрофессионально и нуждается в уточнении, однако это не мешает незадачливым пользователям (обычно представителям старшего поколения) ничтоже сумняшеся называть интернет «свалкой», «помойкой» и т.п. Так, по мнению нашего экс-президента, «в интернете 50 процентов порноматериалов»[2]. Между тем следует осознать, что умение искать информацию в глобальных сетях и анализировать найденное должно войти в число базовых навыков, наряду с общей грамотностью (тем более, что ее уровень неуклонно снижается).

Поиск информации в интернете не только важный вид интеллектуальной деятельности. Каждый сталкивается с повседневной необходимостью что-то искать: работу, компьютер, авиабилет, ремонтную мастерскую, фильм, гостиницу. Профессионалы давно осознали, что поиск лежит в основе крупного бизнеса, а наиболее успешные стали миллиардерами не за счет удачного наследства или торговли углеводородами, а исключительно благодаря собственному интеллекту и трудолюбию. Здесь можно вспомнить триумфальный выход на биржу крупнейших поисковиков Google и Яndex. Среди других видов бизнеса конкурентная разведка, платные услуги по поиску и предоставлению информации. Поиск стал предметом многочисленных учебных курсов и даже увлекательной игрой, в 2001–2008 годах проходили соревнования на кубок России[3] и множество локальных турниров [7].

Существует большое количество разнообразных инструментов и средств поиска. В рамках данного сообщения мы ограничимся рассмотрением каталогов и поисковых систем.

История профессионального поиска в глобальных сетях насчитывает немногим более 15 лет (огромный срок в масштабах компьютерной и телекоммуникационной индустрии!). Как и история интернета, она пишется на наших глазах, но долгое время была известна лишь специалистам. Такие важнейшие события как соединение 4 удаленных компьютеров (1969), первое электронное письмо, появление браузера Т. Бернерса-Ли не стали достоянием широкой публики. Но когда в 1993 г. М. Андриссен представил браузер Mosaic, начался взрывной рост числа сайтов, пользователей, объемов информации. Соответственно возникла необходимость эту информацию упорядочивать и искать. Первые навигаторы по сети имели вид рукописных листков и текстовых файлов. Впоследствии поисковые инструменты прошли путь от списков до структурированных каталогов (directories) и мощных поисковых систем (search engines). Поисковые системы образовали основу крупнейших порталов, стали ведущими трафикогенераторами мирового и российского интернета.

Современная картина поисковых средств начала складываться ко второй половине 90-х годов. В апреле 1994 года стэнфордские аспиранты Дэвид Фило и Джерри Янг решили сделать для себя удобный инструмент для навигации по интернету (существовавшие тогда каталоги их не удовлетворяли). Несколько позднее, когда создаваемые списки стали слишком громоздкими, возникла необходимость в базе данных, которая получила название Yahoo! (Yet Another Hierarchical Officious Oracle). Сейчас одноименная фирма входит в число ста крупнейших компаний, а ее основатели – в списки влиятельнейших и богатейших предпринимателей. К тому времени пользователям были доступны неплохие поисковые системы Lycos, HotBot, AltaVista (с возможностью обработки кириллических запросов, пусть довольно примитивной). Все они отступили на задний план, когда в 1999 г. Ларри Пейдж и Сергей Брин предложили алгоритм ранжирования PageRank, ставший изюминкой поисковика Google. В настоящее время Google обрабатывает почти две трети мировых поисковых запросов, а само это слово стало нарицательным понятием.

А вот несколько дат из отечественной истории.

26 сентября 1996 г. – создание первой российской поисковой системы Rambler (www.rambler.ru), сайт которой вскоре стал самым посещаемым сайтом рунета. Проект осуществлен Д. Крюковым на базе интернет-провайдера «Стек» (Пущино).

29 ноября 1996 г. – на семинаре РОЦИТ представлена разработка А. Дыбенко и Ю. Поляка каталог «Русский интернет» (позднее «Ау!», «@Rus», «Апорт»). Вплоть до конца тысячелетия он оставался лучшим в рунете и получил неофициальное название «русского Yahoo».

3 марта 1997 г. – открытие первого в рунете рейтинга-классификатора Rambler’s TOP100, позволявшего вести подсчет посещаемости сайтов. Позже именно посещаемость стала одним из главных критериев оценки уровня веб-сайтов и их стоимости.

23 сентября 1997 г. – начало работы поисковой системы Яndex (www.yandex.ru), производящей поиск на основе морфологического анализа, независимо от падежей и спряжений слов в запросе. Разработчики – А. Волож и И. Сегалович. Впервые был реализован естественно-языковой поиск для русского языка. Яndex сегодня – это 7 дата-центров, несколько тысяч серверов, более 10 миллиардов проиндексированных страниц, свыше 2000 сотрудников, 64% поискового рынка России. Месячная аудитория портала yandex.ru приближается к 40 миллионам. Помимо поиска, Яndex предоставляет много других сервисов, которые занимают передовые позиции на рынке. В своих нишах лидируют: Яндекс.Маркет, Яндекс.Карты, Поиск по блогам, Народ.ру, Яндекс.Пробки. Одними из крупнейших в своих областях являются Яндекс.Деньги, Почта Яндекса, Яндекс.Новости.

Важно подчеркнуть, что названные выше системы не пытались конкурировать с иностранными аналогами «на их поле», они были адресованы отечественным пользователям, и здесь им не было равных. Когда в «российском» сегменте Yahoo! было представлено всего несколько газет и два десятка вузов, соответствующие разделы «Ау!» насчитывали сотни и тысячи ссылок. Возможности AltaVista и Google по обработке русскоязычных запросов не шли ни в какое сравнение с поиском Яndex с учетом морфологии русского языка, основанном на многолетних академических разработках (у Google похожий сервис появился лишь несколько лет назад).

Заметим, что Россия – одна из немногих стран, где на местном рынке средств поиска лидирующее положение занимают отечественные системы, основанные на собственных интернет-технологиях мирового уровня. Среди причин этого, как отмечалось выше, высокий интеллектуальный потенциал и многолетний опыт разработчиков, учет особенностей русского языка на базе использования достижений академической науки. Кроме России, национальные поисковые системы лидируют только в Китае (Baidu), Южной Корее (Naver и Daum), Чехии (Seznam) и, естественно, в США. Кроме того, отметим, что исландский поисковик Leit.is довольно успешно конкурирует с Google, а в Японии и на Тайване лидирует Yahoo.

Остановимся более подробно на разработке каталога «Ау!», к которой автор имел непосредственное отношение в качестве заведующего лабораторией сетевых информационных ресурсов Центрального экономико-математического института РАН. Мотивы создания этого каталога были теми же, что у Фило и Янга: существовавшие тогда списки русскоязычных ресурсов (из Ижевска, Геленджика, ряда американских университетов) были не слишком полными и удобными. Нелишне напомнить, что в то время до «интернетизации» страны было далеко, и рунет был вполне обозрим. Среди нескольких сотен доменов выделялись крупнейшие вузы и научные центры. А такие поисковые инструменты как Яndex и Rambler’s Top100 возникли лишь в следующем, 1997 году. Не было тогда ни платежных систем, ни интернет-магазинов, ни служб почтового хостинга, ни ежедневных интернет-газет (дата появления CyberPlat – 11.03.98, «оЗона» 9.04.98, Mail.Ru – 1.11.98, Gazeta.Ru – 1.3.99).

Над информационным наполнением работали около 20 человек, в том числе студенты МГУ. В базе данных было порядка 50 тысяч записей, а пользователей до 20 тысяч в день. Профессор МГУКИ В. К. Степанов указывал, что «каталог отражает исключительно российские ресурсы. Он имеет 3-4-уровневую иерархическую структуру и обновляется с завидной оперативностью. Его создатели самостоятельно и весьма тщательно стремятся учесть максимальное число отечественных серверов. Каждая ссылка на источник снабжается развернутой аннотацией, которая позволяет получить предварительное представление о содержимом сервера. На сегодняшний день это самый полный перечень ресурсов российского блока всемирной компьютерной паутины».

Долгое время основной задачей редакторской группы был поиск интересных сайтов и составление их описаний. С ростом популярности каталога к этому добавилась проверка адресов, присланных пользователями, и редактирование аннотаций. Тщательное ручное тестирование позволяло объективно описывать информационные ресурсы, в то время как автоматизированные поисковые системы того времени грешили большим процентом неактуальных ссылок и «информационного мусора».

Параллельно с онлайновым каталогом появилась масса печатных справочников интернет-адресов с информацией из базы данных ЦЭМИ. Назовем циклы тематических обзоров в еженедельнике PC Week и журнале «Информационные ресурсы России»; первый русскоязычный печатный каталог [1], несколько изданий справочника «Russian Internet Directory», десять выпусков «Навигатора российского интернета», бестселлер [2]. Интернет-центр в Санкт-Петербурге в серии методических материалов выпустил брошюру о работе с каталогом «Ау!». Программа «Ау!» зарегистрирована в РосАПО (свидетельство №970718, 1997).

Во второй половине 90-х годов обсуждались плюсы и минусы каталогов и поисковых систем [4,5], при этом было понятно, что распространившиеся поисковые машины нового поколения с их миллионами индексированных документов и постоянной актуализацией баз данных выиграли заочное соревнование в скорости и объемах с живыми редакторами. Началась конвергенция каталогов и поисковых систем, позволившая им приобрести лучшие черты друг друга. Ограничение области поиска определенной тематической категорией экономило время поиска и в то же время повышало релевантность его результатов. Тщательный ручной мониторинг встроенного каталога в сочетании с быстрым автоматическим обходом сайтов, выполняемым поисковыми роботами, обеспечивал высокую степень соответствия запроса и результата.

Время «чистых» каталогов прошло, и «Ау!» (он тогда уже назывался «@Rus», поддерживался другой командой и насчитывал порядка 70000 адресов) влился в популярный поисковик «Апорт».

В последующие годы автор руководил разработкой каталога Яndex (1999-2000), принимал активное участие в создании новой версии рейтинга RamblerTop100 (2008), разработал спецкурс «Эффективный поиск информационных ресурсов», который читался в МГУ и Институте ЮНЕСКО по информационным технологиям в образовании. Он участвовал в работе жюри конкурса учебных курсов по информационному поиску[4], организованного компанией Яndex.

Изображения отечественных и зарубежных сайтов прошлых лет представлены в «интернет-музее»[5]. Близкая по тематике информация помещена на сайтах Музея истории интернета[6] (проект Курчатовского института и Фонда развития интернета) и «История интернета в России»[7].

Примечания

1. http://www.glaird.com/refer.htm

2. Стенографический отчёт о заседании Государственного совета по вопросам развития политической системы России 22 января 2010 г. http://президент.рф/

3. http://kubok.yandex.ru

4. http://company.yandex.ru/academic/class2006

5. http://museum.uka.ru

6. http://www.fid.ru/museum

7. http://www.nethistory.ru

Список литературы

Вовченко Т.О. и др. Информационные ресурсы Интернет // «Технологии электронных коммуникаций», том 68. – М.: Эко-Трендз, 1996.
Поляк Ю.Е., Сигалов А.В. Желтые страницы Internet’98. Русские ресурсы/ - СПб: «Питер», 1998
Поляк Ю.Е. «Ау!» - первый миллион посещений // «Компьютер в школе», №4, 1998
Polak Yuri. Information search in Russian Internet on the eve of 2000. // Internet: Technologies and Services. The 1st IEEE International Conference and Exhibition, 1999
Поляк Ю.Е. Эволюция поисковых инструментов Рунета // Всероссийская научная конференция «Научный сервис в сети Интернет», Новороссийск, 2000
Сегалович И.В. Как работают поисковые системы // «Мир Internet» №10, 2002
Поляк Ю.Е. Найдется все. Если уметь искать // «Информационные ресурсы России» №1-2, 2002
Парахина О.В., Поляк Ю.Е. Проблемы каталогизации электронных университета. Серия «Информатика образовательных ресурсов // Вестник Московского городского педагогического и информатизация образования» № 2 (7) 2006

Об авторе: Центральный экономико-математический институт РАН
yuripolak@yandex.ru

Материалы международной конференции SORUCOM 2011 (12–16 сентября 2011 года)
Статья помещена в музей 03.09.2013 с разрешения автора