Информационный бардак

Примерно 140 Гб (книга размером в 50 миллионов страниц) - это и есть предел информационных познаний человека. Но даже эти запредельные 140 Гб намного меньше, чем 2,5 Тб проиндексированной информации в российском Интернете




В одной древней притче мудрец, объяснявший своим ученикам порог человеческих знаний, рисовал на песке круг, и при этом все песчинки вне круга символизировали неизведанное. С тех пор багаж знаний людей о мире увеличился во много раз, но и сейчас, конечно, человеку не дано все знать. Абсолютное знание может быть доступно, пожалуй, только Богу, а материалисты и Богу откажут в таком знании. Конкретный же человек может освоить только очень небольшую часть информации об окружающем мире. Причем объем этой доступной для каждого человека информации, то есть объем постепенно накапливаемых знаний, можно даже вычислить!

Принято считать, что в обычных условиях человек может воспринять в минуту не более 600 слов (или, если считать в знаках, то не более 5-6 тысяч символов). Если учесть, что средняя продолжительность человеческой жизни примерно 70 лет, а также принять во внимание, что каждый из нас приблизительно треть жизни спит, то получается, что среднестатистический человек за свою жизнь способен теоретически воспринять количество знаков, приблизительно превышающее число пи в 100 миллиардов раз (70 лет х 365 дней в году х 17 часов (за вычетом 7 часов на сон) в сутки х 60 минут в час х 5500 символов в минуту = 1,43336E+11) !

Но это лишь на первый взгляд безумная цифра. Если перевести эти данные на компьютерный язык, мы получим примерно 140 Гб (книга размером в 50 миллионов страниц). Это и есть предел информационных познаний человека - при условии, что он будет получать эти 6 тысяч знаков постоянно, с перерывом только на сон.

На самом деле человек в лучшем случае может получить объем информации в десятки, а то и сотни раз меньший, а уж запомнить из этого он будет способен гораздо меньшую часть. Но даже запредельные 140 Гб – это намного меньше, чем 2,5 Тб проиндексированной информации в российском Интернете (по данным "Яндекса", июнь, 2003). Не говоря уж о том, что множество сетевой информации еще не охвачено не то что "Яндексом", но и другими поисковыми системами.

Прекрасно понимая, что невозможно объять необъятное, каждый из нас в итоге стремится запомнить только наиболее важные и значимые моменты из получаемой информации, отбрасывая при этом все несущественное. Аналогично мы ведем себя и в Интернете, когда ищем ту или иную информацию, постепенно сужая область поиска и уточняя поисковый либо выбирая подходящую рубрику.

По большому счету, само появление Интернета можно рассматривать как логичный результат попыток человечества структурировать постоянно возрастающий объем информации. В древности одна книга рассматривалась как огромный источник знаний. По мере развития книгописания стали появляться крупные библиотеки. Человеку достаточно было прийти в такую библиотеку, чтобы получить практически все основные знания. Но это тогда. А сегодня, в современном мире, в каждом большом городе функционируют библиотечные сети. В крупнейших библиотеках мира можно провести всю жизнь, но так и не успеть даже подержать в руках каждую книгу.

Как известно, для структурирования информации о книгах в библиотеках принята каталожная система – тематические и алфавитные каталоги. При этом развитая система тематической классификации часто напоминает своего рода лабиринт, в котором легко запутаться. Компьютеризация библиотечных каталогов позволила ввести еще один параметр поиска информации – по ключевым словам. Эта мера позволила расширить сферу применения тематической классификации, но все равно не гарантировала успеха поиска, так как ключевые слова все-таки не могут в полной мере отразить содержание каждой отдельной страницы, а то и просто нужного абзаца или строки книги.

В Интернете же благодаря поисковым системам можно вести поиск информации буквально по каждой странице, каждому знаку в тексте. Появление поисковых систем, по большому счету, не что иное, как попытка систематизации резко возрастающего количества информации в Сети (за точку отсчета здесь можно принять внедрение в начале 1990-х годов гипертекстового протокола). Правда, поначалу систематизация и структуризация информации пошла по апробированному ранее библиотечному пути, то есть по пути создания тематических интернет-каталогов, в которых систематизируются по тематике не книги, а сайты.

Каталоги ссылок, бывшие очень популярными именно благодаря своим тематическим классификаторам и возможности поиска по ключевым словам еще несколько лет назад, в настоящее время просто не справляются с огромным количеством сайтов, появляющихся в Интернете каждую минуту, если не секунду. В настоящее время каталоги могут быть полезными фактически только в двух случаях: при поиске крупных специализированных сайтов и при поиске подборок ссылок на сайты очень узкой тематической группы.

Во всех остальных случаях (особенно когда нужно найти только отдельные понятия, слова, фразы) поисковые системы типа "Яндекса" или "Рамблера" пока незаменимы. Они и появились именно как результат того, что каталоги, как и обычные библиотеки, не могли справиться со структуризацией все возрастающего объема информации. Но и поисковые системы ведь тоже не стали панацеей. Несмотря на постоянное совершенствование алгоритмов ранжирования результатов поиска, общая релевантность (или, проще говоря, КПД) по мере роста Сети также в целом не увеличивается.

Количество "мусора" в результатах поиска во всех поисковых системах весьма значительно. Иногда можно часами искать нужную информацию, а найти в итоге совершенно случайно, спустя несколько дней…

Да, поисковые системы позволяют найти все сайты, где встречается та или иная фраза, они даже проранжируют результаты по наличию нужных слов и их количеству в заголовках, ключевых словах, учтут значимость самого сайта по индексам цитирования и т. д. Но не более того. Они все-таки не могут в полной мере исключить случайные совпадения или развести использование слов-омонимов, а алгоритмы индексов цитирования вообще постепенно заводят поисковые системы в тупик: предположение о том, что более старый и более известный (крупный) сайт содержит более релевантную информацию, в очень многих случаях просто неверно.

Таким образом, нельзя не заметить, что сегодня налицо серьезный кризис поисковых систем. В полной мере уже ощущается необходимость изобретения иных способов структурирования и поиска информации в Сети. Такие разработки ведутся (и даже в России). Правда, пока до их повсеместного внедрения еще очень и очень далеко...

Существует расхожее мнение, что информационный бардак заложен изначально в саму структуру Интернета - вследствие отсутствия в нем четкой иерархии. Возможно, это частично именно так, но внедрение более структурированных языков или разработка более четко иерархически выстроенных сетей вряд ли способно решить полностью проблему структурирования все увеличивающегося объема информации в Сети.

Интернет, как и обычный мир, часто сравнивают с самоорганизующейся системой. Пока исследователи искали новые способы облегчения поиска информации, в Интернете получили развитие узкоспециализированные тематические порталы, которые стремятся собрать на своих страницах наиболее полный объем информации по определенной тематике. Такие порталы могут рассматриваться как временное, промежуточное решение проблемы структурирования онлайнового "информационного бардака", поскольку они все равно уже не способны сконцентрировать всю информацию в рамках одной группы (за исключением очень специфичных и крайне узких областей знаний).

Ситуация с количеством информации в Сети в полной мере отражает давно оформившуюся тенденцию: зачастую важно даже не владеть какой-либо информацией, а просто знать, как ее быстро найти. Это, конечно, достаточно утрированное утверждение, тем не менее оно отражает и то, что даже эксклюзивное владение информацией отнюдь не гарантирует, что данные сведения будут наиболее эффективно использованы их владельцем (автором). Интернет фактически изменил представление людей о способах подачи информации, но и внес некоторую сумятицу в ту область, которая касается прав использования информации.

Например, очень часто на сайтах можно встретить фразу о том, что копирование в любом виде материалов с сайта запрещено. На первый взгляд, все понятно: автор таким образом пытается защитить свои же авторские права. Но нужно четко различать случаи плагиата и случаи использования информации с соблюдением прав автора – хотя бы за счет указания банальной ссылки на источник или оформленного по всем правилам цитирования. А то ведь может получиться, как с насмешившим в 2002 году весь Рунет постановлением правительства РФ о том, что на сайты министерств и ведомств нельзя на том или ином ресурсе поставить даже простую ссылку, не спросив на то разрешения у правительства! Но в это же время многие владельцы ресурсов не вполне четко понимают, что, сделав в Сети собственную информацию общедоступной, они при всем своем желании не смогут в полной мере контролировать ее использование. Как сказал один мой знакомый, "если информацию жалко отдать людям, то лучше держать ее в конверте и под подушкой".

Как известно, слово и в офлайне не воробей, а уж в Интернете его быстро отыщут "пауки" тех же поисковых систем, способствующие дальнейшему увеличению индексируемой базы своего ресурса. И хотя в то же время увеличатся проблемы с ранжированием результатов поиска, все равно это слово рано или поздно найдет адресат. И даже, если понадобится, оно наверняка будет использовано этим адресатом по собственному усмотрению, невзирая ни на какие запреты тех, кто выпустил это слово на виртуальную прогулку.

Полную версию материала можно прочитать в журнале "Планета Internet".(planeta.ru). Перепечатка только с разрешения редакции "Yтро.RU" и "Планеты Internet".

Выбор читателей