Eng Рус Укр Главная страница О проекте Еще новости
логин     
пароль     


...

Rated by PING
 ПУБЛИКАЦИИ

19.09.2003   Мониторинговые системы – ключ к информации

    Объем информации в Интернет растет со скоростью снежного кома. Поисковыми машинами проиндексировано более 1 млрд (!) документов. Однако точно сказать, сколько страниц содержит Всемирная сеть, пожалуй, не возьмется никто. Так что проблема качественного поиска необходимой информации становится как никогда актуальной. И на первый план выходят мониторинговые системы, поскольку они позволяют оперативно находить, структурировать и доставлять необходимые данные.

    

Мониторинговые системы, безусловно, все еще новинка на украинском рынке. И далеко не все специалисты, не говоря уже об обычных пользователях Всемирной сети, могут точно определить, чем мониторинговые программные продукты отличаются от поисковых сервисов. Действительно, на первый взгляд может показаться, что не зачем платить деньги за специализированные системы поиска и структурирования данных, если в Интернет существуют давно знакомые нам поисковые сервисы, такие как Yandex или Google ?

 

Есть и еще одна позиция. Если, к примеру, появляется необходимость оперативно отслеживать публикации на определенную тематику, то для этого достаточно нанять «студента», который за минимальные деньги, работая несколько часов в день сможет просмотреть необходимое количество сайтов и подготовит подробный отчет.

 

А что же в действительности? Средний новостийный Интернет-ресурс публикует около 50 новостей в сутки. Только в Украине зарегистрировано более 200 информационных сайтов. А если сюда прибавить и всевозможные форумы, "комнаты обсуждений" и т.д. получится, что ни 1, ни 10 человек не в состоянии отследить всю необходимую информацию.

 

«Поисковик», в данном случае, так же вряд ли поможет. В журнале Эксперт приведен такой пример: если в задачу клиента не входит вместе с иголкой выуживать из стога сена тонны металлолома, то и обычный механизм поиска "по ключевым словам" его мало устроит. Большинство пользователей все равно не просматривают все обнаруженные поисковой машиной десятки тысяч ссылок, они либо уточняют запрос, либо ограничиваются несколькими первыми страницами, которые выдал поисковый робот. И впечатление о качестве, надежности и "разумности" машины складывается при взгляде именно на первые найденные строки. Они должны как можно более точно отвечать на заданный при поиске вопрос, а это существенно усложняет задачу для поисковых роботов.

 

Первым, еще три года назад, из этого тупика выбрался американский поисковик Google, где стали использовать интеллектуальный подход к поиску, основанный на оригинальной технологии PageRank. Поисковый робот ведет учет внешних ссылок на проиндексированную им страницу, поскольку предполагается, что сайт или страница, на которые очень часто ссылаются создатели других интернет-ресурсов, более авторитетны, а значит, будут более полезны ищущему. Подключив таким образом к своему поисковому механизму десятки тысяч ответственных за свои собственные сайты граждан и компаний, Google быстро вырвался в технологические лидеры отрасли. Сейчас на "движке" Google работают и многие другие крупные поисковые машины, в том числе, например, Yahoo!.

 

Но довольно скоро у этого подхода обнаружились и существенные недостатки: самые свежие из появившихся в Сети документов, как правило, просто не успевают набраться "авторитета" и, соответственно, не попадают в выборку, в лучшем случае оказываются в самом конце составленного роботом списка. Кроме того, поисковик, как бы его ни усложняли, остается роботом. А поскольку позиции в верхних строках выборки гарантируют сайту большее число посетителей, а значит, и доходов, всегда найдутся те, кто постарается и сможет робота обмануть.

 

"Перелопатить" тома информации помогают системы мониторинга и структурирования данных. Логику работы человека, поисковой и мониторинговой системы легче всего пояснить на примере, взяв за модель - склад фруктов. Человек будет наугад заглядывать в разные уголки склада в поисках зеленых яблок. Найдет ли он хоть что-нибудь? Да, безусловно. Но это будет лишь десятая часть того, что имеется на складе, ведь физически невозможно отобрать все зеленые яблоки из нескольких миллионов имеющихся на складе фруктов. Поисковая машина будет обходить весь склад с частотой в 2-3 месяца и на запрос "зеленые яблоки" выдаст местоположение ящиков с ними. Но за это время часть ящиков могли перенести в другое место, часть яблок сгнили и были отправлены на свалку. Как же поступит мониторинговая система? Она будет заходить туда, где кладовщик мог положить яблоки, игнорируя ящики с грушами, мандаринами и т.д. с частотой в 5-10 минут, выбирать зеленые яблоки, очищать их от мусора и складывать в отдельной комнате.

 

То есть, главными отличиями мониторинговых систем есть:

 

1)      Избирательность источников. Зачем искать черную кошку в темной комнате, если ее там нет? Вряд ли новость, касающаяся здравоохранения появится на сайте, посвященном мобильной связи… Мониторинговые системы позволяют отслеживать узкопрофильные источники, что, в свою очередь повышает качество предоставляемой информации.

 

2)      Оперативность. Кто владеет информацией, тот владеет миром – тезис актуален лишь в том случае, когда информация поступает оперативно. Последние новости будут проиндексированы мониторинговой системой в течение 10-15 минут, тогда как поисковой машиной - в лучшем случае через месяц-два. Однако к тому времени информационные сообщения уже нельзя назвать «последними новостями».

 

3)      Принцип индексации. «Поисковик» собирает только линки на страницы, тогда как мониторинговая система переносит себе в базу данных полные тексты статей с указанием на источник. Что экономит трафик (не нужно платить за выкачивание из Интернет баннеров, картинок и т.д.) и позволяет просматривать архив сообщений даже с тех сайтов, где архив не ведется, доступ к нему платный либо новость была уже удалена.

 

Технологии, на базе которых работают информационно-мониторинговые системы, называются   Data Mining ("добыча" или "раскопка данных") и Knowledge Management ("управление знаниями"). Они включают в себя комплекс методов, охватывающих поиск и извлечение информации (из носителей), структурирование и систематизацию информации или данных (для обеспечения их удобного хранения и поиска), обновление (актуализацию) информации, ее распространение.

 

Для этих систем не важно, где лежат документы – в Интернет или в корпоративной сети, это html -документ или текстовый файл. В крупных корпорациях обработкой информационных потоков занимаются именно специализированные программные продукты, которые не только управляют входящими и исходящими потоками, но и приводят внутреннюю информацию в компании к единому знаменателю, согласно заложенной предварительно логике. Ведь даже если руководство компании уже пришло к пониманию того, что в недрах корпоративных документов содержится очень много нужной и важной информации, и администратор внутренней сети создал некий рубрикатор, ручной поиск необходимых данных затруднен, поскольку, как показывает практика, раздел "прочее" заполняется гораздо активнее остальных.

 

Достоинство Knowledge Management , Data Mining , другими словами Information Retrieval systems при обработке огромных массивов информации давно поняли на Западе. Рынок программных продуктов, управляющих базами знаний, активно развивается в Европе и Северной Америке, а его оборот уже превысил два миллиарда долларов в год. Однако подобные разработки настраиваются, как правило, "под клиента" и стоят не один десяток тысяч долларов.

 

Более простые и дешевые программные продукты, ориентированные на работу с входящими информационными потоками существуют как в Украине, так и в России. Часть из них разрабатывались исключительно для нужд спецслужб и не подлежат широкой продаже. Стоимость открытых для реализации продуктов, к примеру, российский WebSkan (разработчик - WebScan Technologies), украинские InfoStream ( ElVisti ) и Web - Observer ( Finport Technologies ), у всех разработчиков приблизительно одинакова и зависит от типа внедрения и наличия базовых функций. Разработчики этих программных продуктов предлагают несколько видов реализации, как самого продукта, так и сервисов на его базе. То есть, можно купить корпоративную систему, которая будет работать на оборудовании заказчика и полностью настроена под его требования; взять в аренду – система работает на сервере производителя, но настраивается согласно требованиям заказчика; воспользоваться удаленным сервисом, к примеру, таким, как совместный проект информационного агентства УНИАН и компании Finport Technologies – УНИАН-Монитор; подписаться на информацию, которая отбирается по ключевым словам и присылается на электронную почту. Цены колеблются от нескольких десятков гривен за доступ к сервису, до двух десятков тысяч долларов за корпоративное решение.

 

Не вдаваясь в технические подробности, стоит сообщить, что некоторые "продвинутые" программные продукты позволяют не только отсеивать из огромного вала информации необходимые данные. Они сортируют их по рубрикам, создают индексы цитирования, выявляют семантические связи, на основе которых создают информационный портрет объекта, рассылают найденные данные на электронную почту или мобильный телефон, прямо в пользовательском интерфейсе дают возможность редактировать новости, оставлять комментарии и т.д.

 

Подробней остановимся на разработке нашей компании - информационно-мониторинговой системе Web - Observer . Идея создания пришла во время разработки информационной web -системы Финансового портала finport . net , который был первым проектом Finport Technologies . Возникла проблема: как оперативно публиковать на страницах портала котировки мировых бирж, рынка Forex , котировки валют, ведь ситуация на финансовых рынках меняется чуть ли не ежеминутно. Поскольку необходимое решение среди существующих программ найдено не было, программистами компании был разработан «паучок», который с заданной периодичностью «обходил» интересующие нас сайты, очищал информацию от «мусора» и публиковал ее на портале. Эта разработка показалась нам интересной и на ее базе в 2001 году была создана первая версия информационно-мониторинговой системы Web - Observer , которая позволила собирать информацию из открытых источников в сети Интернет.

 

Как показывает практика, Web-Observer наиболее интересен журналистам, работникам пресс-служб, PR-менеджерам, бренд-менеджерам, аналитикам, то есть тем, кто работает с информацией. В отличие от аналогов, Web - Observer собирает не линки на публикации в Интернет, а полные версии статей, складывает их в архив, структурирует полученные массивы информации согласно рубрикатору заказчика, позволяет отслеживать публикации только по заданной тематике, создавать индекс цитирования, уровень упоминаемости брендов и т.д. Хочется особо отметить: в разработке Finport Technologies ориентируется не только на поиск и извлечение информации. В настоящий момент основной упор делается на создании аналитических блоков. Клиенты должны максимально комфортно себя чувствовать во время работы с Web - Observer . Появилась возможность не только найти необходимую информацию, но и обработать ее в том же окне: отредактировать текст, оставить комментарий, получить максимально широкую статистику по публикациям на интересующую тематику.

 

Рассмотрим работу мониторинговой системы на примере PR -службы крупной компании. При подготовке к пресс-конференции с помощью мониторинговой системы Web - Observer PR -менеджеры подбирают материал на соответствующую тематику: цифры, опубликованные аналитические материалы, новости других компаний, работающих на рынке. Web - Observer облегчает поиск необходимых материалов, поскольку предоставляет возможность отследить данные в динамике, быстро и качественно собрать все, что появлялось в СМИ по данной проблеме, создать общую картину в информационном поле. Соответственно полученным материалам расставляются акценты на пресс-конференции и в пресс-релизах, легко прогнозируются вопросы, в том числе и каверзные, которые могут задать журналисты. Сразу после встречи со СМИ начинают поступать (к примеру, руководителю PR -службы в электронный ящик) отклики средств массовой информации на информационное событие. Опять же, достаточно просто отслеживается общая картина, акценты, оперативность, объем публикаций, контекст, индекс цитирования. Есть возможность посмотреть, что написали специализированные масс-медиа, общественно-политические, региональные и т.д. На основе полученных данных PR -менеджеры корректируют работу, иногда предлагая полемику авторам статей, позиции которых не совпадают с позицией компании.

 

Кроме того, легко отслеживаются шаги конкурентов. Web - Observer позволяет создавать клиентские подборки - отслеживать в публикациях упоминание конкретных брендов, как принадлежащих компании, так и конкурентам. И в конечном итоге, автоматически создавать отчет о количестве упоминаний в СМИ, к примеру, за неделю. В отчете будет содержаться не только конкретная цифра упоминаний, но и статистика по типам изданий (информационные агентства, сайты ТРК, газет, интернет-СМИ), прямые линки на публикации, количество упоминаний по дням в виде таблицы и графика.

 

Понятно, что ни одна машина пока не может заменить живого человека, но мониторинговые системы позволяют исключить "человеческий фактор" при поиске и первичной обработке данных. Это эффективный помощник для работников PR-служб, бренд-менеджеров, маркетологов, служб внутренней безопасности. Системы Knowledge Management и Data Mining позволяют более эффективно использовать рабочее время и, в конечном итоге, сэкономить деньги компании.


Украинская Баннерная Сеть
Разработка - Finport Technologies