|
||||||||
|
|
||||||||
|
![]() |
Проблема Выявления Знаний в пресыщенном информацией миреАнтонов А.В. АннотацияСтатья посвящена проблемам перевода неявных знаний в явный вид. Рассказано об одной из возможных технологий (БИО-Зум), помогающих в этом процессе. Приводятся примеры. 1. Проблема и связь с ПредметомВ нашем мире родился другой мир – информационный. Имя ему – Интернет. Выросли новые города и мегаполисы – порталы и корпоративные хранилища. Есть и бесчисленное количество деревушек – сайтов небольших фирм. Есть и хутора, и даже персональные лесные сторожки. Есть закрытые военные городки и базы, куда постороннего не пустят, а за проникшим будут охотиться целые подразделения ФБР и ФСБ. Есть в нем публичные библиотеки и публичные дома. Есть доходные дома – хостинги. Города, деревушки и коттеджи связывают информационные коммуникации – хайвеи и проселки. На хайвеях стоят шлюзы из нашего мира в информационный – провайдеры. И, поскольку потребители и работники в этом мире – люди, информационный мир – зеркало нашего, физического мира. Значит, изучая этот информационный мир, можно сделать ценные выводы. И, как и в реальном мире, преимущество получает тот, кто сможет узнать не только то, что общедоступно и лежит на поверхности, выражено явным образом. Огромные пласты Знания рассеяны по тысячам документов, в каждом из которых скрыта крохотная частичка необходимой кому-то информации. В результате важные решения принимаются на основе недостаточной информации. По результатам исследования фирмы IBM решения топ-менеджеров основаны только на 7% необходимой информации. При этом нет недостатка в информации, многие из них говорят об “информационной усталости”, популярен также термин “информационное загрязнение”. В скрытом, неявном виде пребывает довольно большая часть Знания. По этой причине ощутимая часть средств Управления Знаниями посвящена переводу Знаний из их наиболее распространенной неявной формы в явную. Только после этой процедуры можно с этими Знаниями работать. Речь далее пойдет не об анализе трафика, заголовков пакетов и тому подобной обслуживающей обвязки. Возможности такого анализа интересны, но они достойны другого исследования. Попробуем поработать с самым информативным и самым трудным для автоматического анализа составляющим информационного мира – собственно контентом, текстом, изложенным на обычном человеческом языке. Это тем более интересно, поскольку в информационном мире все действия оставляют следы, которые не стирает ветер и не смывает дождь1. Относительно недавно ставший популярным АРХИВ Интернета – тому подтверждение. Однако мало собрать гигабайты и терабайты информации, и неуспех Эшелона и Корнивура в борьбе с террористами, использовавшими обычную электронную почту, слишком хорошо в этом убеждает. Выявить среди следов нужный, выяснить, куда только что пробежала “толпа”, что ее там притягивает и вообще определить, двигалась ли она куда-нибудь – вот малая часть задач, которые могут волновать пиарщика или журналиста, маркетолога или эсбэшника. И все это – примеры задач Выявления Знаний. 2. Инструменты решения Проблемы и технология БИО-ЗумВернемся чуть назад. Выйдем из Информационного Мира в наш реальный. Есть всем известные инструменты перевода неявных знаний в явные. К ним можно отнести инструменты изучения Общественного Мнения. Стоит напомнить, как недешево стоят подобные исследования и как дорого обходятся их ошибки. Но эффективность таких измерений при всей адресуемой им публичной критике довольно велика. Известно, какие страсти бушуют вокруг публикаций рейтинга политиков. Рейтинг телеканалов напрямую определяет потоки больших денег рекламодателей. Применяются подобные методы и в информационном мире. В Сети постоянно проводятся опросы. На любом новостевом сайте или интернет-газете, а часто и на обычной страничке постоянно проводят один или даже несколько опросов. Однако такая методика хорошо подходит только для ответов на простые вопросы. Она – всего лишь индикатор Да-Нет, и не может дать комплексной картины ситуации. К тому же такая методика требует серьезных затрат и привлечения больших людских ресурсов, следовательно, не может использоваться достаточно часто. К тому же существуют группы людей (например, руководители), прямой опрос которых максимально затруднен. Можно добавить, что этот инструмент является влияющим на отклик. В качестве примера можно предложить дать ответ на вопрос о решении чеченской проблемы в различных формулировках. Вот три варианта одного и того же по содержанию вопроса.
Нетрудно спрогнозировать распределение ответов. Итак, Выявление Знания по методике опросов имеет и несомненные положительные качества, и отрицательные – оно некомплексное, дорогое, искажающее. Анализ текстов – инструмент, подобный опросам, только опрашиваются в нем не люди, а документы. Недаром такие исследования входят в реестр услуг, предоставляемых организациями, занимающимися изучением Общественного Мнения. Нельзя сказать, что в этом случае отсутствуют недостатки. Документы нельзя переспросить, что-то уточнить, у них, в отличие от их авторов, раз и навсегда определенная позиция2. Результаты исследования сильно зависят от выборки документов, не зря все большие аналитические конторы стремятся увеличить свою текстовую Базу3. При этом невозможно отрицать бОльшую объективность такого исследования (в смысле отсутствия влияния), возможность проверки – инвариантность, потенциальную относительную дешевизну4 и комплексность. Кроме этого, надо отметить возможность работы в реальном времени, ведь от скорости решения задач зависит актуальность рекомендаций, следовательно, смысл самой работы по их решению. Технология БИО-Зум5 – пример построения такого инструмента. Она реализует идею текстового анализа большого объема текстов за реальное время (примерно тысяча документов за секунду). Такая технология выявления Знания позволяет быстро “влезть” в незнакомую проблематику, получить основную начальную информацию для более глубокого исследования, сравнивать несколько исследуемых объектов. При этом уходит риск пропустить что-то, “о чем говорят все”. Конечно, качество полученного Нового Знания напрямую зависит от качества и объема текстовой Базы. Нельзя требовать от системы освещения вопросов садоводства, если в ней лежат документы по нейрохирургии. 3. Примеры решения ПроблемыТехнология БИО-Зум реализована в коммерческом продукте Галактика-Зум корпорации Галактика. Приведем два небольших примера для иллюстрации результатов работы системы. Сначала – тема регионов. База – СМИ статьи из газет и журналов за 2000-2001гг. Выбраны документы, удовлетворяющие запросу: Ростов-на-Дону и инвестиции (примерно полторы тысячи документов). Система дает следующую картину6 (Информационный Портрет в терминах БИО-Зум). Ростов и инвестиции.
Списки ранжированы по убыванию значимости (числовому коэффициенту соответствия выборке) сверху вниз, а затем слева направо. В списках выделены (вручную) названия организаций (НИКОЙЛ), персоналии (ЧУБ), направления инвестирования (ЗЕРНО). Теперь такая же операция с документами по запросу: Волгоград и инвестиции (около двух тысяч документов). Волгоград и инвестиции.
Здесь и выше подчеркнуты общие объекты. Видно, что в Ростове лидирует НИКОЙЛ и БАЛТИКА, в Волгограде – ЛУКОЙЛ и ВЗБТ (завод буровой техники). При сравнении объектов общим является ПОРТ и НИКОЙЛ. В Волгограде основная деятельность – РЕКОНСТРУКЦИЯ, в Ростове – РЕСТРУКТУРИЗАЦИЯ. Система выдала эти таблицы через несколько секунд работы. Еще несколько минут ушло на разбор информации. Картина получилась довольно пестрая, неполная, но, как начальная информация, вполне подходит и, в общем, соответствует действительности. Далее, пользуясь вышеприведенными данными как рубрикатором, можно двигаться вглубь, изучая материалы, опрашивая экспертов и делая новые выборки. Теперь возьмем другой пример. Попробуем изучить проблему Наркомании в динамике на протяжении последних двух лет. База та же – СМИ за 1999-2001гг. Выбраны документы, удовлетворяющие запросу: Наркотики (примерно по 3 тысячи документов в месяц). Вот верхняя часть получаемых таблиц.
Из всего списка исследуем сопровождающие Наркотики преступления (взяты из списка выше). КРАЖА РАЗБОЙ КОНТРАБАНДА УБИЙСТВО ГРАБЕЖ ПРОСТИТУЦИЯ Приведем график7 для первых трех терминов.
Видно, что из сопутствующих преступлений сильно растет Кража. Контрабанда, Разбой – остаются примерно на одном уровне. Аналогичный график показывает, что растут также Убийство, Грабеж, Проституция, правда, заметно медленнее, чем Кража. Отсюда видно, что рост наркомании ведет не столько к росту контрабанды наркотиков, сколько к росту преступности практически во всех проявлениях. Дальнейшие выводы очевидны. В заключение нужно отметить, что конечно, можно получить гораздо более полное представление о предмете, просто читая материалы исходных документов без всяких систем Выявления Знаний. Однако объем выборок даже в пару тысяч документов переводит задачу на другой уровень. Есть два пути: ограничить волевым путем объем выборки8, или поручить анализ группе аналитиков. Правда, в последнем случае возникает отдельная задача сведения мнений разных людей9, а в первом случае велик риск пропустить что-то важное. И для обоих решений характерны большие затраты времени. В конце концов, можно пройти из Москвы во Владивосток пешком, но большинство летит на самолете. Правда, ситуация с системами Управления Знаниями пока обратная, но ситуация меняется, пусть не очень быстро. Ведущие агентства предсказывают рост рынка аналитического инструментария на 30% в год. Наконец, небольшая цитата. “…Роль аналитики заключается в переходе из реактивной (анализе того, что уже произошло) к проактивной (управление деловыми решениями). Мы верим, что деловая аналитика развертывается в сторону технологий, прогнозирующих в реальном времени.” Scott Phillips, Merrill Lynch, March 6, 2001
|
Демонстрация системы. Вопросы?Хотите увидеть
работу системы и узнать подробности? |
| | Корпорация "Галактика" | "Галактика ZOOM" | Примеры | Демо-ролики | Отзывы клиентов | Публикации | Партнерам | Контакты |
Copyright © 1998 - 2006 Корпорация
«Галактика», все права защищены
wwwadmin@galaktika.ru