Интегрированные сети ISDN


Таблица 2 - часть 2


Для определения степени соответствия используется ожидаемая взаимная мера информации. Для двух дискретных распределений вероятности
она может быть определена как:

.

Если xi и xj - независимы, тогда

и
). Дополнительно выполняется условие, что

, показывающее, что функция является симметричной.

Функция

интерпретируется как статистическая мера информации, содержащейся в документе
о документе
(и наоборот). Когда данная функция применяется для определения степени связи между двумя индексными терминами, например, i и j, тогда xi и xj являются бинарными переменными. Таким образом,
является вероятностью присутствия индексного термина i и, соответственно P(xi=0) является вероятностью его отсутствия.

Та степень взаимосвязи, которая существует между индексными терминами i и j вычисляется затем функцией

, показывающей степень отклонения их распределений от статистически независимого.

Были предложены и другие функции, похожие на описанную выше функцию

для определения степени соответствия (см. Jardine, N. and Sibson, R., Mathematical Taxonomy, Wiley, London and New York (1971)) между парами документов.

Как и в случае автоматической классификации документов, использование вероятностных методов при формировании кластеров содержит в себе достаточно высокий потенциал и представляет крайне интересную область для исследований.

Итак, для формирования кластеров необходимо использовать некую функцию соответствия для определения степени связи между парами документов из коллекции.

Постулируем теперь основную идею, на которой, собственно говоря, и построена вся теория кластерного представления коллекции документов. Гипотеза, приведшая к появлению кластерных методов, называется Гипотезой Кластеров и может быть сформулирована следующим образом: “Связанные между собой документы имеют тенденцию быть релевантными одним и тем же запросам”.

Базисом, на котором построены все системы автоматического поиска информации, является то, что документы, релевантные запросу, отличаются от нерелевантных документов.


Начало  Назад  Вперед