Интегрированные сети ISDN


Таблица 2



Таблица 4.5.14.2




Коэффициент

Название

Коэффициент Дайса (dice)

Коэффициент Джаккарда (jaccard)

Косинусный коэффициент

Коэффициент перекрытия

Приведенные коэффициенты, по сути, представляют собой нормализованные варианты простого коэффициента соответствия.

Скажем несколько слов о функциях, определяющих степень различия между документами. Причины использования в системах поиска информации функций, определяющих степень различия между документами, вместо степени соответствия являются чисто техническими. Добавим, что любая функция оценки степени различия между документами d может быть преобразована в функцию, определяющую степень соответствия s следующим образом:

. Надо сказать, что обратное утверждение, вообще говоря, не верно.

Если P – множество объектов, предназначенных для кластеризации, то функция D определения степени различия документов – это функция, ставящая в соответствие

неотрицательное рациональное число. Функция определения степени различия d удовлетворяет следующим условиям:

Четвертое свойство неявно отображает тот факт, что функция определения степени различия между документами является, в некоторой степени, функцией, определяющей “расстояние” между двумя объектами и, следовательно, логично предположить, что должна удовлетворять неравенству треугольника. Данное свойство выполняется практически для всех функций определения степени различия.

Пример функции, удовлетворяющей свойствам 1 – 4:

, где
представляет собой разность множеств x и y. Она связана, например, с коэффициентами Дайса соотношением
.

Наконец, представим функцию определения степени различия в альтернативной форме:

, где суммирование производится по всем различным индексным терминам, входящим в коллекцию документов.

Используя векторное представление документов, для

двух векторов
для косинусного коэффициента соответствия

получаем следующую формулу:
.

Скажем несколько слов о вероятностном подходе для функций, определяющих степень соответствия. Степень соответствия между объектами определяется по тому, насколько их распределения вероятности отличаются от статистически независимого.


Начало  Назад  Вперед



Книжный магазин