Аддитивная бокс-кластеризация

В работе [56] предложена модель аддитивной кластеризации для решения проблемы бикластеризации. Помимо прочего, данная работа интересна тем, что в ней приведена обширная библиография по моделям и методам бимодальной кластеризации (two-mode clustering), которая охватывает период с 1972 по 1993. В основу подхода автор положил модель аддитивной кластеризации ([69],[55]) и адаптировал ее для бимодальных данных (например, объектно-признаковых).

В ключевой статье [56] обсуждается еще один схожий подход ошибки дисперсии (error-variance approach), предложенный в [31], проводится сравнение с ним, показано как с помощью модели аддитивной бокс-кластеризации можно преодолеть проблемы, возникающие при его использовании. Первая проблема заключается в выборе "стандартного" значения близости, используемого при построении кластеров, а вторая — в возможности выявления перекрывающихся кластеров. Помимо преодоления этих недостатков, кстати, отмеченных авторами этого метода, в модели аддитивной бокс-кластеризации оценивается вклад каждого кластера в общую сумму квадратов входных данных.

Алгоритм Apriori

Рассмотрим алгоритм Apriori, ставший первым эффективным алгоритмом поиска частых множеств признаков. Алгоритм Apriori предназначен для поиска всех частых множеств признаков. Он является поуровневым, использует стратегию поиска в ширину и осуществляет его снизу-вверх. В алгоритме используются две структуры данных:

Методы бикластеризации для анализа интернет-данных

— для хранения множества кандидатов в частые множества признаков длины

— для хранения частых множеств признаков длины

. Каждая структура имеет два поля — itemset, сохраняющее множество признаков, и support, которое хранит величину поддержки этого множества признаков. Алгоритм представлен в виде псевдокода и состоит из двух частей: самого Apriori — алгоритм2.5.1 и вспомогательной процедуры AprioriGen — алгоритм 2.5.2 .

Алгоритм 2.5.1. Apriori(Context,min_supp)

Процедура AprioriGen для

-элементных частых множеств признаков порождает их

-надмножества и возвращает только множество потенциально частых кандидатов.

Алгоритм 2.5.2. AprioriGen(

)

Алгоритм Apriori был разработан для извлечения частых множеств признаков из данных о покупках, которые обычно являются разреженными и слабо коррелированными. Для таких данных число частых множеств признаков невелико, и алгоритм работает очень хорошо. Позднее, когда возникла необходимость поиска частых множеств признаков в плотных, сильно коррелированных данных, оказалось, что Apriori неэффективно работает на таких массивах. Как следствие, для решения проблемы были предложены различные варианты оптимизации и расширения исходного алгоритма (например, Apriori-Close, Pascal, Zart).

Алгоритм BiMax

В обзоре[13] проводится систематическое сравнение пяти алгоритмов бикластеризации с предложенным авторами методом BiMax. И хотя каждый из алгоритмов взятых для сравнения придерживается своей собственной вычислительной модели, авторы обзора используют их только для анализа 0/1 данных. Преобразование значений в исходных наборах данных генной экспрессии к бинарным происходит путем нормализации их логарифмов и последующей дискретизации.

Алгоритм DR-miner

Все семейство бимножеств, упорядоченное по отношению

, образует решетку с нижним элементом

и верхним элементом

. Обозначим через

множество подрешеток из

, такие что

, где первая компонента бимножество являющееся нижним элементом, а вторая — верхним элементом. Алгоритм DR-miner использует такие решетки в качестве поискового пространства; основными этапами такого поиска являются перечисление (enumeration), отсечение (pruning) и распространение (propagation).

Алгоритм 2.3.1. DR-miner

Алгоритм DR-miner начинает работу с полной решетки

и затем рекурсивно распространяет ограничения, используя функцию Prop. Далее проверяется соответсвие полученной подрешетки введенным ограничениям посредством функции Prune, и порождаются две новых подрешетки, благодаря функции Enum (см. Алгоритм 2.3.1).

Процедура Enumeration. Пусть

таким образом, где

или

. Пусть функция

возвращает один элемент

, содержащий наибольшее число нулей на

, если

, или на

, если

. Благодаря этой функции достигается увеличение эффективности распространения ограничений посредством уменьшения пространства поиска (в том случае, если это возможно).

Процедура Pruning. Подрешетка более не рассматривается, если среди ее бимножеств нет удовлетворяющих ограничениям. Пусть функция

возвращает

тогда и только тогда, когда монотонному ограничению

(по отношению

) удовлетворяет верхний элемент подрешетки:

Пусть функция

возвращает

тогда и только тогда, когда aнтимонотонному ограничению

(по отношению

) удовлетворяет нижний элемент подрешетки:

Антимонотонное ограничение

используется в качестве

. Однако

не является ни монотонным, ни антимонотонным ограничением.

применяется для того, чтобы элементы, не принадлежащие подрешетке (т.е., те элементы, которые могут быть включены в бимножества), могли содержать больше нулей на верхнем элементе, чем внутренние, принадлежащие нижнему элементу (элементы принадлежащие каждому бимножеству). Пусть функция

определяется следующим образом:

<
В алгоритме DR-Miner используется функция

, определённая так.

Процедура Propagation.

могут быть использованы для уменьшения размера подрешетки посредством перемещения объектов из

или вне

. Для этого используются функции

, определяемая как

, рекурсивно применяется к подрешетке до тех пор, пока результат не перестанет изменяться. Подрешетка

называется листом, когда она содержит только одно бимножество, т.е.

. DR-бимножества являются такими максимальными бимножествами. В статье [19] доказывается корректность и полнота алгоритма.

Назад Содержание Вперёд

Алгоритмические стратегии поиска

Алгоритмы бикластеризации могут порождать либо один бикластер, либо несколько, в зависимости от типа задачи. Например, алгоритм Ченга и Черча [25] находит один бикластер за проход, а для нахождения следующих необходимо маскировать найденный случайными числами и выполнить повторный запуск алгоритма. Другие бикластерные подходы позволяют находить множество бикластеров за проход. Существуют также алгоритмы, которые позволяют осуществлять одновременное выявление бикластеров.

Принимая во внимание вычислительную сложность проблемы, было предложено большое число эвристик. Эти стратегии поиска можно разделить на пять классов:

итеративная комбинация кластеризации по строкам и столбцам;

стратегия разделяй и властвуй;

жадная стратегия итеративного поиска;

полное перечисление бикластеров;

определение параметров распределения.

Анализ данных посещаемости сайтов с помощью ФАП

С момента создания сайта перед его владельцами и, возможно, потенциальными рекламодателями встает вопрос учета количества посещений с целью определения популярности ресурса и выявления целевой аудитории. Сейчас рынок таких услуг довольно широко представлен рядом компаний, которые готовы предоставить владельцам сайтов различные счетчики посещений, учитывающие как количество посещений отдельными пользователями, так и их географию, текущее время и продолжительность посещения.

Как показывает развитие отрасли, для эффективного анализа структуры аудиторий сайтов статистической информации недостаточно. Владельца сайта часто интересуют подгруппы его целевой (постоянной) аудитории. Например, покупатели бытовой техники в Интернет-магазине могут отличаться по различным категориям (домохозяйки, лица, недавно сделавшие ремонт, или новоселы, владельцы заведений общепита и т.д.). Это дает владельцам сайтов возможность корректировать предлагаемые услуги, выбирать адекватные рекламные средства, выстраивать линейку продуктов и т.п.

Выводы о принадлежности к той или иной группе целевой аудитории можно сделать, анализируя поведение посетителей сайта, а именно, рассматривая посещение ими же других сайтов и выдвигая соответствующие гипотезы. Наш подход основан на применение решеток формальных понятий, неплохо зарекомендовавших себя при анализе структур научных сообществ и других, по сути, социологических исследованиях. Ниже мы опишем постановку задачи и спектр возможных путей ее решения, а также пути преодоления возникающих трудностей.

Постановка задачи

Компания Spylog — одна из ведущих фирм на российском рынке, специализирующаяся на сборе и анализе статистики посещаемости веб-сайтов. В рамках сотрудничества нами решается задача построения релевантной таксономии сайтов. В качестве данных для проведения экспериментов нам предложена выборка по статистике посещений 10000 сайтов с прилагаемым плоским тематическим каталогом по 59 категориям. Для конкретных экспериментов мы отобрали из них четыре сайта следующих тематик: сайт университета, сайт Интернет-магазина бытовой техники, сайт крупного банка, сайт автомобильного Интернет-салона.

Необходимо построить "внешнюю" и "внутреннюю" таксономии каждого из сайтов. Под "внешней" таксономией мы будем понимать иерархическую структуру аудитории целевого сайта, выявленную по данным посещений остальных сайтов выборки. Ей будет в точности соответствовать решетка формальныx понятий, построенная по контексту

, где

— множество всех посетителей целевого сайта,

— множество всех сайтов выборки за исключением целевого сайта,

— отношение инцидентности

, имеющее место для

, тогда и только тогда, когда посетитель

"ходил" на сайт

.

Под "внутренней" таксономией будем понимать иерархическую структуру аудитории целевого сайта построенную по данным посещений его собственных страниц (возможно сгруппированных по разделам). Соответствующий контекст определяется сходным образом

, где

— множество всех посетителей целевого сайта,

— множество всех собственных страниц целевого сайта,

— отношение инцидентности

, имеющее место для

тогда и только тогда, когда посетитель

"ходил" на сайт

. Понятию такого контекста соответствует пара

, такая что

множество сайтов

, которые посещали все посетители

, а

множество посетителей

, которые посещали все сайты

.

Исходные данные для построения "внешней" таксономии для каждого сайта представляются в виде файла записей следующего формата:

id; \\id посетителя;

last_ts; \\время первого захода на сайт;

first_ts; \\время последнего захода на сайт;

num; \\количество совершенных сессий за все время знакомства с сайтом.

Для построения внутренней таксономии используется аналогичная структура с дополнительным полем url_page, соответствующим посещенной странице данного сайта. По этим данными формируются описанные выше контексты. Ниже описываются способы отбора посетителей и сайтов для формирования контекстов.

Пути решения и возникающие проблемы

Несмотря на то, что выборка из 10000 сайтов сравнительно мала для российского Интернет-пространства, использование всей информации для анализа аудитории конкретного сайта влечет слишком большие вычислительные затраты. А построенные таксономии, представленные диаграммами решеток понятий, громоздки для визуального анализа и последующей интерпретации. Обсудим пути сокращения размера входных данных.

Отбор только тех посещений, которые превышают некоторый порог посещаемости. Это дает существенное сокращение числа объектов контекста, например, для 100000 посетителей порог посещаемости, поднятый до 20, может дать сокращение почти в 100 раз.

Отбор признаков (сайтов) можно также организовать по посещаемости, т.е. учитывать при составлении контекста только те сайты, на которых данные посетители бывали больше заданного числа раз. Таким образом, из контекста исключаются сайты, не релевантные для данной аудитории.

Целевой сайт также целесообразно рассматривать в терминах сайтов определенной тематики., например, в терминах сайтов газет или финансовых учреждений. Если учесть, что такие группы относительно невелики — 100-500 сайтов, то такой прием дает также существенное сокращение размера контекста.

Для контекста, построенного по внутренней структуре сайта, можно укрупнять признаки, уменьшая, тем самым, их количество. Например, если посетители сайта банка имеют личную страницу, то целесообразно считать все такие страницы одним признаком "личная страница". Аналогично можно поступить со страницами товаров, принадлежащих к одной товарной группе.

Предоставленные данные охватывают период около года, поэтому целесообразно выделить некий временной интервал и учитывать посещения, приходящиеся на него. Интервалом может быть месяц, день, время суток и т.п.

Но даже при таком сокращении размера входа, т.е. контекста, решетки понятий, а следовательно, и диаграммы имеют большие размеры и не слишком удобны для работы аналитика. Например, для контекста размера 4125×225 порождается 57 329 понятий.

Обсудим теперь, каким образом добиться уменьшения размера решетки на этом этапе, по возможности, без потери значимой информации.

Использование индекса устойчивости понятий для отбора наиболее устойчивых понятий [48], т.е. понятий, индекс устойчивости которых превышает заданный порог. Мы использовали пороги, начиная от 0.9, что соответствовало 100-200 наиболее устойчивым понятиям.

Применение отбора понятий по размеру объема, что соответствует построению решетки понятий, называемой айсбергом. Например, отбор 100 верхних понятий из всех понятий контекста, отсортированных по размеру объема.

Использование вложенных диаграмм, хотя и не позволяет сократить число понятий, но является удобным средством для визуализации решеток, учитывающим, например, разные тематики признаков. Например,

содержит подмножество сайтов тематики

. В каждом внешнем узле диаграммы, построенной по подконтексту первой тематики, можно увидеть внутреннюю решетку соответствующую подконтексту второй тематики.

Возможность комбинирования отбора по устойчивости и построения вложенных диаграмм. См. работу [63]

"Склеивание" понятий на основе ассоциативных правил, т.е. фактически, добавление ассоциативного правила как импликации, что приведет к уменьшению размера решетки.

Использование импликаций и ассоциативных правил как дополнительное средство выявления зависимостей. Поиск наиболее интересных импликаций следует производить, исходя из расположения понятий в решетке.

Остановимся подробнее на понятии индекса устойчивости [48, 49], который мы используем для отбора интересных групп посетителей при построении таксономий. С одной стороны, индекс устойчивости формального понятия служит показателем независимости содержания от частных объектов объема (наличие которых в контексте зависит от случайных факторов). С другой стороны, индекс устойчивости показывает, насколько сильно объем понятия отличается от похожих меньших объемов (если такая разница мала, то объем относится к устойчивой категории). Отметим, что впервые понятие устойчивости было предложено в работе [5].

Определение 5.1 Пусть

— формальный контекст,

некоторое формальное понятие

. Тогда индекс устойчивости

понятия

определяется выражением

Очевидно, что

.

Даже если описание данных зашумлено, то понятия с индексом устойчивости, близким к 1, вероятно, объективно отражают реальное положение дел. Индекс устойчивости показывает, насколько стабильны интересы групп посетителей, даже если некоторые из более не активны.

Обсудим теперь важные для интерпретации особенности построения решеточных таксономий.

При отборе посетителей по порогу посещаемости есть опасность построить таксономию для поведения поисковых роботов, а не реальных людей, интересующих владельца сайта. Когда порог по посещаемости велик, а промежуток времени, в течение которого происходили посещения, короткий, мы, фактически, исследуем поведение "поисковых маньяков" и поисковых роботов. Поэтому необходимо устанавливать разумные пороги по посещаемости как сверху, так и снизу, а также целесообразно использовать относительные пороги.

Чтобы выявить схожие аудитории людей, не посещающих целевой сайт, можно расширить исходный контекст добавлением в него таких пользователей, причем таких, которые посещают сайты, уже входящие в контекст.

Работа одновременно с внутренней структурой "целевого" сайта и прочими сайтами (признаки — сайты из имеющегося десятитысячного списка и страницы целевого сайта). В случае с сайтом университета это позволит, например, сравнить устремления людей, интересующихся разными факультетами.

Работа с контекстом

, где отмечается клетка на пересечении строки и столбца, если размер пересечения аудиторий двух сайтов не ниже некоторого порога. Это позволит выявить схожие устойчивые аудитории различных сайтов.

Для построения исходных контекстов можно отбирать только те сайты из десяти тысяч, размер пересечений аудитории которых с аудиторией целевого сайта не ниже некоторого порога. Это даст сокращение размера контекста и, возможно, повысит релевантность результатов.

Результаты

Рассмотрим некоторые результаты, полученные нами в ходе анализа посещаемости сайта ГУ-ВШЭ за ноябрь 2006 года. Мы построили как внутреннюю, так и внешние таксономии сайта. В качестве внешних сайтов мы рассматривали ресурсы новостной тематики, финансовых и образовательных учреждений. Приведем пример внешней таксономии для посетителей ГУ-ВШЭ в терминах ресурсов новостных сайтов. Отметим, что рассматриваемый временной промежуток — месяц, а порог на число посещений сайта ГУ-ВШЭ каждым пользователем равен 20.

Рис. 5.4. Решетка айсберг для 25-ти самых крупных понятий

На диаграмме решетки-айсберга для 25- ти понятий, имеющих наибольших объем, видны узлы, соответствующие СМИ середины политического спектра, которые посещаются "всеми" и потому не выявляют социальных групп.

Рис. 5.6. Частично упорядоченное множество 25-ти самых устойчивых понятий

Решетка понятий по 25-ти самым устойчивым понятиям содержит некоторые социологически значимые группы посетителей, такие как АИФ ("желтая пресса"), Cosmopolitan, Эксперт (профессионально-аналитические обзоры).

Выводы

Первые результаты придают уверенность в том, что средства ФАП окажутся подходящими для решения задачи выявления сообществ посетителей сайтов. В качестве направлений дальнейшей работы стоит выделить учет временных характеристик посещений и их последовательности. Необходимо обратить внимание на средства визуализации, такие как диаграммы вложенных решеток.

Назад Содержание Вперёд

Ассоциативные правила: общий взгляд

Дадим основные определения.

Определение 2.32 Пусть дан контекст

, где

— множество объектов,

— множество признаков (items),

— отношение инцидентности. Ассоциативным правилом контекста

называется выражение вида

, где

Определение 2.33 Поддержкой (support) ассоциативного правила

называется величина

Значение

показывает, какая доля объектов

содержит

. Часто поддержку выражают в

Определение 2.34 Достоверностью (confidence) ассоциативного правила

называется величина

Значение

показывает, какая доля объектов, обладающих

, также содержит

. Величину достоверности также часто выражают в

Для аналитика обычно интересны ассоциативные правила с поддержкой supp и степенью достоверности conf не ниже заданных значений min_supp и min_conf соответственно. Для решения этой задачи можно построить все частые множества признаков. Напомним, что множество признаков

называется частым, если оно принадлежит большому числу объектов, то есть

, где

— некоторый порог. Для этапа нахождения частых множеств признаков можно использовать алгоритм Apriori.

Частое ассоциативное правило получают из частого подмножества признаков

разбиением его на два подмножества

, то есть

, одно из которых (например,

) объявляют посылкой, а другое (

) — заключением ассоциативного правила. При таком разбиении

на

нужно проследить за тем, чтобы достоверность ассоциативного правила

была не ниже заданной.

Отметим, что ассоциативные правила при значениях

являются импликациями рассматриваемого контекста. Иногда ассоциативные правила записывают в форме

, где c и s — confidence и support данного правила соответственно.

Ассоциативные правила в контексте бикластеризации

В сообществе DataMining ассоциативные правила являются, пожалуй, одним из наиболее востребованных инструментов для исследования признаковых зависимостей. И хотя ассоциативные правила явно не относятся к методам бикластеризации мы не только укажем на их тесную связь с ФАП, но и покажем, как менее "жесткие", чем формальные понятия, бикластеры могут быть получены с помощью ассоциативных правил.

Одной из первых работ, положившей начало применению ассоциативных правил промышленного масштаба в середине 90-х годов прошлого века, была [10]. Однако ранее в анализе формальных понятий изучались так называемые частичные импликации [52], которые фактически и были переоткрыты как ассоциативные правила в сообществе DataMining. Появление раздела, посвященного задаче поиска ассоциаций, обосновано также тем, что, оказывается, с бискластеризацией их связывают не только теоретические рассмотрения, но и общие прикладные задачи.

Библиография

Биркгоф Г. Теория решеток. – М.:Наука, 1989.

Евтушенко С.А., Система анализа данных "Concept Explorer," труды 7-ой Национальной Конференции по Искусственному Интеллекту (КИИ-2000), Москва, 2000, с.127-134.

Игнатов Д.И., Кузнецов С.О. О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков // Труды 10-й национальной конференции по искусственному интеллекту с международным участием (КИИ’06). – М.:Физматлит, 2006, Т.2, стр.249-258.

С.А. Кедров, С.О. Кузнецов Исследование групп пользователей Интернет-ресурсами методами анализа формальных понятий и разработки данных (Data Mining)//Бизнес-информатика, №1—2007, стр. 45-51.

Кузнецов С.О. Устойчивость как оценка обоснованности гипотез, получаемых на основе операционального сходства// НТИ. Сер.2—1990. – N12. – С.21-29.

Кузнецов С.О., Игнатов Д.И., Объедков С.А., Самохин М.В. Порождение кластеров документов дубликатов: подход, основанный на поиске частых замкнутых множеств признаков. Интернет-математика 2005. Автоматическая обработка веб-данных. Москва: Яndex, 2005, стр. 302-319.

Объедков С.А., Алгоритмы и методы теории решеток и их применение в машинном обучении, Диссертация на соискание ученой степени кандидата технических наук. РГГУ, 2003.

Самохин М.В., Машинное обучение на узорных структурах, Диссертация на соискание ученой степени кандидата технических наук. ВИНИТИ, 2006.

R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, and A. Inkeri Verkamo, “Fast Discovery of Association Rules,” Advances in Knowledge Discovery, and Data Mining, U. Fayyad et al., eds., pp. 307-328, Menlo Park, Calif.: AAAI Press, 1996.

Agrawal R., Imielinski T., Swami A. Mining association rules between sets of items in large databases. Proceedings, ACM SIGMOD Conference on Management of Data, Washington D.C., pp. 207-216, 1993.

Amine Abou-Rjeili and George Karypis. Multilevel Algorithms for Partitioning Power-Law Graphs. IEEE International Parallel & Distributed Processing Symposium (IPDPS) (in press), 2006.

12

Badrul M. Sarwar, George Karypis, Joseph A. Konstan, John Riedl, "Analysis of recommendation algorithms for e-commerce",ACM Conference on Electronic Commerce, pp. 158-167, 2000.

13

Barkow, S., Bleuler, S., Prelic, A., Zimmermann, P., and E. Zitzler. BicAT: a biclustering analysis toolbox, Bioinformatics, 2006 22(10):1282-1283.

14

Belohlavek R. Lattice type fuzzy order and closure operators in fuzzy ordered sets. Proc. Joint 9th IFSA World Congress and 20th NAFIPS International Conference, 2001, Vancouver, Canada, IEEE Press, pp. 2281-2286.

15

Belohlavek R., Vychodil V. What is a fuzzy concept lattice? In: Proc. CLA 2005, 3rd Int. Conference on Concept Lattices and Their Applications, September 7-9, 2005, Olomouc, Czech Republic, pp. 34-45.

16

Ben-Dor,A., Chor,B., Karp,R. and Yakhini,Z. Discovering local structure in gene expression data: the order-preserving sub-matrix problem. In Proceed-ings of the 6th Annual International Conference on Computational Biology, ACM Press, New York, NY, USA, pp. 49-57, 2002.

17

J. Besson, C. Robardet, J-F. Boulicaut. Constraint-based mining of formal concepts in transactional data. In: Proceedings of the 8th Pacific-Asia Con-ference on Knowledge Discovery and Data Mining, 2004.

18

J. Besson, C. Robardet, J-F. Boulicaut, and S. Rome. Constraint-based bi-set mining for biologically relevant pattern discovery in microarray data. Intelligent Data Analysis journal, 9(1) :59–82, 2004.

19

Besson, J., Robardet, C., Boulicaut, J.F.: Mining a New Fault-Tolerant Pattern Type as an Alternative to Formal Concept Discovery, In: Schärfe, H.,Hitzler, P., Øhrstrøm, P. (eds.) ICCS 2006. LNCS (LNAI), vol. 4068, pp. 144-157. Springer, Heidelberg (2006).

20

A. Broder, On the resemblance and containment of documents, in Proc. Compression and Complexity of Sequences (SEQS: Sequences'97)

21

A. Broder, M. Charikar, A.M. Frieze, M. Mitzenmacher, Min-Wise Independent Permutations, in Proc. STOC, 1998.

22

A. Broder, Identifying and Filtering Near- Duplicate Documents, in Proc. Annual Symposium on Combinatorial Pattern Matching, 2000.

23

Stanislav Busygin, Gerrit Jacobsen, and Ewald Kramer. Double conjugated clustering applied o leukemia microarray data. In Proceedings of the 2nd SIAM International Conference on Data Mining, Workshop on Clustering High Dimensional Data, 2002.

24

Andrea Califano, Gustavo Stolovitzky, and Yunai Tu. Analysis of gene expression microarays for phenotype classification. In Proceedings of the International Conference on Computacional Molecular Biology, pages 75–85, 2000.

25

Cheng,Y. and Church,G. Biclustering of expression data. Proc. Int. Conf. Intell. Syst. Mol. Biol. pp. 93-103, 2000.

26

J. Cho, N. Shivakumar, H. Garcia-Molina, Finding replicated web collections, 1999

27

A. Chowdhury, O. Frieder, D.A.Grossman, and M.C. McCabe, Collection statistics for fast duplicate document detection, ACM Transactions on Information Systems, 20(2): 171-191, 2002

28

Davey B. A., Priestley H. A. Introduction to Lattices and Order. – Cambridge: Cambridge University Press, 2002.

29

Inderjit S. Dhillon. Co-clustering documents and words using bipartite spectral graph partitioning. In Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’01), pages 269–274, 2001.

30

Inderjit S. Dhillon, Subramanyam Mallela, and Dharmendra S. Modha. Information-theoretical co-clustering. In Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’03), pages 89–98, 2003.

31

Eckes, T., and Orlik, P., An Error Variance Approach to Two-mode Hierachical Clustering, Journal of Classification, 10, 51-74.

32

Freeman, L.: Cliques, Galois lattices, and the structure of human social groups. Social Networks 18 (1996) 173–187.

33

Ganter, B., and Wille, R. Formal Concept Analysis: Mathematical Foundations, Springer, 1999.

34

G. Getz, E. Levine, and E. Domany. Coupled two-way clustering analysis of gene microarray data. In Proceedings of the Natural Academy of Sciences USA, pages 12079–12084, 2000.

35

G. Grahne and J. Zhu, Efficiently Using Prefix-trees in Mining Frequent Itemsets, in Proc. FIMI Workshop, 2003.

36

J. Han and M. Kamber, Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001.

37

Hartigan JA (1972). "Direct clustering of a data matrix". Journal of the American Statistical Association 67 (337): 123-129.

38

Ahmad M. Hasnah. A New Filtering Algorithm for Duplicate Document Based on Concept Analysis.Journal of Computer Science, Vol. 2 Issue 5, pp. 434-440, 2006.

39

P. Becker, J. H. Correia. “The ToscanaJ Suite for Implementing Conceptual Information Systems”. In: Formal Concept Analysis. Ed. by Bernhard Ganter, Gerd Stumme, and Rudolf Wille. Vol. 3626. Lecture Notes in Computer Science. Berlin, Heidelberg, and New York: Springer–Verlag, pp. 324–348,2005.

40

T. H. Haveliwala, A. Gionis, D. Klein, and P. Indyk , Evaluating Strategies for Similarity Search on the Web, in Proc. WWW'2002, Honolulu, 2002.

41

Bruce Hendrickson and Robert Leland. The Chaco User's Guide: Version 2.0, Sandia Tech Report SAND94-2692, 1994.

42

Thomas Hofmann and Jaz Puzicha. Latent class models for collaborative filtering. In Proceedings of the International Joint Conference on Artificial Intelligence, pages 668–693, 1999.

43

Ihmels,J. et al. Defining transcription modules using large-scale gene expression, data. Bioinformatics, 20, 1993-2003, 2004.

44

S. Ilyinsky, M.Kuzmin, A. Melkov, I. Segalovich, An efficient method to detect duplicates of Web documents with the use of inverted index, in Proc. 11th Int. World Wide Web Conference (WWW'2002).

45

Yuval Klugar, Ronen Basri, Joseph T. Chang, and Mark Gerstein. Spectral biclustering of microarray data: coclustering genes and conditions. In Genome Research, volume 13, pages 703–716, 2003.

46

A. Kolcz, A. Chowdhury, J. Alspector, Improved Robustness of Signature-Based Near-Replica Detection via Lexicon Randomization, in Proc. KDD'04, Seattle, 2004.

47

S.O. Kuznetsov and S.A. Obiedkov, Comparing Performance of Algorithms for Generating Concept Lattices, Journal of Experimental and Theoretical Artificial Intelligence, vol. 14 (2002), pp. 189-216.

48

Kuznetsov, S.O.: On stability of a formal concept. In SanJuan, E., ed.: JIM, Metz,France (2003)

49

Kuznetsov, S. O.: On stability of a formal concept. Annals of Mathematics and Artificial Intelligence 49, 101-115 (2007).

50

Sergei O. Kuznetsov, Dmitrii I. Ignatov, Concept Stability for Constructing Taxonomies of Web-site Users//Proc. Satellite Workshop "Social Network Analysis and Conceptual Structures: Exploring Opportunities" at the 5th International Conference Formal Concept Analysis (ICFCA'07), Clermont-Ferrand,P. 19-24, 2007.

51

Laura Lazzeroni and Art Owen. Plaid models for gene expression data. Technical report, Stanford University, 2000.

52

Luxenburger M. Implications partielles dans un contexte. Mathematiques, Informatique et Sciences Humaines, 113 (29) : 35-55, 1991.

53

Jinze Liu and Wei Wang. Op-cluster: Clustering by tendency in high dimensional space. In Proceedings of the 3rd IEEE International Conference on Data Mining, pages 187–194, 2003.

54

Sara C. Madeira and Arlindo L. Oliveira, "Biclustering Algorithms for Biological Data Analysis: A Survey", IEEE/ACM Transactions on Computational Biology and Bioinformatics, VOL 1, NO. 1, pp. 24-45 January-March 2004.

55

Mirkin, B.G.: Additive Clustering and Qualitative Factor Analysis Methods for Similarity Matrices. Journal of classifiacation 4, 7-31 (1987).

56

Mirkin, B.G., Arabie, P., Hubert L.: Additive Two-Mode Clustering: The Error-Variance approach Revisited. Journal of classifiacation 12, 243-263 (1995).

57

Mirkin, B.G. Mathematical Classification and Clustering. Kluwer Academic Publishers, 1996.

58

Murali,T.M. and Kasif,S. Extracting conserved gene expression motifs from gene expression data. Pac. Symp. Biocomput., 8, 77-88, 2003.

59

N. Pasquier, Y. Bastide, R. Taouil, L. Lakhal, Efficient Mining of Association Rules Using Closed Itemset Lattices, Inform. Syst., 24(1), 25-46, 1999.

60

Prelic, A., Bleuer, S., Zimmermann, P., Wille, A., Bhlmann, P., Gruissem, W., Hennig, L., Thiele, L., Zitzler, E.: A systematic comparison and evalua-tion of biclustering methods for gene expression data. Bioinformatics 22(9), 1122-1129, 2006.

61

W. Pugh, M. Henzinger, Detecting duplicate and near- duplicate files United States Patent 6658423 (December 2, 2003).

62

Matt Rasmussen and George Karypis. gCLUTO: An Interactive Clustering, Visualization, and Analysis System. UMN-CS TR-04-021, 2004.

63

Camille Roth, Sergei Obiedkov, Derrick G. Kourie: "Towards Concise Representation for Taxonomies of Epistemic Communities",CLA 4th International Conference on Concept Lattices and their Applications (2006)

64

Rome, J.E., Haralick, R.M.: Towards a formal concept analysis approach to exploring communities on the world wide web. In Ganter, B., Godin, R., eds.: ICFCA 2005. Volume 3403 of LNAI. (2005) 33–48

65

Roth, C., Bourgine, P.: Lattice-based dynamic and overlapping taxonomies: the case of epistemic communities. Scientometrics 69(2) (2006)

66

Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller. Rich probabilistic models for gene expression. In Bioinformatics, volume 17 (Suppl. 1), pages S243–S252, 2001.

67

Eran Segal, Ben Taskar, Audrey Gasch, Nir Friedman, and Daphne Koller. Decomposing gene expression into cellular processes. In Proceedings of the Pacific Symposium on Biocomputing, volume 8, pages 89–100, 2003.

68

Qizheng Sheng, Yves Moreau, and Bart De Moor. Biclustering micrarray data by gibbs sampling. In Bioinformatics, volume 19 (Suppl. 2), pages ii196–ii205, 2003.

69

Shepard, R.N., and Arabie, P. Additive Clustering: Representation of Similarities as Comdinations of Discrete Overlapping Properties, Psyhological Review, 86, 87 -123 (1979).

70

N. Shivakumar, H. Garcia-Molina, Finding near-replicas of documents on the web. Proceedings of Workshop on Web Databases (WebDB'98), 1998.

71

Michael Steinbach, George Karypis and Vipin Kumar. A Comparison of Document Clustering Techniques. KDD Workshop on Text Mining, 2000.

72

G. Stumme and R. Taouil and Y. Bastide and N. Pasqier and L. Lakhal. Computing Iceberg Concept Lattices with Titanic. J. on Knowledge and Data Engineering, (42)2:189-222,2002.

73

G. Stumme, A. Madche. FCA Merge: Bottom-Up Merging of Ontologies. Proc. 17th Intl. Conf. on Artificial Intelligence (IJCAI '01). Seattle, WA, USA, 225-230,2001.

74

L. Szathmary and A. Napoli. CORON: A Framework for Levelwise Itemset Mining Algorithms. In B. Ganter, R. Godin, and E. Mephu Nguifo, editors, Supplementary Proceedings of The Third International Conference on For-mal Concept Analysis ICFCA '05, Lens, France, pages 110-113, Feb 2005.

75

L. Szathmary, A. Napoli, and S. O. Kuznetsov. ZART: A Multifunctional Itemset Miner Algorithm. LORIA Research Report A05-R-013, Feb 2005.

76

Amos Tanay, Roded Sharan, and Ron Shamir. Discovering statistically significant biclusters in gene expression data. In Bioinformatics, volume 18 (Suppl. 1), pages S136–S144, 2002.

77

A. Tanay. R. Sharan, and R. Shamir, "Biclustering Algorithms: A Survey", In Handbook of Computational Molecular Biology, Edited by Srinivas Aluru, Chapman (2004)

78

Chun Tang, Li Zhang, Idon Zhang, and Murali Ramanathan. Interrelated two-way clustering: an unsupervised approach for gene expression data analysis. In Proceedings of the 2nd IEEE International Symposium on Bioinformatics and Bioengineering, pages 41–48, 2001.

79

Lyle Ungar and Dean P. Foster. A formal statistical approach to collaborative filtering. In Proceedings of the Conference on Automated Learning and Discovery (CONALD’98), 1998.

80

Petko Valtchev, David Grosser, Cyril Roume, Mohamed Rouane Hacene, GALICIA: an open platform for lattices, in Using Conceptual Structures: Contributions to the 11th Intl. Conference on Conceptual Structures (ICCS'03), pp. 241-254, Dresde (DE), Shaker Verlag, 2003.

81

Haixun Wang, Wei Wang, Jiong Yang, and Philip S. Yu. Clustering by pattern similarity in large data sets. In Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, pages 394–405, 2002.

82

White, D.R., Duquenne, V.: Social network & discrete structure analysis: Introduction to a special issue. Social Networks 18 (1996) 169–172.

83

Wille R. Restructuring Lattice Theory: an Approach Based on Hierarchies of Concepts // Ordered Sets / Ed. by I. Rival.– Dordrecht; Boston: Reidel, 1982. – P. 445–470.

84

Jiong Yang, Wei Wang, Haixun Wang, and Philip Yu.

-clusters: Capturing subspace correlation in a large data set. In Proceedings of the 18th IEEE International Conference on Data Engineering, pages 517–528, 2002.

85

Jiong Yang, Wei Wang, Haixun Wang, and Philip Yu. Enhanced biclustering on expression data. In Proceedings of the 3rd IEEE Conference on Bioinformatics and Bioengineering, pages 321–327, 2003.

86

Mohammed J. Zaki, Ching-Jui Hsiao, Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transaction on Knowledge and Data Engineering, Vol 17, No. 4, pp. 462-478, 2005.

87

Y.Zhao and G. Karypis, Empirical and Theoretical Comparison of Selected Criterion Functions for Document Clustering. Machine Learning, vol. 55, pp. 311-331, 2004.

88

L.Е. Zhukov. Technical Report: Spectral Clustering of Large Advertiser Datasets Part I. Overture R&D, 2004.

Бикластеризация

В этом разделе мы опишем проблематику задачи и дадим основные определения, которыми оперирует бикластеризация как метод анализа данных. Помимо это будут приведены основания для классификации методов и алгоритмов бикластеризации. В качестве таких оснований выступают следующие критерии: типы бикластеров, структура бикластеров, получаемых в ходе анализа, а также стратегии поиска, которые используют рассматриваемые алгоритмы. Отметим, что основания для классификации алгоритмов были даны раннее португальским ученым Сарой Мадейра (см. обзор по методам бикластеризации генетических данных []).

Мы используем выявленные критерии для построения таксономии методов и дополняем существующую классификацию. В частности, мы рассматриваем методы бикластеризации, которые возникли вне области биоинформатики и предназначены для решения других задач, а также теми методами, которые появились позже написания обзора [] или не вошли в него. По этой же причине мы не рассматриваем подробно те модели, которые описаны в обзорах [], [] и []. В качестве еще одного критерия классификации можно использовать область применения метода, но для этого необходимо строго типизировать задачи.

Бикластеризация электоральных данных

Существуют и менее распространенные приложения бикластеризации, опирающиеся, например, на данные о голосовании. В этом случае необходимо выявлять подмножества строк избирателей, придерживающихся похожих политических взглядов и проявляющих сходное электоральное поведение на подмножестве рассматриваемых признаков.

Хартиган[37] применял бикластеризацию для двух массивов данных. Первый массив — данные о голосовании на президентских выборах США, отражающие процент голосов, которые были отданы за республиканцев в южных штатах в период с 1900 г. по 1968 г. Второй массив данных о голосовании в ООН в 1969 г. и 1970 г. В первом случае матрица состоит из множества строк, представляющих штаты, и множества столбцов, соответствующих годам. Каждое значение

представляет процент голосов штата

в году

Бикластер в этом случае — это подмножество штатов со сходными результатами голосования на подмножестве годов. Для второго набора строки соответствуют странам, а столбцы — предложениям по обсуждаемым вопросам. Бикластером является множество стран со сходными голосами на подмножестве обсуждаемых предложений.

Благодарности

В своей исходной версии данная работа представляет собой магистерское диссертационное исследование, поддержанное в рамках проекта «Учитель-ученики» ГУ-ВШЭ № 08-04-0022 «Разработка методов построения таксономий объектов на основе решеток формальных понятий и методов бикластеризации». Автор выражает благодарности аспиранту факультета ВМиК МГУ Кудрявцеву Юрию и доценту кафедры анализа данных и искусственного интеллекта ГУ-ВШЭ Объедкову Сергею за внимательное прочтение работы, выявление ошибок и ценные замечания. Отдельная благодарность Кудрявцеву Юрию за подготовку трансляции данного обзора из формата TeX в HTML.

Назад Содержание

Частично упорядоченные множества и решётки

Определение 2.1 Бинарное отношение

на некотором множестве

называется отношением (нестрогого) частичного порядка, если для

(рефлексивность);

, то

(антисимметричность);

, то

(транзитивность).

Множество S с определённым на нем отношением частичного порядка

(частично упорядоченное множество) обозначается

. Если

, то говорят, что элемент

меньше, чем

или равен ему. Если для

не существует

, такого что

, то

называют максимальным элементом

(относительно

Если

, то пишут

и говорят, что

строго меньше, чем

Определение 2.2 Пусть

— частично упорядоченное множество. Элемент

называется соседом снизу элемента

, если

. В этом случае

называется соседом сверху

(обозначается

). Направленный граф отношения

называется графом покрытия.

Конечное частично упорядоченное множество

может быть графически представлено с помощью диаграммы Хассе (или просто диаграммы [1]). Элементы

изображаются в виде точек. Если

, то

размещается "над"

(вертикальная координата

больше вертикальной координаты

), и две точки соединяются линией.

Определение 2.3 Верхней гранью подмножества

в упорядоченном множестве

называется элемент

, такой что

для всех

. Точная верхняя грань множества

(называемая также наименьшей верхней гранью или супремумом) множества

(обозначается sup

) есть верхняя грань

такая, что

для любой верхней грани

подмножества

. Двойственным образом (с заменой

на

) определяется понятие точной (наибольшей) нижней грани или инфимума inf

Определение 2.4 Бинарная операция

называется полурешёточной, если для некоторого

и любых

(идемпотентность);

(коммутативность);

(ассоциативность);

Для

мы пишем

вместо

. Если

, то

Определение 2.5 Множество

с определённой на нем полурешёточной операцией

называется полурешёткой

Полурешёточная операция

задает два частичных порядка

на

(

Тогда множество с определённой на нем полурешёточной операцией

будем называть нижней полурешёткой (относительно частичного порядка

) и верхней полурешёткой (относительно частичного порядка

).

Определение 2.6 Пусть

— полурешётка. Множество

называется системой замыканий [33] или семейством Мура [1] (относительно

), если

.

Очевидно, что система замыканий (относительно

)

с определённой на ней операцией,

, образует полурешётку.

Определение 2.7 Упорядоченное множество

с определёнными на нем полурешёточными операциями

называется решёткой, если

являются, соответственно, нижней и верхней полурешётками (относительно

).

Операции

называют операциями взятия точной нижней и верхней грани в решётке, или инфимума и супремума соответственно.

Определение 2.8 Подрешёткой решётки

называется подмножество

такое, что если

, то

.

Полурешёточные операции

удовлетворяют в решётках следующему условию:

(поглощение).

Из любой конечной полурешётки можно получить решётку добавлением одного (максимального или минимального в зависимости от типа полурешетки) элемента.

Решётка называется полной, если у каждого подмножества его элементов есть супремум и инфимум (всякая конечная решётка является полной).

Определение 2.9 Интервал

состоит из всех элементов

, которые удовлетворяют неравенствам

. Порядковым фильтром (идеалом) решётки

называется подмножество

такое, что если

, то

(соответственно,

, то

).

Элемент

решётки называется инфимум-неразложимым или

-неразложимым (или неразложимым в пересечение), если для любых

, не выполняется

. Элемент

решётки называется супремум-неразложимым или

-неразложимым (или неразложимым в объединение), если для любых

не выполняется

.

Подмножество

полной решётки

называется инфимум-плотным, если

, и супремум-плотным, если

).

Определение 2.10 Пусть

— частично упорядоченные множества. Пара отображений

называется соответствием Галуа между частично упорядоченными множествами

, если для любых

;

.

Приведённые условия эквивалентны одному:

[1,33,28].

Назад Содержание Вперёд

Частые (замкнутые) множества признаков

Задача поиска частых множеств признаков (frequent itemsets mining) является одной из центральных тем в DataMining. Первоначально необходимость поиска частых множества признаков возникла при выявлении часто покупаемых вместе товаров в базах данных транзакций. Неформально ее можно описать так: дана большая база данных транзакций (покупок); необходимо найти все часто покупаемые наборы товаров, число покупок которых превышает заданный пользователем порог.

В настоящее время набор приложений, в которых основным этапом является построение частых множеств признаков, существенно расширился, например, это поиск ассоциативных правил (см. раздел2.6), сильных правил (strong rules), корреляций, секвенциальных правил, эпизодов (episodes), многомерных образов (multidimensional patterns) и многие другие задачи анализа данных [36].

Среди частых множеств признаков выделяют так называемые частые замкнутые множества признаков, которые полезны для их более компактного представления. Такое представление осуществляется без потерь информации о поддержке собственных частых подмножеств данных частых замкнутых множеств признаков.

Хорошо известным фактом для сообщества DataMining является то, что все замкнутые частые множества признаков (т.е. при

) образуют решетку; эта решетка изоморфна решетке понятий контекста для соответствующей базы данных. Более того, все замкнутые множества признаков образуют в точности решетку содержаний понятий такого контекста [86].

Ниже будут даны основные определения; для единства изложения и общности понимания которых будем использовать терминологию, принятую в ФАП. Приведем также классический алгоритм для поиска частых множеств признаков Apriori [9], который не утратил своей актуальности и стал отправной точкой для огромного числа других алгоритмов. Обсудим также связь ФАП и поиска частых замкнутых множеств признаков, которая позволяет рассматривать оба метода в контексте бикластеризации.

Другие системы бикластеризации

Стоит отдельно упомянуть системы бикластеризации на графах и спектральной кластеризации. Система CLUTO [71,87] — библиотека алгоритмов для кластеризации как данных небольшой размерности, так и многомерных, а также анализа свойств различных кластеров. Авторы рекомендуют использовать CLUTO для кластеризации данных во многих областях, таких как информационный поиск, базы данных транзакций, Интернет и биология. В программе реализована кластеризация на графах, различные меры сходства, поддерживается поиск клик графа и частых множеств признаков, реализованы удобные средства визуализации gCluto [62].Отличительная особенность программы заключается в возможности анализа больших массивов, содержащих сотни тысяч объектов и десятки тысяч признаков.

Две других системы предназначенные для графовой кластеризации — это Chaco [41] и METIS [11]. Укажем, что Metis отличается высокой скоростью вычислений для больших массивов данных, а в Chaco реализована спектральная кластеризация на графах. Не будем подробно их описывать, но укажем на то, что поиск клик и их различных ослаблений в двудольном графе (в том числе и взвешенном) сводится к постановкам задач бикластерзации. А это означает, что такие системы можно рассматривать как системы бикластеризации.

Формальный анализ понятий (ФАП)

Определение 2.11 Формальный контекст

есть тройка

, где

— множество, называемое множеством объектов,

— множество, называемое множеством признаков,

— отношение.

Отношение

интерпретируется следующим образом: для

имеет место

, если объект

обладает признаком

Для формального контекста

и произвольных

определена пара отображений:

которые задают соответствие Галуа между частично упорядоченными множествами

(см. Раздел 2.1.1), а оператор

является оператором замыкания на

— дизъюнктном объединении

, т.е. для произвольного

или

имеют место следующие соотношения [1]:

(экстенсивность),

(идемпотентность),

если

, то

(изотонность).

Множество

называется замкнутым, если

[1].

Определение 2.12 Формальное понятие формального контекста

есть пара

, где

. Множество

называется объёмом, а

— содержанием понятия

Очевидно, что объем и содержание произвольного формального понятия являются замкнутыми множествами.

Множество формальных понятий контекста

, которое мы будем обозначать посредством

, частично упорядочено по вложению объёмов: формальное понятие

является менее общим

(более частным), чем понятие

, если

, что эквивалентно

(

— обобщение

В работе [1] было показано, что подмножества произвольного множества, замкнутые относительно заданной на нем операции замыкания, образуют полную решётку, а в работах [83,33] — что множество всех понятий формального контекста

образует полную решётку.

Определение 2.13 Множество понятий контекста

образует решётку

, где

. и

. Такие решётки называют решётками понятий, или решётками Галуа [33].

Любая полная решётка изоморфна решётке понятий некоторого формального контекста [33]. В качестве объектов этого контекста нужно выбрать

-неразложимые элементы, а в качестве признаков —

-неразложимые элементы исходной решётки. Тогда объект

в контексте будет обладать признаком

, если элемент решётки, соответствующий

, находится "под" элементом, соответствующим

.

Определение 2.14 Строчно- (столбцево-) редуцированным называется такой формальный контекст, в котором всякое объектное (признаковое) понятие является

-неразложимым (

-неразложимым). Редуцированным называется формальный контекст, являющийся одновременно строчно- и столбцево-редуцированным.

Определение 2.15 Пусть дан

— формальный контекст и

, тогда выражение

называется импликацией (на множествах признаков), если

(или

), т.е. все объекты из

, обладающие множеством признаков

, обладают также множеством признаков

.

Аналогичным образом определяются импликации на множествах объектов. Наличие импликации

в контексте

соответствует тому, что в диаграмме решётки

формальное понятие

находится ниже формального понятия

.

Импликации формального контекста удовлетворяют аксиомам Армстронга [33] для произвольных

;

если

то

;

если

то

.

Помимо определённых выше однозначных (one-valued) формальных контекстов в анализе формальных понятий изучаются многозначные (many-valued) контексты:

Определение 2.16 Многозначный формальный контекст есть четвёрка

, где

— множества (объектов, признаков и значений признаков, соответственно), а

— тернарное отношение

, задающее значение

признака

,

причём:

влечёт

.

Многозначные признаки могут рассматриваться как отображения

, таким образом, можно обозначать

вместо

.

Процедура сведения многозначных контекстов к однозначным называется шкалированием (scaling). Для шкалирования каждый признак многозначного контекста представляется формальным контекстом, называемым шкалой.

Определение 2.17 Шкала для признака

многозначного контекста

есть (однозначный) контекст

такой, что

. Объекты в шкале называются значениями шкалы, а признаки — признаками шкалы.

Определение 2.18 Пусть задан многозначный контекст

и шкалы

, тогда производным контекстом будем называть контекст

, где множество признаков

(

) и отношение

.

В нашей работе для построения таксономии алгоритмов использовалось два варианта шкалирования — порядковое шкалирование и номинальное шкалирование. Порядковая шкала

используется для признаков, значения которых упорядочены относительно некоторого порядка

, а обладание объектом некоторым значением признака влечёт обладание всеми меньшими значениями признака. С помощью номинальной шкалы

представляют несравнимые между собой значения признаков, например, цвет.

Возможные виды шкалирования рассмотрены в [33].

Назад Содержание Вперёд

Формирование бикластеров для рекомендательной системы Интернет-рекламы

Одна из разновидностей электронной коммерции — контекстная Интернет-реклама. Сейчас на рынке таких услуг крупными игроками являются поисковые системы, немалую часть прибыли которых составляет так называемая поисковая реклама. Для России репрезентативными примерами служат рекламные Интернет-сервисы "Яндекс.Директ" и "Бегун".

Пользователю предлагается реклама, релевантная (с точки зрения поисковой системы) его поисковому запросу. В этом разделе мы не будем рассматривать задачу предоставления пользователю наиболее интересной ему поисковой рекламы. Наша задача — выявление рекламных слов, которые могут быть интересны рекламодателю.

Предположим, что некая фирма F приобрела ряд рекламных слов, которые описывают предоставляемые услуги. Как правило, на рынке уже существуют компании-конкуренты, поэтому вполне разумно было бы выяснить, какие рекламные слова приобрели они. Далее можно сравнить эти множества слов с теми, что купила F и, исходя из частоты таких покупок, отобрать наиболее интересные слова для нее из числа неприобретенных. Такой механизм стимулирует продажи рекламы и позволяет устраивать своеобразный аукцион по определению цены того или иного рекламного словосочетания.

Решение подобной задачи методами спектральной кластеризации описано в [88]. Цель наших экспериментов — не только расширить список методов бикластеризации, пригодных для решения этой задачи, но и улучшить качество предложенных рекомендаций. Ниже приведено описание исходного набора данных, постановка задачи, предложены методы для ее решения, описаны проведенные эксперименты и полученные результаты.

Постановка задачи и исходные данные

Данные для экспериментов принадлежат компании US Overture (ныне часть Yahoo) и описаны в работе [88]. Фактически, данные представляют собой двумерный массив, в котором строкам соответствуют фирмы (advertisers), а столбцам — рекламные слова (bids). Число фирм — 2000, а число рекламных словосочетаний — 3000. Число ненулевых ячеек 92345, соответственно, мера разреженности равна

. Единица в ячейке означает, что фирма, соответствующая индексу строки, приобрела словосочетание, которое соответствует столбцу. Ноль означает отсутствие такой покупки.

Рис. 5.7. Исходные данные

Минимальное число заполненных ячеек в строке — 13. Это означает, что фирмы, представленные в наборе данных, покупают минимум 13 рекламных слов. Максимальное число заполненных ячеек в строке — 947. Минимальное число заполненных ячеек в столбце — 18, т.е. одно словосочетание покупает не меньше 18 фирм. Максимальное число непустых ячеек в столбце — 159.

По этим данным требуется построить бикластеры (фирмы, рекламные слова), которые представляют собой сегменты рынка. Далее такие бикластеры можно использовать для создания рекомендаций для фирм, действующих на этом же рынке, но не совершившим покупки слов, входящих в такой бикластер. В случае бикластеризации, допускающей незаполненные ячейки внутри бикластера, рекламные слова, отвечающие таким ячейкам, можно рассматривать в качестве кандидатов для рекомендаций.

Подобные рекомендации можно представлять в виде правил: "если фирма приобрела рекламное словосочетание A, то имеет смысл предложить ей словосочетание B". Такие правила "если-то" хорошо вписываются в парадигму поиска ассоциаций. В существующей научной литературе неоднократно описывались рекомендательные системы, основанные на анализе ассоциативных правил, см. [12]. Эти методы наряду с другими, используемыми в рекомендательных системах, показывают приемлемые результаты. Ниже мы опишем, как можно использовать семантическую и морфологическую информацию, заложенную в описании признаков (рекламных слов), и, тем самым, улучшить качество рекомендационных правил.

Вычислительная модель

Исходный массив данных описывается формальным контекстом

(от firms) — множество компаний-рекламодателей, а

(от term) — множество рекламных словосочетаний,

— отношение инцидентности, показывающее, что фирма

купила словосочетание

тогда и только тогда, когда

.

Для решения задачи мы последовательно применяли следущие подходы и алгоритмы:

алгоритм D-miner для выявления крупных рынков средствами ФАП;

поиск ассоциативных правил для построения рекомендаций;

построение ассоциативных метаправил с помощью морфологического анализа;

построение ассоциативных метаправил с помощью онтологий (тематического каталога);

1) Алгоритм D-miner — выявление крупных рынков средствами ФАП.

Алгоритм D-miner подробно описан в работах [18] и [17]. Основное предназначение алгоритма — построение множества понятий по заданному контексту при ограничениях на размер объема и содержания. Фактически, задавая ограничение на размер объема понятия, мы строим так называемую решетку-айсберг. Аналогично при ограничении на размер содержания, мы строим "нижний" айсберг (т.е. нижнюю часть решетки).

Алгоритм D-miner принимает на вход контекст и два параметра — минимальные размеры объема понятия и содержания. При отличных от нуля ограничениях на размеры понятия на выходе алгоритма мы получим частично упорядоченное множество, представляющее "полосу" из средней части решетки, либо результат алгоритма будет пуст, если нет понятий, удовлетворяющих условиям отбора. Отметим, что алгоритм имеет приемлемую вычислительную сложность —

, а его исполнимый файл доступен на сайте авторов.

Таблица 5.1:

Результаты работы алгоритма D-miner

Минимальный размер	Минимальный	Число
объема понятия	размер содержания	формальных понятий
0	0	8 950 740
10	10	3 030 335
15	10	759 963
15	15	150 983
15	20	14 226
20	15	661
20	20	0
20	16	53

Рис. 5.8. Решетка понятий и слой понятий, порождаемый алгоритмом D-miner

Приведем примеры содержания формальных понятий для случая

.

Рынок услуг по размещению сайтов

affordable hosting web, business hosting web, cheap hosting, cheap hosting site web, cheap hosting web, company hosting web, cost hosting low web, discount hosting web, domain hosting, hosting internet, hosting page web, hosting service, hosting services web, hosting site web, hosting web

Рынок азартных игр.

black casino jack, black gambling jack, black jack online, casino gambling, casino gambling online, casino game online, casino internet, casino line, casino net, casino online, casino roulette, casino slot, craps online, gambling internet, gambling online

Гостиничный бизнес.

angeles hotel los, atlanta hotel, baltimore hotel, dallas hotel, denver hotel, diego hotel san, francisco hotel san, hotel houston, hotel miami, hotel new orleans, hotel new york, hotel orlando, hotel philadelphia, hotel seattle, hotel vancouver

2) Рекомендации на основе ассоциативных правил.

По данному контексту построим с помощью программы Coron (см. раздел 3.3) информативный базис ассоциативных правил [75]. Информативный базис выбран нами, во-первых, для более компактного представления множества правил, а во-вторых, для повышения вычислительной эффективности. Напомним, что идея базиса состоит в том, что все остальные ассоциативные правила выводимы из него с помощью аксиом Армстронга. Результаты работы алгоритма приведены в таблице 5.2.

Таблица 5.2:

Результаты поиска ассоциаций с помощью системы Coron

				число правил
30	86	0,9	1	101 391
30	109	0,8	1	144 043

Приведем также некоторые примеры построенных правил.

minsupp=30, minconf=0,9

, supp=30 [1.50%]; conf=0.909 [90.91%];

, supp=41 [2.05%]; conf=0.820 [82.00%];

Величина поддержки

для первого правила означает, что словосочетания "game slot" и "casino gambling online" купили 30 фирм. Величина достоверности

означает, что 90,9% фирм, которые покупают словосочетание "game slot", также покупают и "casino gambling online".

Далее для формирования рекомендаций для каждой конкретной фирмы можно применять подход, предложенный в [12]. Для покупателя слов

находим все ассоциативные правила, в левой части которых содержатся им купленные слова. Далее строим множество

— уникальных рекламных словосочетаний, не купленных

ранее. Затем упорядочиваем найденные словосочетания по убыванию величины достоверности правил, в правую часть которых они входят. Если покупка одного и того же словосочетания предсказана несколькими правилами, то мы рассматриваем ассоциацию с наибольшей достоверностью.

3) Построение метаправил на основе морфологии рекламных слов признакового пространства.

Рассмотрим в качестве дополнительного знания имеющееся признаковое пространство, а именно, тот факт, что каждый признак является словом или словосочетанием. Вполне очевидно, что синонимичные словосочетания принадлежат к одному сегменту рынка. Конечно, в штате компаний, занимающихся контекстной рекламой, существуют тематические каталоги, составленные экспертами, но ввиду большого количества рекламных слов (несколько тысяч) наполнение каталога "вручную" является сложной задачей.

Для построения тематического каталога рекламных словосочетаний могут потребоваться словари синонимов, а из-за того, что такие словосочетания не всегда являются словами или сочетаниями двух слов, такие словари редки. К тому же, рекламное словосочетание может включать специфические сокращения, отсутствующие в словарях синонимов общего назначения. Поэтому в качестве первого приближения для решения такой задачи можно использовать стемминг, или выделение основы слова. Опишем последовательность действий при извлечении знаний с помощью стемминга.

Пусть

— некое рекламное словосочетание. Представим это словосочетание в виде множества образующих его слов

. Основу слова

обозначим через

. Множество основ словосочетания

обозначим через

. Построим формальный контекст

, где

— множество всех словосочетаний, а

— множество основ всех словосочетаний из

, т.е.

. Тогда

будет означать, что во множество основ словосочетания

входит основа

.

Построим по такому контексту правила вида

для всех

. Тогда такому метаправилу контекста

соответствует

— ассоциативное правило контекста

. Если величина поддержки и достоверности такого правила в контексте

превышают некоторые пороговые значения, то можно считать ассоциативные правила, построенные по контексту

, не столь интересными (их можно вывести из описания признаков).

В качестве более крупных метаправил мы предлагаем следующие две возможности. Во-первых, можно искать правила вида

, т.е. правила, в правую часть которых входят все термы, имеющие хотя бы одно однокоренное слово с исходным термом. Во-вторых, правила вида

, т.е. правила, термы в правой части которых содержат те же основы, что и исходный терм. Довольно очевидно, что первый тип правил может привести к объединению различных словосочетаний, например "black jack" — игровой бизнес и "black coat" — одежда. Такое объединение произошло благодаря наличию общего слова "black". Второй тип правил относится к более редким зависимостям, например,

. Поэтому меры поддержки и достоверности при построении простых метаправил должны служить их мерой пригодности для дальнейшего использования.

Мы предлагаем также использовать метаправила вида

, такие что

. Такие правила имеют простую интерпретацию: из словосочетания

следует словосочетание, множество основ которого вкладывается в множество основ

.

Примеры метаправил.

;

;

{mail order phentermine} → {adipex online order, adipex order,adipex phentermine,

phentermine prescription, phentermine purchase, phentermine sale},

Supp = 19; Conf = 0,95;

;

{distance long phone} → {call distance long phone, carrier distance long phone,

distance long phone rate, distance long phone service},

Supp = 37, Conf = 0,88;

, такие что

;

, Supp = 14; Conf = 0,7.

4) Построение онтологии и семантических метаправил на ее основе. Несмотря на то, что в информатике не существует общего формального определения понятия онтологии, можно выделить его основные черты: понятия, иерархическое отношение IS-A и другие отношения. Мы будем следовать определению, приведенному в [72]:

Определение 5.2

Онтология — это кортеж

, где

— множество, элементы которого называются понятиями,

— частичный порядок на

— множество, элементы которого называются именами отношений (или просто отношениями) и

— функция, которая сопоставляет каждому отношению его арность.

В нашем случае множество понятий — все рекламные слова, упорядоченные отношением быть "более общим понятием". Например, в нашей онтологии для рынка лекарств и медицинских средств понятие "медицинские препараты" — более общее, чем "витамины".

В нашем случае будем использовать упрощенную "древесную" онтологию. Введем два оператора, действующих на множестве рекламных слов

: оператор уровня обобщения

, значения которого образуют более общие понятия на

уровней выше, и оператор соседства

, множество значений которого состоит из понятий одного уровня и общим родителем с данным понятием.

Теперь определим два вида метаправил для онтологии: правила общности

и правила соседства

. Такие правила также будем рассматривать, как ассоциации контекста

, что позволит понять, какие из них подтверждаются имеющимися данными.

Примеры метаправил для рынка медикаментов.

Правило вида

, где

:
{B_VITAMIN} → {B_COMPLEX_VITAMIN, B12_VITAMIN, C_VITAMIN, D_VITAMIN,

DISCOUNT_VITAMIN, E_VITAMIN, HERB_VITAMIN, MINERAL_VITAMIN,

MULTI_VITAMIN, SUPPLEMENT_VITAMIN, VITAMIN}

Правило вида

, где

.

Верификация результатов

Для проверки результатов, полученных нами с помощью поиска ассоциативных правил, мы применяем скользящий контроль (cross validation). Для это мы разбиваем исходную выборку случайным образом на 10 частей, далее последовательно используем одну часть в качестве контрольной выборки (test set), а остальные 9 рассматриваем как единую обучающую выборку(training set). При этом ассоциативные правила, полученные нами по обучающей выборке, будем записывать в виде

.

Тогда мерой качества такого ассоциативного правила при проверке на контрольной выборке будет служить величина

. Значение этой величины показывает долю фирм, покупающих множества словосочетаний A и B, из тех фирм, которые приобретали только множество словосочетаний A. Как видим, это не что иное, как определение поддержки ассоциативного правила на контрольной выборке:

Мы построили 10 множеств ассоциативных правил для 10-ти различных выборок по 1800 фирм каждая и вычислили величину достоверности таких правил на контрольной выборке, содержащей 200 объектов. Ассоциативные правила мы искали для значений минимальной поддержки 27 (

от размера выборки) и минимальной достоверности 0,9 (

). Агрегированной мерой качества полученных правил служило среднее значение достоверности для всего порожденного множества:

где

— множество ассоциативных правил полученных по

-ой обучающей выборке. Также мы рассмотрели правила с достоверностью не ниже 50% и вычислили ее среднее значение по полученному множеству. Окончательно полученные значения усреднялись для всех 10-ти случаев —

.

Таблица 5.3:

Результаты скользящего контроля для ассоциативных правил

	Число	Число	mean_conf	Число правил	mean_conf
	правил	подтвержденных правил		min_conf=50%	(min_conf=50%)
1	147170	73025	0,77	65556	0,84
2	69028	68709	0,93	68495	0,93
3	89332	89245	0,95	88952	0,95
4	107036	93078	0,84	86144	0,90
5	152455	126275	0,82	113008	0,90
6	117174	114314	0,89	111739	0,91
7	131590	129826	0,95	128951	0,96
8	134728	120987	0,96	106155	0,97
9	101346	67873	0,72	52715	0,92
10	108994	107790	0,93	106155	0,94
means	115885	99112	0,87	92787	0,92

<

Усредненная достоверность правил на контрольной выборке не сильно снижается по сравнению с минимальной достоверностью для обучающей выборки, т.е.

.

В качестве средства валидации для метаправил мы используем меру достоверности. Величина поддержки не играет большой роли, так как мы ищем не столько крупные рынки или наиболее продаваемые словосочетания, сколько устойчивые закономерности при покупке. Правила с достоверностью меньше 0.5 нас не так сильно интересуют, потому что они означают, что в половине случаев покупка может произойти, а в половине — нет (своеобразная игра в подбрасывание монеты).

Для ассоциативных правил мы изначально задались высоким уровнем достоверности — 0.8 и 0.9. Для метаправил значения поддержки и достоверности необходимо вычислить по контексту

. Приведем значения этих мер в сводных таблицах для метаправил, построенных с использованием морфологии. Также в таблице указано число правил, имеющих поддержку отличную от 0.

Таблица 5.4:

Средние значения supp и conf для морфологических метаправил

Тип правила	Среднее значение supp	Среднее значение conf	Число правил

6 0,26 2389

6 0,24 456

12 0,40 1095

, такие что

15 0,49 7409

, такие что

11 0,36 2006 Зададим уровень минимальной поддержки 0,5 и установим число правил каждой группы, для которых превышен этот порог.

Таблица 5.5:

Средние значения supp и conf для морфологических метаправил при

Тип правила	Среднее значение supp	Среднее значение conf	Число правил

15 0,64 454

15 0,63 75

18 0,67 393

, такие что

21 0,70 3922

, такие что

20 0,69 673 По таблицам 5.4 и 5.5 легко установить что наиболее достоверными и часто встречающимися являются правила вида

. Отметим, что использование морфологии является полностью автоматическим приемом, позволяющим найти ассоциации заранее. Остается также часть правил, не подтвержденная значениями поддержки и достоверности. Можно провести ее верификацию для более репрезентативных данных, например, на множестве словосочетаний, которые рекомендуются службой Google AdWords, учитывающей частоту запросов по словам-синонимам для многомиллионной аудитории пользователей.

Наиболее достоверные правила может дать онтология (в данной задаче — заранее составленный экспертами каталог).

Выводы и дальнейшие исследования

Полученные результаты показывают, что часть зависимостей в базе данных покупок рекламных слов можно выявлять автоматически, не прибегая к трудоемким методам, а используя стандартные методы компьютерной лингвистики. Предложенные подходы вкупе с с методами Data Mining помогают улучшить рекомендации и обеспечивают хорошее средство частотного ранжирования, что удобно при составлении Top-N рекомендаций. Еще одно преимущество подхода состоит в возможности выявить связанные рекламные слова, не используемые по каким-то причинам рекламодателями. Результаты бикластеризации на основе ФАП показывают возможность выявления относительно крупных рекламных рынков (более 20-ти участников), описанных в терминах фирм-участников и рекламных слов.

В качестве дальнейших исследовательских задач отметим следующие:

проверка предложенного подхода на больших массивах реальных данных с применением методов скользящего контроля (разбиение исходного массива на обучающую и тестовую выборку);

использование готовых онтологий типа WordNet для построения метаправил.

Назад Содержание Вперёд

Информационный поиск (Information Retrieval): бикластеризация документов

В задачах информационного поиска и анализа текстов (text mining) бикластеризация применяется для обнаружения кластеров документов, обладающих сходными свойствами только по нескольким признакам, таким как слова и изображения. Такая информация очень важна для запросов и индексации поисковых интернет-систем. Диллон в своей работе [29] использует бикластеризацию для одновременного группирования документов и слов. Исходные данные представляют собой матрицу F, в которой строки отвечают словам, а столбцы — документам, а ненулевой элемент

показывает присутствие слова

в документе

, где

показывает число вхождений слова

в документ

— общее число документов, а

— число документов, содержащих слово

. Такую матрицу принято называть матрицей инциденций, а вместо термина бикластеризация использовать кокластеризация (co-clustering).

Проблемы кластеризации документов и слов в отдельности хорошо изучены в контексте информационного поиска и анализа текстов. Однако кластеризации лишь по одному измерению оказывается недостаточно. Допустим, имеется коллекция документов никак не сгруппированных. Тогда кластеризация помогает организовать коллекцию для целей дальнейшей навигации и поиска. Слова могут быть кластеризованы на основе документов в которых они встречаются. Кластеры слов полезны для автоматического построения статистических тезаурусов, уточнения запросов и автоматической классификации документов.

В этой работе Диллон пытается выявить подмножества слов и документов, сильно связанных друг с другом. В его модели, как и в работе Танай и др.[76], матрице исходных данных сопоставляется двудольный граф, и автор использует спектральный подход, похожий на предложенный Клугер и др. [45]. Эксперименты проводятся на трех коллекциях документов: Medline (1033 медицинских статьи), Cranfield (1400 статей про системы аэронавтики) и Cisi (1460 статьи по информационному поиску). Другие примеры бикластеризации для этого типа матриц можно найти в работе Диллона [30].

Для задачи выявления документов-дубликатов было предпринято две относительно успешные попытки использования ФАП и частых замкнутых множеств признаков (см. работы Кузнецова и Игнатова [6,3] и более позднюю статью другого исследователя [38]). Подробное описание постановки задачи, вычислительной модели см. в разделе 4.1.

Интернет-приложения: e-commerce, recommendation systems, collaborative filtering, target marketing

Методы бикластеризации могут быть использованы для так называемой коллаборативной фильтрации (collaborative filtering) при обнаружении групп покупателей со сходными предпочтениями в виде некого подмножества товаров (задача целевого маркетинга). Похожая ситуация имеет место в рекомендательных системах, где бикластеры предоставляют информацию о сходных интересах групп посетителей.

Необходимо отметить, что рекомендательные системы и целевой маркетинг — важные приложения в области электронной коммерции (см., например, [12]). В таких приложениях основной целью является обнаружение групп покупателей, ведущих себя похожим образом, чтобы предсказать их интересы и предложить адекватные рекомендации. Отметим несколько работ, освещающих вопросы применения методов бикластеризации к таким данным.

Джионг Янг и др. [84,85] использовали для проведения экспериментов массив данных MovieLens, собранный исследовательской группой GroupLens университета Миннесоты. Массив данных представляет собой матрицу, строки которой описывают 943 покупателя, а столбцы — 1682 фильма. Значения матрицы — целые числа от 1 до 10, они представляют рейтинг, который покупатель присвоил фильму. Матрица довольно разреженная, т.к. покупатель оценивает в среднем менее 10% фильмов. Хайксун Янг и др. [81] также провели эксперименты на этих данных.

Хоффман и Пузича [42] применяли бикластеризацию для коллаборативной фильтрации на массиве EachMovie, который состоит из данных, собранных в Интернете для почти трех миллионов предпочтений с оценками от 0 до 5. Унгар и Фостер [79] также используют данные о фильмах, в которых учитывается лишь факт просмотра фильма, поэтому анализируемая матрица — бинарная.

Другим примером является рынок Интернет-рекламы, для которого актуален поиск бикластеров, представляющих отдельные рынки, т.е. множества покупателей и приобретаемых ими рекламных словосочетаний (см. [88]). Решение аналогичной задачи описывается и в данной работе (см. раздел 5.3).

Классификация методов бикластеризации

Теперь, когда четко выделены основания для классификации алгоритмов бикластеризации, построим их таксономию. В таблице1.3 для каждого алгоритма, вошедшего в обзор, в соответствующих столбцах указаны тип бикластера, структура порождаемых бимножеств, количество бикластеров, порожденных за один запуск алгоритма, и стратегия поиска.

Таблица 1.3:

Сравнительная таблица алгоритмов бикластеризации

Алгоритм	Тип бикластера	Структура	Порождение	Стратегия поиска
Block Clustering [37]	Constant	f	One Set at a Time	Div-and-Conq
-biclusters [25]	Coherent Values	i	One at a Time	Greedy
FLOC [84,85]	Coherent Values	i	Simultaneous	Greedy
pClusters [81]	Coherent Values	g	Simultaneous	Exh-Enum
Plaid Models [51]	Coherent Values	i	One at a Time	Dist-Ident
PRMs [66,67]	Coherent Values	i	Simultaneous	Dist-Ident
CTWC [34]	Constant Columns	i	One Set at a Time	Clust-Comb
ITWC [78]	Coherent Values	d,e	One Set at a Time	Clust-Comb
DCC [23]	Constant	b,c	Simultaneous	Clust-Comb
-Patterns [24]	Constant Rows	i	Simultaneous	Greedy
Spectral [45]	Coherent Values	c	Simultaneous	Greedy
Gibbs [68]	Constant Columns	d,e	One at a Time	Dist-Ident
OPSMs [16]	Coherent Evolution	a,i	One at a Time	Greedy
SAMBA [77]	Coherent Evolution	i	Simultaneous	Exh-Enum
xMOTIFs [58] [19]	Coherent Evolution	a,i	Simultaneous	Greedy
OP-Clusters [53]	Coherent Evolution	i	Simultaneous	Exh-Enum

Мы используем решеточную таксономию алгоритмов, так как она лишена недостатков древесной, когда наследование свойств от различных надклассов невозможно для одного и того же подкласса. Данная таксономия построена средствами ФАП, а исходная таблица 1.3 посредством шкалирования сведена к объектно-признаковому представлению в виде бинарной матрицы.

Рис. 1.1. Таксономия алгоритмов бикластеризации

Мы предлагаем расширить указанную таксономию за счет введения дополнительного признака — типа исходных значений. Помимо этого, представляется желательным учесть тип бикластеров, в котором возможно присутствие некоторого числа нулевых значений, т.к. это один из способов ослабления требования к формальным понятиям. Для случая иерархической структуры бикластеров можно выделить и отдельно рассмотреть частичный (решеточный) порядок в качестве подтипа.

Для пополнения таксономии объектами мы предлагаем включить алгоритмы, используемые в ФАП для поиска формальных понятий, алгоритмы поиска частых (замкнутых) множеств признаков, алгоритм аддитивной бокс-кластеризации, DR-miner и D-miner из области DataMining, BiMax — разработанный для анализа генетических данных. Перечисленные алгоритмы, за исключением бокс-кластеризации, работают только с 0/1 данными, поэтому в таксономии им соответствует подрешетка, порожденная признаком

"