Ученые Лаборатории искусственного интеллекта МТИ и Хайфского университета разработали метод поиска подмножеств, сохраняющих ключевые математические отношения своих источников — огромных срезов данных. Способ отличается универсальностью и применимостью в широком круге областей, включая анализ текстов на естественном языке, машинное зрение, обработку сигналов, системы выдачи рекомендаций, прогнозирование погоды, финансовую аналитику, нейробиологию и др. Метод основан на геометрической интерпретации данных — представлении их в виде гиперсферы и поиске средних значений в подмножествах. Репрезентативность выбранных подмножеств исследователи доказывают математически. Действуя по принципу понижения размерности, метод позволяет радикально уменьшить затраты на анализ разреженных данных с помощью широко применяемых методик, таких как латентно-семантический анализ, метод главных компонент и др. Ученые показали действенность своего метода на примере матрицы, устанавливающей соответствие между статьями англоязычной «Википедии» и используемыми в них словами. Такая таблица содержит 1,4 млн строк (статей) и 4,4 млн столбцов (слов). Алгоритм позволил выявить кластеры слов, наиболее характерных для 100 самых распространенных тем в «Википедии». Например, кластер со словами «платье», «невеста», «подружка» и «свадьба» соответствует теме свадеб, а со словами «оружие», «выстрел», «заклинил», «пистолет» и «стрельба» — теме стрельбы.