Специалисты лаборатории искусственного интеллекта МТИ, занимающиеся задачей оптимизации анализа биологических и химических данных, предлагают ускорять поиск по генетической информации путем ее «компрессии». Используется тот факт, что геномы живых организмов, даже не слишком родственных, содержат очень большой объем одинаковой информации. Поэтому из всех возможных последовательностей четырех оснований А, Г, Т, Ц в геномах реальных организмов представлено лишь очень малое подмножество. Более того, в пространстве возможных геномов принадлежащие реальным организмам распределены не случайным образом, а следуя определенной закономерности, отражающей относительно медленные темпы расхождения свойств близких видов. Компрессионный алгоритм поиска ученых МТИ объединяет в кластеры последовательности, различающиеся несколькими буквами оснований, и выбирает одну из последовательностей представителем кластера. Ученые показали, что ряд существующих баз химических соединений и белков обладают этими свойствами, а также выяснили, что их поисковый алгоритм работает тем эффективнее, чем больше объем обрабатываемых данных.