Авторы из Массачусетского технологического института считают, что некоторые задачи — например, автоматизацию тестирования пользовательского интерфейса, или поиск информации в базе данных — можно эффективнее выполнять с помощью визуальных средств. Sikuli использует алгоритмы распознавания текста и индексации изображений с помощью «визуальных слов». Встроенные функции языка принимают в качестве параметров графические данные. Можно представить, например, команду для поиска на карте города нужного перекрестка: street_corner=find( ). Внутри скобок программист помещает фрагмент, который нужно отыскать на большой карте, выдаваемой сторонней программой. Предположим, что та программа динамически отображает на карте иконкой положение городского автобуса. Тогда можно было бы написать простую программу на языке Sikuli, следящую, когда похожая иконка появится на карте в границах найденного фрагмента.