«Лаборатория Касперского» запатентовала новую технологию эффективного обнаружения текстов и спама в растровых изображениях без необходимости машинного распознавания графических образов. Методика разработана Евгением Смирновым. Выдача патента одобрена Федеральной службой по интеллектуальной собственности, патентам и товарным знакам 13 января 2009 года.
В основе лежит вероятностно-статистический метод, согласно которому решение о том, содержит ли изображение текст, принимается на основании характера расположения вероятных графических образов слов и строк и содержания в них выявленных образов букв и слов. Наличие специальных фильтров обеспечивает устойчивость системы к шумовым элементам и разбиению текста рамками и линиями, а использование особого способа выявления строк — к таким встречающимся в графическом спаме искажениям, как повороты текста и написание его волной.
Кроме детектирования текста в изображениях, система способна определять, является ли обнаруженный текст спамом, сравнивая его сигнатуру с шаблонами спама, хранящимися в базе данных. Ведь не секрет, что спамеры часто используют метод обхода антиспам-систем, скрывая рекламные тексты под видом изображений. Новая технология не требует предварительного машинного распознавания графических образов и преобразования их в текстовое представление, поэтому обеспечивает высокую скорость детектирования и позволяет находить тексты практически на любом языке.

Поделитесь материалом с коллегами и друзьями