Группа DocLang, сформированная компаниями IBM, Nvidia и Red Hat в рамках проекта Linux Foundation LF AI & Data Project, приступила к созданию открытого универсального формата документов, предназначенного для улучшения процесса подготовки, управления и обмена данными в системах ИИ. В проект вовлечены также компании ABBYY, Human Signal и ряд других участников.

Существующие форматы файлов (PDF, JPEG и др.) проектировались в первую очередь для использования их человеком, а не искусственным интеллектом. Задача новой рабочей группы заключается в том, чтобы создать независимый от конкретных поставщиков интероперабельный стандарт, который поможет организациям повысить надежность, прозрачность и масштабируемость подготовки документов для ИИ.

DocLang определяет структурированный, машиночитаемый формат для документов любого типа (подобно тому, как JSON делает это для данных), встраиваемый в любой инструмент и любой конвейер. Он основан на DocLing, наборе инструментов LF AI & Data для обработки документов, способном преобразовывать созданные с помощью текстового редактора и понятные для человека PDF-файлы или электронные таблицы в структурированные данные.

Существующие стандарты документооборота поддерживали глобальное взаимодействие на протяжении десятилетий, но ИИ меняет правила игры, и сегодня они нуждаются в обновлении.

Статичные по своей природе типы документов тормозят революцию искусственного интеллекта. В эпоху ИИ документы проходят множество итераций и отличаются гораздо более высокой динамичностью – соответственно, и определения нужно корректировать в соответствии с духом времени. Стандарты документов, которые мы сейчас используем, создавались задолго до наступления эпохи ИИ и не принимают в расчет ее нововведения.

DocLang предполагает вывод стандартов документооборота на некий базовый уровень, который позволит использовать более интеллектуальные и эффективные рабочие процессы с меньшим уровнем риска, чем сейчас.

Использование подхода с открытым исходным кодом, не зависящего от поставщика, является гарантией того, что коллективные интересы будут ставиться выше потребностей конкретных поставщиков.

Вся концепция LLM основана на использовании естественных человеческих языков. Предполагается, что компьютер понимает нас без смены языка или его синтаксиса. Навязывание синтаксиса пользователям – это то, с чем нам приходится сталкиваться сегодня в процессе поисковой оптимизации и написании кода на языках программирования.

Вместе с тем массовое внедрение DocLang потребует от компаний строгого контроля. Только так бизнес сможет масштабировать использование нового формата, сохраняя безопасность и подотчетность работы с чувствительной информацией.