SAS займется добычей текстов

Стратегия компании предполагает создание средств анализа данных

Производитель программного инструментария бизнес-интеллекта (business intelligence, BI), компания SAS Institute договорилась с Inxight Software об использовании технологий добычи текстов последней. Этот шаг предпринят с целью предложить решение для анализа неструктурированных данных.

Предполагается, что технология, разработанная Inxight, являющейся дочерней компанией Xerox, будет реализована в SAS Text Miner к середине года.

SAS планирует использовать платформу Inxight LinguistX Platform — решение для работы с естественными языками, которое выполняет анализ слов, фраз и предложений, и систему Inxight Thing Finder, которая выявляет и извлекает из документов важные данные, такие как названия компаний и изделий, фамилии людей, адреса и даты.

Text Miner будет использовать технологию Inxight для анализа документов, содержащих текст на различных языках. При этом возможности Inxight позволят Text Miner получать доступ и выполнять анализ до 15 типов файлов данных, в том числе неструктурированных наборов данных, таких как электронная почта, приложения Microsoft Office, а также файлы в форматах PDF и HTML.

«Мы считаем, что добыча текстов найдет широкое применение в различных отраслях», — заметил Уайн Томпсон, менеджер SAS по продуктам семейства Enterprise Miner.

По словам Томпсона, Text Miner является частью более широкой стратегии SAS, предполагающей создание разнообразных средств анализа как структурированных, так и неструктурированных данных. Примерами использования систем добычи текстов на предприятии являются приложения управления персоналом, которые фильтруют и подбирают резюме для конкретных открытых вакансий. Эти системы также найдут себе применение в порталах, передающих конкретные текстовые документы пользователям с учетом профилей этих пользователей.

Филип Рассом, независимый отраслевой аналитик, считает совершенно логичным, что производители систем бизнес-интеллекта заключают соглашения с разработчиками систем поиска и добычи текстов, поскольку сами специализируются на структурированных данных.

По мнению Рассома, для задач, стоящих перед подобными системами, добыча данных является более эффективным решением, чем технология поиска.

«Примитивный старый механизм поиска просто ищет слова, но не ?понимает?, что эти слова означают», — подчеркнул он.