Ранние системы обработки естественного языка, возникшие в конце 1940-х годов, были ориентированы на решение задачи машинного перевода и использовали множество правил, составленных вручную. В конце 1960-х развитие компьютерной лингвистики серьезно замедлилось из-за пессимистичного отчета Наблюдательного комитета по автоматической обработке языка (Automatic Language Processing Advisory Committee, ALPAC), в котором заявлялось о низкой результативности исследований. Это привело к резкому снижению финансирования, но, несмотря на кризис завышенных ожиданий, исследования продолжались — для обработки естественного языка стали использовать статистические модели, построенные средствами машинного обучения на основе больших коллекций документов, или корпусов текстов.

С ростом популярности Всемирной паутины возникла необходимость в каталогизации и систематизации информации, представленной в Сети. Появились поисковые машины, сформировался рынок контекстной рекламы, что способствовало повышению требований к способности поисковой машины учитывать информационные запросы пользователя. Широкое проникновение информационных технологий в повседневную жизнь привело к возникновению вычислительных задач, для решения которых требуются знания об окружающем мире. Стали востребованы: информационный поиск, оценка семантической близости слов, разрешение лексической многозначности и т. д. Например, смысл предложения «Он видел их семью своими глазами» зависит от того, является ли слово «семью» именем существительным или числительным. Известно, что люди воспринимают окружающий мир как иерархию понятий, связанных отношениями общего и частного. Скажем, если человек знает, что канарейка — это птица, то он сможет предположить, что у нее есть крылья. Это привело к созданию специализированных языковых ресурсов — семантических сетей.

В литературе термины «семантическая сеть» и «онтология» встречаются в достаточно близких контекстах, связанных с инженерией знаний. Однако они означают два разных понятия. Онтология задает предмет описания, то есть формальную спецификацию концептуализации, в то время как семантическая сеть определяет способ представления знаний. Семантическая сеть — это размеченный ориентированный граф, вершины которого соответствуют некоторым сущностям (понятиям, событиям, характеристикам или значениям), а ребра выражают отношения между этими сущностями.

Семантические сети не накладывают ограничений на структуру знаний или конкретную предметную область до тех пор, пока эти знания можно представить в виде ориентированного графа. Среди известных онтологий следует отметить онтологию Cyc, включающую в том числе онтологии нескольких предметных областей, и онтологию SUMO, составленную из общих понятий. В задачах обработки естественного языка особенно популярна семантическая сеть WordNet, построенная на основе формализации человеческого восприятия окружающего мира: понятия (синсеты) представлены в виде вершин, а направленные ребра показывают отношение от частного к общему (гиперонимия), от части к целому (холонимия) и т. д. Такие ресурсы, как WordNet для английского языка и «РуТез» для русского языка, построены коллективами лексикографов-экспертов.

Основная сложность при построении семантических сетей связана с большим объемом работы, которую приходится выполнять для их создания. Применение автоматизированных подходов [1, 2] сокращает этот процесс, но повышает требования к контролю качества [3]. Немалую сложность вызывает также необходимость формирования и следования определенной концепции ресурса. Нужно учитывать: актуальность представленной лексики, наличие неологизмов и архаизмов; выявление синонимии и иных семантических отношений; степень внимания к уровням онтологии; наличие определений понятий и примеров их...

Это не вся статья. Полная версия доступна только подписчикам журнала. Пожалуйста, авторизуйтесь либо оформите подписку.
Купить номер с этой статьей в PDF