Интернет-технологии для бизнеса, учебы, жизни. Создание, управление, хранение, передача и обработка информации. Интернет-новости, обзоры. Психология интернета. Работа и заработок в сети.
Томита-парсер — это инструмент для извлечения структурированных данных (фактов) из текста на естественном языке. Извлечение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов.
Томита-парсер позволяет по написанным пользователем шаблонам (КС-грамматикам) выделять из текста разбитые на поля цепочки слов или факты. Например, можно написать шаблоны для выделения адресов. Здесь фактом является адрес, а его полями — «название города», «название улицы», «номер дома» и т.д.
Парсер включает в себя три стандартных лингвистических процессора: токенизатор (разбиение на слова), сегментатор (разбиение на предложения) и морфологический анализатор (mystem).
Основные компоненты парсера: газеттир, набор КС-грамматик и множество описаний типов фактов, которые порождаются этими грамматиками в результате процедуры интерпретации.
Газеттир — словарь ключевых слов, которые используются в процессе анализа КС-грамматиками. Каждая статья этого словаря задает множество слов и словосочетаний, объединенных общим свойством. Например, «все города России». Затем в грамматике можно использовать свойство «является городом России». Слова или словосочетания можно задавать явно списком, а можно «функционально», указав грамматику, которая описывает нужные цепочки. Например, цепочка ключевых слов «адрес» описывается соответствующей грамматикой и может быть использована в грамматике для выделения городских происшествий. Подробнее об этом будет в описании механизма каскадов.
Грамматика — множество правил на языке КС-грамматик, описывающих синтаксическую структуру выделяемых цепочек. Грамматический парсер запускается всегда на одном предложении. Перед запуском терминалы грамматики отображаются на слова (или словосочетания, об этом будет сказано ниже) предложения. Одному слову может соответствовать много терминальных символов. Таким образом, парсер получает на вход последовательность множеств терминальных символов. Например, в нашей грамматике есть всего два термина Verb и Noun, а входное предложение «Мама мыла стекло.» . Тогда парсер получит на вход такую последовательность: {Noun}, {Verb, Noun}, {Verb, Noun}. На выходе получаются цепочки слов, распознанные этой грамматикой.
Факты — таблицы с колонками, которые называются полями фактов. Факты заполняются во время анализа парсером предложения. Как и чем заполнять поля фактов указывается в каждой конкретной грамматике. Это называется интерпретацией. Типы факты описываются на специальном языке в отдельном файле.
Инструмент очень перспективный и еще предстоит осознать где и как его можно использовать. Но, одно уже понятно, что Яндекс сам провоцирует вебмастеров генерировать искусственный текст. Рано или поздно это случится в интернете. И профессия копирайтера начнет отмирать. Останутся те, кто научится генерировать тексты автоматически - это и быстрее и экономически выгоднее. Смешно конечно будет наблюдать за статьями, которые будут сгенерированы роботом на основе новости сгенерированной другим роботом. Такая себе рекурсивная новость получится.