Рефераты. Анализ текстов на заимствование методом построения семантических моделей

         При анализе текстов на естественном языке с целью построения семантических моделей задача формализации сводится к выделению объектов и отношений между объектами.

         Если предположить, что текст, представленный на естественном языке оформлен согласно правилам языка, то можно сформулировать несколько утверждений, которые будут использоваться при анализе текста. Данные утверждения приведены в таблице 2.6.


Таблица 2.6

Утверждения, используемые при разборе текстов на естественных языках славянского происхождения

N п/п

Суть утверждения

Описание утверждения

Пример и примечания

1

Использование разделителей

Логические элементы высказываний на естественном языке принято отделять специальными разделителями. Эти разделители получили название “знаки препинания” и могут использоваться для выделения логически независимых блоков в высказываниях.

Высказывание вида “Мобильный телефон является средством связи, Однако он может использоваться для других целей” может быть разделено на 2 семантически независимых блока: “Мобильный телефон является средством связи” и “Мобильный телефон может быть использован не как средство связи”.

При разборе выражений может возникнуть ряд проблем, связанных с применением данного правила: знаки препинания далеко не всегда выделяют логически и семантически законченные блоки, они могут служить и для других целей. Например, в русском языке вводные слова также могут выделяться запятыми, хотя они определенно не являются объектом, влияющим на характер семантического высказывания. Более того, часто имеет смысл такие вводные слова вообще не принимать во внимание при построении семантической модели, либо учитывать только при определении веса соответствующего ребра графа.

Продолжение таблицы 2.6

2.

Правило “тройки”

Суть представления семантических данных заключается в том, что выделяется одна пара семантических лексем, а затем устанавливается некоторая связь между ними.
При разборе текстов на естественном языке следует придерживаться этого правила. В семантически обособленном блоке высказывания следует выделить два объекта, а затем попытаться определить между ним степень и характер связи.

Высказывание “цифровая музыка представляется последовательностью двоичных чисел” может быть разобрана следующим образом.
Сначала потребуется выделить два объекта, которые присутствуют в высказывании. Очевидно, что эти два объекта: “цифровая музыка” и “последовательность двоичных чисел”.
Отношением между ними является элемент “представляется”.
Таким образом, формируется связь, состоящая из тройки, представленной в виде схемы “Объект-связь-объект”. Для данного примера будет построена модель, которую можно представить в виде графа:



Продолжение таблицы 2.6

3.

“Прилагательное – существительное”

Если в предложении обнаруживается блок, составленный из пары “Прилагательное – существительное”, то эту пару можно рассматривать как отдельную семантическую лексему. Т.е. не следует производить деление этой пары, прилагательное всегда будет выступать характеристикой существительного, а значит, будет являться его составной частью.

В высказывании

“Вычислительная техника позволяет значительно упростить рутинные процессы за счет их автоматизации”

Может быть выделена семантическая лексема “вычислительная техника” согласно изложенному правилу.

Следует отметить, что пара “прилагательное-существительное”, рассматриваемое как семантическая лексема может быть расширена в процессе анализа высказывания.


Продолжение таблицы 2.6

4.

Использование глаголов

Если в высказывании обнаружен глагол, то в семантической модели он должен быть рассмотрен как отношение между объектами.

В выражении “SQL является стандартом запросов для баз данных” можно выделить глагол “является” и рассматривать его как связь между двумя объектами. После того, как обнаружен объект-глагол, требуется выполнить поиск объектов, которые можно выделить в семантически независимые блоки.

Кроме этого, данное отношение нельзя считать окончательно определенным. В процессе анализа высказывания возможна ситуация, когда данное отношение возможно будет расширить или изменить и скорректировать вес соответствующего отношения.


5.

Главные и зависимые слова

Если в высказывании существует некоторая пара слов, имеющих определенную связь, то в этой паре обязательно будет присутствовать главное и зависимое слово



Продолжение таблицы 2.6

6.

Средства согласования слов

Для согласования главного и зависимого слова могут применяться ряд механизмов, которые обычно определяют в рамках контекстно-независимых численных кодов, направленных на анализ данных грамматического характера


7.

Цепочки зависимости

Для главного слова в грамматической модели предложения могут быть определены не только зависимые от него слова. Это слово само может зависеть от других.
Таким образом, для грамматической модели возможно составления цепочек зависимости



Продолжение таблицы 2.6

8.

Правила согласований

Согласование пар “прилагательное-существительное” возможно лишь в том случае, когда они имеют одинаковый род, число и падеж



9.

Единство согласований

Если для двух слов в предложении уже определено правило согласование, то все другие правила можно не рассматривать. Т.е. Между любыми двумя словами в предложении может быть установлено не более чем одно соответствие.

Если сформулировать это утверждение с точки зрения теории построения семантических моделей, то это значит, что между любыми двумя вершинами в графе, представляющем семантическую модель или ее фрагмент может существовать не более одного ребра


         В результате выполнения синтаксически-грамматического анализа строится дерево зависимостей согласно правилу (2.7).

         В корне такого дерева располагается сказуемое, а в ветвях – синтаксические выражению, имеющие определенное отношение со сказуемым. Данное дерево имеет рекурсивно-ориентированную структуру.

         На заключающем этапе работы данного алгоритма выполняется рекурсивный анализ полученного дерева, и выделяются условно-формализованные элементы, которые могут быть использованы при построении семантических моделей с использованием алгоритмов, изложенных в данной работе.

         В большинстве случаев для лексического и синтаксического разбора может быть применена оптимизация, основанная на данных справочников в базах данных.

         Для применения данного подхода предварительно должны быть сформированы словари частей речи языка, на котором представлен текст и для каждого элемента установлено соответствие с частью и ролью речи.

         При анализе текстов на естественном языке, если удастся получить соответствующие элементу текста данных их БД, то необходимость в синтаксическом и лексическом разборе отсутствует, что позволит существенно сократить расходы процессорного времени и памяти.

         Оптимизация на базе словаря должна всегда использоваться вместе с классическим лексическим и синтаксическим анализом, выявленные части речи естественного языка с достаточно высоким уровнем достоверности должны помещаться в словарь. Таким образом, возможно будет реализовать механизм самообучения системы лексического и синтаксического анализа. При получении новой информации в результате обучения системы должно обязательно включать этап привязки: должны быть установлены связи с объектами, полученными в результате разбора. В качестве таких связей следует использовать семантические связи между семантическими лексемами.

2.2.5 Выводы


         Перед тем, как выполнять анализ семантических моделей необходимо предварительно их формально представить.

         Для того чтобы получить условно формальное отображение текста, представленного на естественном языке на дискретное множество, предлагается использовать алгоритмы синтаксического и лексического анализа. Оптимизация алгоритма возможна за счет применения словарей.

         После выполнения формализации материалов, представленных на естественном языке, их возможно представить в виде некоторого составного семантического объекта. Алгоритмы для выполнения этой операции представлены в данном разделе.

         Для того чтобы выполнять анализ семантических моделей текстов, требуется предварительно выделить основной смысл текстов. Для этого в работе предлагается использовать алгоритм, основанный на алгоритме выделения компонент графа.

РАЗДЕЛ 3

Алгоритмы, используемые для установления факта заимствований при семантическом анализе


         В данной работе семантический анализ базируется на ряде алгоритмов, имеющих классическую природу, но адаптированных и оптимизированных для решения задачи семантического анализа текстов, представленных на естественных языках и установления факта заимствования текстов из публичных источников.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.