Рефераты. Анализ текстов на заимствование методом построения семантических моделей

Анализ текстов на заимствование методом построения семантических моделей

Министерство образования и науки Украины

Запорожский институт экономики и информационных технологий

Факультет Компьютерной инженерии

Кафедра Компьютерных систем

К ЗАЩИТЕ ДОПУЩЕНА

Зав.кафедрой

____________

МАГИСТЕРСКАЯ РАБОТА

АНАЛИЗ ТЕКСТОВ НА ЗАИМСТВОВАНИЕ МЕТОДОМ

ПОСТРОЕНИЯ СЕМАНТИЧЕСКИХ МОДЕЛЕЙ

Выполнил

ст. гр. КсиС-112М Евсеев Артур Александрович

Руководитель проф. Лебедева Людмила Николаевна

Нормоконтролер Акимова Елена Александровна

Запорожье

2007

З А Д А Н И Е

НА АТТЕСТАЦИОННУЮ РАБОТУ МАГИСТРА

Студенту гр. КсиС-112М, специальности _Компьютерные системы и сети»_

Евсееву Артуру Александровичу

(фамилия, имя, отчество)

1.Тема:

утверждена приказом по институту “ ” _____________ 200_ г. №

2.Срок сдачи студентом законченной работы _____________________

3.Перечень вопросов, подлежащих разработке ________________________

4.Объект исследования (характеристика объекта, условия исследования и др.)

5. Основные задачи исследования

Дата выдачи задания “ ” _______ 200_ г.

Руководитель дипломной работы _____________

(подпись) (фамилия и инициалы)

Задание принял к выполнению ____________

(подпись студента)(фамилия и инициалы)

РЕФЕРАТ

Объем работы: стр. 104, приложений 6, таблиц 10, рисунков 18, источников 50, формул 23.

В работе рассматриваются вопросы применения технологий семантического анализа текстов, представленных на естественном языке с целью выявления наличия заимствований.

Задача определения факта заимствования сводится к сравнению моделей, отражающих смысловую нагрузку текстов. Анализ ведется с использованием алгоритмов на графах, модифицированных и оптимизированных для применения в рамках данной задачи.

Использование схем анализа данных, предложенных в данной работе, может позволить выявлять факт заимствования даже если оригинал был определенным образом модифицирован (выполнен перевод, слова были заменены на синонимы, текст был изложен с использованием другой лексики и т.д.).

Результаты выполнения работы могут быть использованы во всех прикладных направлениях, для которых применимы методы семантического анализа текстов.

ЕСТЕСТВЕННЫЕ ЯЗЫКИ, ЗАИМСТВОВАНИЕ, ИЗОМОРФНОСТЬ, НЕЧЕТКИЙ АНАЛИЗ, ОСМЫСЛЕННЫЙ АНАЛИЗ, ПЛАГИАТ, СЕМАНТИЧЕСКАЯ МОДЕЛЬ, ТЕОРИЯ ГРАФОВ, ЦИТИРОВАНИЕ.

СОДЕРЖАНИЕ

РАЗДЕЛ 1. 10

Методы решения задачи анализа текстов на заимствование. Постановка задачи.. 10

1.1. Задача анализа заимствований на базе семантических технологий.. 11

1.2. Выводы... 13

РАЗДЕЛ 2. 14

Подходы к решению задачи анализа заимствований.. 14

2.1. Анализ на базе оценки релевантностей.. 14

2.2. Анализ на базе оценки смысловой нагрузки текста.. 20

2.2.1. Формирование семантического словаря. 20

2.2.2. Формирование семантических моделей. 28

2.2.3. Представление данных. 40

2.2.3.1. Объектная модель реализации инструмента для разбора форматов данных. 43

2.2.3.2. Преобразование из формата MS Word. 45

2.2.4. Алгоритм лексического и грамматического разбора предложений. 46

2.2.5 Выводы.. 54

РАЗДЕЛ 3. 55

Алгоритмы, используемые для установления факта заимствований при семантическом анализе 55

3.1. Анализ изоморфности графов.. 55

3.2. Анализ оптимальности алгоритма.. 73

3.3. Выводы... 77

РАЗДЕЛ 4. 78

Реализация приложения.. 78

4.1. Обоснование выбора средств разработки.. 78

4.2. Программный комплекс.. 81

4.2.1. Хранение данных. 82

4.3 Система анализа текстов на заимствование. 85

4.4 Тестирование системы... 88

4.4.1. Тестирование модулей системы (модульное тестирование) 88

4.4.2. Тестирование корректности работы логики системы.. 89

4.4.3. Нагрузочное тестирование. 89

РАЗДЕЛ 5. 91

Возможности развития проекта.. 91

5.1. Формальное определение объектов семантической алгебры... 91

5.2. Алгоритм лексического и грамматического разбора текстов.. 94

5.3. Алгоритмы установления факта изоморфности графов.. 95

5.4. Оптимизация хранилищ данных.. 96

5.5. Параллелизация вычислительных процессов.. 96

5.6. Выводы... 98

ВЫВОДЫ... 99

РЕКОМЕНДАЦИИ.. 101

ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.. 102

ПРИЛОЖЕНИЯ.. 106

ВВЕДЕНИЕ

Одной из проблем современных информационных систем является проблема систематизации и каталогизации материалов, представленных на естественном языке (ЕЯ). Необходимость этого обусловлена рядом причин:

· Не существует единых принципов оформления электронных материалов, излагаемых на ЕЯ, поэтому часто оказывается проблематичным проводить автоматизированный анализ такой информации;

· Отсутствует единая база данных, содержащая соответствия единиц электронных материалов (ЕЭМ) определенным предметным областям;

· Практически невозможно определить достоверность информации, предоставленной в публичный доступ, поскольку для ЕЭМ, как правило, не определяется индекс достоверности;

· Многие материалы, опубликованные в глобальных сетях, дублируют друг друга, или их различия очень незначительны. В таких случаях определение оригинала, который послужил основой для данной ЕЭМ – весьма трудоемкая (а иногда и вовсе не решаемая) задача;

· Объем публичной информации в глобальных компьютерных сетях – огромный, что существенно усложняет автоматизированный перебор и анализ ЕЭМ с одной стороны, и делает весьма трудоемким процесс поиска необходимой информации потенциальными пользователями информационных систем с другой стороны.

Данная проблема решается многими способами, один из которых – анализ текстов представленных на ЕЯ на основе построения семантической модели.

Под семантикой, с точки зрения информационных технологий, можно понимать принципы организаций языковых конструкций на ЕЯ.

Под семантической моделью текста, представленного на ЕЯ, можно понимать эквивалент данного текста, представленный таким образом, чтобы анализ смысловой нагрузки текста мог быть выполнен с использованием автоматизированных систем. Естественно, данная модель должна быть оформлена в соответствии с формально определенным форматом.

Развитие технологий построения семантических моделей во многом связано с развитием идеи, которая получила название “Семантическая сеть” (Semantic web). В соответствии с концепцией семантической сети для каждой опубликованной ЕЭМ должна быть построена соответствующая ей семантическая модель. Если потребуется выполнять поиск или анализ текстов на ЕЯ, то анализироваться будет не сам текст, а его семантическая модель. Это позволит решить несколько задач:

· Запросы на поиск информации в глобальной сети можно будет формировать не по ключевым словам, а на ЕЯ;

· Материалы, представленные в глобальных сетях, станет возможным сортировать “по смыслу” и принадлежности предметным областям;

· Информационные системы смогут отбирать и использовать необходимую им информацию автоматически, без участия человека.

Предполагается, что сначала будут созданы семантические модели для уже существующих ЕЭМ в глобальных сетях, а все ЕЭМ, которые будут туда помещаться вновь, будут сопровождаться соответствующими семантическими эквивалентами.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42