Рефераты. Анализ текстов на заимствование методом построения семантических моделей

Таблица 2.5

Матрица C

C[0]

C[1]

C[2]

C[3]

3

4

1

2


Найдем номер максимального значения: Cnmax = 1

Удалим из графа все вершины, индекс которых не равен 1. В результате получим подграф, являющийся максимальной компонентой графа (см. рис. 2. 5)


Рис. 2.5. Максимальная компонента графа


         На данном этапе построение семантической модели текста будет завершено.

 

2.2.3. Представление данных


         Тексты, которые предполагается рассматривать на наличие заимствований должны быть определенным формальным образом представлены.

         Для оформления данных, имеющих некоторою смысловую нагрузку, в семантических сетях принято использовать ряд форматов, основанных, как правило, на XML.

         Элементарная единица данных в таких форматах обычно формируется по правилу объект – атрибут – значение.

         Самым распространенным форматом, позволяющим описывать данные семантического характера, является формат RDF (Resource description framework).

         Любой факт, который представляет семантическую ценность, может быть выражен отдельным блоком в структуре, оформленной согласно правилам RDF.

         Например, ряд фактов может быть выражен следующим образом:


:john    :a           :Person .

:john    :hasMother  :susan .

:john    :hasFather  :richard .

:richard :hasBrother :luke .


         Каждый логический элемент в этой структуре начинается со знака “:”. Описание факта завершается терминирующим символом “.”.

         Стандарт RDF изначально разрабатывался таким образом, чтобы обеспечить возможность распределенного хранения семантической информации. Обращение к тому или иному блоку выполняется тогда, когда требуется построить логическую цепочку фактов.

         На основе данных, представленных в формате RDF можно формировать новые, производные факты, которые будут являться соотнесенными между собой простыми фактами. Таким образом строятся высказывания на машинном семантическом языке.

         Правила построения RDF очень простые:

1.     Факт выражается тройкой элементов, похожих на обычное предложение на естественном языке в виде: (Подлежащее, Сказуемое, Дополнение)

2.     Подлежащее, сказуемое и дополнение представляют собой сущности, определенные в области информационного обмена. В качестве этих сущностей может выступать как ссылка на реальный материал в электронном виде (как семантический, так и на естественном языке), так и характеристика некого абстрактного объекта;
В качестве такого абстрактного объекта может выступать, например, персона, участвующая в информационном обмене. Сама персона не может быть получена пользователем семантической сети или некоторой системы семантического характера, однако ее действия могут вносить корректировки в смысловую нагрузку оцениваемого материала, а значит пренебрегать этим нельзя;

Выделяют два типа имен при описании смысловой информации в RDF – локальные и глобальные.

При использовании локальных имен предполагают, что они будут использоваться исключительно в контексте данного RDF-блока, глобальные – наоборот, доступны везде.

Обычно разделение на глобальные и локальные имена выполняется в рамках выделения предметных областей. Тогда локальные имена – это семантические понятия, принадлежащие конкретной предметной области, а глобальные обеспечивают межпредметную связь, выступая в качестве шлюза.

Формат RDF является универсальным для оформления семантических моделей и используется, как правило, для представления внешнего результата и входных данных в систему. Внутри системы оформление данных обычно несколько модифицируется таким образом, чтобы необходимые действия над семантическими данными выполнялись максимально оптимальнее и эффективнее.

Несмотря на то, что некоторую семантическую информацию о  тексте можно получить, проанализировав особенности его оформления, в данной работе предполагается проводить только анализ текстовой информации, а значит, требуется разработать средства, позволяющие преобразовывать тексты из различных рассматриваемых форматов данных в единый текстовый формат.

         Для доступа к данным в работе предполагается использовать технологию COM/DCOM (OLE). Использование данной технологии не позволит очень быстро получать текст из документов, однако он позволит организовать единый интерфейс для доступа к данным, представленных в различных форматах.


2.2.3.1. Объектная модель реализации инструмента для разбора форматов данных


         Для того чтобы регламентировать правила доступа к данным разных форматов можно использовать абстрактный класс, от которого будут унаследованы все классы, в которых будет выполнена реализация алгоритмов разбора форматов файлов. Схематически такая объектная модель представлена на рис. 2.6.
         На схеме показаны реализованные классы с модификаторами и иерархической структурой.

abstract class CDocumentParser

{

abstract method1(…)

abstract method2(…)

…..

abstract methodn(…)

}

 

Абстрактный класс

 




saled

классы

 

saled class CExcelParser : CMSOfficeDocParser

{ … }

 

saled class CWordParser : CMSOfficeDocParser

{ … }

 

class CMSOfficeDocParser : CDocumentParser

{ …. }

 

class CAbcDocParser : CDocumentParser

{ …. }


 

Рис. 2.6. Схематическое представление объектной модели

 

В классе CDocumentParser (см. Приложение А) объявлены 3 метода и одно поле:


2.2.3.2. Преобразование из формата MS Word


         Стандартом де-факто при оформлении работ студентами учебных заведений стало использованием для этих целей текстового процессора Microsoft Word.

         Для того чтобы было возможно использовать OLE-объект, привязанный к некоторому .doc-файлу потребуется включить в проект соответствующие сборки:

·        Microsoft Office 10.0 Object Library;

·        Microsoft Office Runtime 1.0 Type Library;

·        Microsoft Word 10.0 Object Library

Реализация алгоритма получения текста из .doc – файла посредством технологии OLE выглядит следующим образом:

·        Создается OLE – объект – экземпляр MS Word. Для этих елей создается экземпляр класса Word.Application

·        В рамках этого объекта производится открытие требуемого .doc файла. Для этих елей создается экземпляр класса Word.Document, унаследованный от класса Word.Application

·        Производится получение текстовой информации из этого файла

·        Выполняется закрытие OLE объекта

Полный исходный код класса, реализующего разбор MSWord – документов приведен в приложении Б.

2.2.4. Алгоритм лексического и грамматического разбора предложений


         Одной из основных проблем, возникающих в процессе автоматизированного анализа текста на естественном языке, является проблема формализации. Данная проблема решается различными способами и выбор методики формализации материалов, представленных на естественном языке, обычно зависит от характера текстов, которые предполагается обрабатывать и характера задачи, для которой требуются данные, представленные в формальном виде.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.