Рефераты. Анализ текстов на заимствование методом построения семантических моделей

Для описания семантической модели на ЕЯ был определен специальный формат – RDF (Resource description format), который базируется на формате XML и позволяет определять соответствия вида объект – атрибут – значение. Кроме этого, ЕЭМ также предполагается присваивать информацию, определяющую уровень достоверности публикуемых материалов. Это осуществляется путем добавления цифровой подписи. Для определения онтологической информации (терминологии предметной области) используется язык OWL (Web ontology language).

Формат RDF позволяет представлять данные в виде иерархической структуры (как правило, в виде графа) в формате, который может быть разобран автоматически, с использованием, например, инструментов XML Parser. Каждый элемент документа, представленного в виде RDF, представляет собой набор фактов. Если рассматривать эти факты с точки зрения текстов на ЕЯ, то они являются предложениями, определяющими соответствие между подлежащим (объект), сказуемым (атрибут) и дополнением (значение).

Для определения объектов принято использовать формат URI (универсальный идентификатор ресурсов). В качестве синтаксиса объектов может использоваться формат, похожий на обычный WWW URL (адрес вида #"_Toc170378202">РАЗДЕЛ 1

Методы решения задачи анализа текстов на заимствование. Постановка задачи


         Задача анализа текстов, представленных на естественном языке, в настоящий момент решается, как правило, тремя основными методами:

1.     Анализ текстов экспертом в предметной области, к которой можно отнести анализируемый текст.
Данный метод не предполагает автоматизацию процесса анализа. Анализ проводит некоторое лицо, которое считается достаточно компетентным в соответствующей области знаний;

2.     Анализ текстов на базе оценки релевантностей.
Данный метод является достаточно хорошо сформированным, хотя применяется он, в основном, для поиска информации в глобальных сетях. На базе данного метода осуществляется поиск практически во всех поисковых системах Интернета (Google, Yahoo, Lycos, Rambler, Yandex и др.). Этот же метод может быть успешно использован для анализа текстов на наличие заимствований. По такому принципу работает достаточно популярная в данный момент система antiplagiat.ru.
Метод не требует использования значительных вычислительных ресурсов. Для этих целей требуется время, соответствующее алгоритму дихотомического поиска.
Однако этот метод не может быть применен в случае, если содержание текста было изменено (без изменения смысловой нагрузки текста);

3.     Метод, базирующийся на анализе смысла текста.


1.1. Задача анализа заимствований на базе семантических технологий


         В данной работе задачу анализа текстов, представленных на естественном языке можно разбить на несколько этапов:

1.     Регистрация материалов, рассматриваемых в качество исходных.
Поскольку предполагается, что объем исходных данных, а также объем вычислительной нагрузки на сервер, обслуживающий репозиторий исходных данных, могут быть значительными,  для оптимизации производительности системы требуется особое внимание уделить выбору СУБД. В качестве сервера баз данных в данном случае имеет смысл использовать MS SQL server, поскольку он позволит организовать распределенное хранилище, а также обладает достаточной производительностью для выполнения поставленной задачи.
Исходные документы хранить в БД не имеет смысла – достаточно хранить там только ссылку на документ, располагающийся на диске.
Документ, представленный в текстовом виде, а также модели этого документа имеет смысл хранить в самой БД, так как предполагается, что эти данные будут непосредственно учувствовать в запросах при анализе текстов на заимствование.

2.     Каталогизация материалов, рассматриваемых в качестве исходных.
Время анализа документов на наличие заимствований можно значительно сократить, если проводить сравнение документов по близким предметным областям.
Таким образом, процесс анализа документов можно значительно оптимизировать, если предварительно все исходные документы сгруппировать по соответствию некоторым предметным областям. В данной работе степень соответствия предметным областям предполагается строить на основе словаря, содержащего соответствия между следующими объектами:

a.      Семантическая лексема на исходном языке (в качестве такового предлагается русский);

b.     Список синонимов данной семантической лексемы;

c.     Перевод семантической лексемы на другие языки

Под семантической лексемой в данном контексте понимается некоторая самостоятельная единица естественного языка, в соответствие которой возможно поставить формальное определение.
В качестве источника данных для формирования такого словаря в работе предполагается использовать часть открытого проекта Wikipedia – WikiСловарь. Все элементы WikiСловаря представляют собой html-страницы, которые включают в себя все объекты, перечисленные выше.

3.     Построение семантических моделей документов в формате, близком к RDF, но оптимизированном для хранения в БД. Фактически, такая семантическая модель будет представлять собой множество ссылок на данные из словаря, представленное в виде ориентированного графа, взвешенного по вершинам и ребрам.
Имеет смысл также выполнять анализ полученной модели с целью выделения из нее оригинальной смысловой нагрузки, для того, чтобы анализ проводился по основному смыслу текста, а не по множествам семантических лексем, имеющих общий смысл.

4.     Анализ текста на заимствование. Данная операция аналогична помещению образца в базу данных:

a.      сначала требуется осуществить преобразование текста в формат простого текста (plain text);

b.     Для оптимизации перебора по множеству образцов выполнить позиционирование данного текста в некоторых предметных областях – проставить индексы соответствия данного текста для каждой предметной области. Далее анализ текста вести в предметных областях, индекс которых наибольший (в порядке убывания);

c.     Построить семантическую модель данного текста, представленную в виде взвешенного орграфа;

d.     Выполнить выделение основного смысла из текста, убрав множества семантических лексем, имеющие общий характер. Скорректировать построенный граф;

e.      Выполнить сравнения с образцами, хранящимися в БД в порядке убывания индекса соответствия предметной области. Сравнения вести на основе определения степени изоморфности двух графов – исходного и образца;

f.       Сделать вывод о степени заимствования материалов, подготовить соответствующий отчет;

g.     Если процент заимствования является допустимым, то считать текст оригинальным и внести его в общую базу данных образцов.

h.     Если текст был признан оригинальным и внесен в общую  базу данных, то должны быть установлены соответствия между всеми семантическими лексемами, относящимися к этому тексту и уникальным номером текста в БД

1.2. Выводы


Задача анализа текстов, представленных на естественных языках, может решаться различными методами. Выбор метода зависит, как правило, от характера  текста.

Во многих случаях при автоматизированном анализе может быть применен метод релевантностей. Однако, если текст был некоторым образом модифицирован, то эффективным решением может оказаться применение технологий, основанных на анализе смысловой нагрузки текста.

РАЗДЕЛ 2

Подходы к решению задачи анализа заимствований


         Основными автоматизированными методами решения задачи анализа заимствований текстов, представленных на естественном языке, являются:

1.     Анализ на базе релевантностей;

2.     Анализ на базе анализа смысловой нагрузки текста


2.1. Анализ на базе оценки релевантностей


Одним из методов анализа текстов на предмет заимствований из публичных источников является метод, основанный на анализе уровня релевантности.

Методика получения индекса релевантности для задачи анализа текстов на заимствование похожа на алгоритм получения уровня релевантности в поисковых системах.

С точки зрения поисковых систем, под релевантностью понимают меру соответствия результатов поиска запрошенным данным.

Определять факт вхождения ключевых слов, заданных в качестве запроса на поиск можно разными способами:

1.                 Точный поиск подстроки в строке

2.                 Нечеткий поиск подстроки в строке. Для выполнения такого поиска вводят понятие “расстояние между строками”. По определению Хемминга, расстоянием между 2 строками является число позиций в строке, на которых символы отличаются. При решении задачи нечеткого поиска определяется максимально допустимое число dmax – расстояние между строками. Если производится нечеткий поиск подстроки A в строке B, то считается, что A является подстрокой B, если d(A, B) <= dmax.

При анализе текстов на наличие заимствований на базе вычисления релевантности, возможно, использовать следующий алгоритм:

         Предположим, что

·        A – некоторый исходный текст, представленный на естественном языке;

·        B = {B1, B2, … , Bn} – множество текстов, среди которых следует производить поиск.

В таком случае задача анализа текста A на заимствование из текстов множества B сводится к сортировке множества B по уровням заимствований в порядке убывания. Уровни заимствований определяются численной величиной – расстоянием Хемминга между A и Bi, где i – номер рассматриваемого текста из множества B.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.