Рефераты. Анализ текстов на заимствование методом построения семантических моделей

         Семантическая паутина являет частью общей концепции развития Всемирной паутины и Интернет, принятой консорциумом W3. Данный факт говорит о том, что идея семантико-ориентированных систем с большой долей вероятности будет развиваться и внедрятся повсеместно.

         Семантические сети предполагают, что будут организовываться в семантическом виде не только текстовые материалы на естественном языке, но и любые объекты, которые могут быть рассмотрены как ресурсы публичных сетей (например, аудио и видеоматериалы).

         Для семантических сетей материалы должны быть представлены таким образом, чтобы была возможность автоматически делать выводы о характеристиках анализируемых ресурсов.

         Идея семантических сетей базируется на 2х основных характеристиках:

1.     Любой объект или субъект, участвующий в информационном обмене должен иметь уникальный универсальный идентификатор ресурсов.
Этот идентификатор должен по общему для всех объектов или субъектов правилу обеспечивать определение элемент информационного обмена.
Кроме этого, требуется разработать механизм, который позволит поддерживать базу данных уникальных идентификаторов в актуальном состоянии.
Идентификатор ресурса не обязательно должен описывать некоторых цифровой материал, к которому можно получить доступ. Идентификатор ресурсов может описывать, например, некоторого пользователя, влияющего на процессы информационного обмена в сети.

2.     Описание элементов информационного обмена должно также базироваться на некотором формально определенном шаблоне таким образом, чтобы оформленные таким образом были доступны для машинной обработки. Единицы информации семантического характера идентифицируются уникальным универсальным идентификатором ресурсов. Стандартом де-факто для оформления материалов семантических материалов стало семейство форматов семантических сетей (Semantic Web Family):

a.      RDF;

b.     RDF Schema (RDF-S);

c.     OWL


Среди серьезных проектов, имеющих отношение к организации материалов семантического характера, существуют следующие:

·            Проект Swoogle. Поисковая система, которая обеспечивает возможность поиска информации на базе ресурсов, оформленных в формате rdf.

·            Проект Semantic Web Search. Поисковая система, которая обеспечивает возможность поиска информации на базе ресурсов, имеющих семантическую природу и представленных в различных форматах. При поиске данные семантической компоненты единиц информации расшифровываются, и по ним возможно получить характеристики рассматриваемых объектов в формате вида:

Semantic Web Technologies in the Enterprise
[...encoded] Introduction Over the past two years, my good friend and coworker Elias Torres has been blogging at an alarming rate about a myriad of technology topics either directly or indirectly related to the Semantic Web: SPARQL , Atom , Javascript, JSON , and blo...
[type] rss:item
[Title] Semantic Web Technologies in the Enterprise
[Description] Introduction Over the past two years, my good friend and coworker Elias Torres has been blogging at an alarming rate about a myriad of technology topics either directly or indirectly related to the Semantic Web: SPARQL, Atom, Javascript, JSON, and bloggi...
[Creator] lee
[Date] 2006-11-28T10:31:46-05:00
[Subject and Keywords] semantic web
[Link] #"#">#"#">#"1.files/image003.gif">                                                         (2.3)


         Данное отношение определяет, что из данного текста T порождается описывающая его семантическая модель G.

Заметим что, если истинно (2.3), то


                                          (2.4)


         То есть, если некоторый тест T порождает семантическую модель G, то семантическая модель G порождает множество текстов R, а T является одним из элементов множества R.

Сравнение текстов следует производить только с текстами, которые, по некоторой априорной информации могут оказаться близкими по содержанию к рассматриваемому тексту. Назовем множество графов, представляющих семантические модели текстов, близкие по содержанию или описываемым объектам предметной областью и будем обозначать ее следующим образом:


,


где

A – множество, представляющее собой предметную область;

Gi – граф, представляющий собой семантическую модель некоторого текста, принадлежащего предметной области A.


         Причем, верно следующее соотношение:


Если                , то                                   (2.5)


         То есть, если некоторый тест T порождает семантическую модель G, принадлежащую предметной области A, то и все тексты, порождаемые семантической моделью G, будут порождать семантические модели, принадлежащие предметной области A.

При рассмотрении текста имеет смысл выделять его основную идею, а информацию общего характера – игнорировать. Назовем основной текст, определяющий смысловую нагрузку частной предметной областью. Семантическую лексему, повышающую степень соответствия модели частной предметной области будем называть семантической лексемой, принадлежащей данной частной предметной области.

         В исходном представлении семантической модели текста, описывающий его граф взвешен только по ребрам – веса для вершин не проставляются. Веса вершин могут быть определены, когда требуется выделить основной смысл текста, проигнорировав информацию общего содержания. Тогда вес вершины будет представлять собой степень соответствия семантической лексемы предметной области.

         Предполагается, что вес вершины определяет некоторую неотрицательную численную величину. Значение этой величины обратно пропорционально соответствию предметной области – чем меньше значение этой величины, тем больше она соответствует данной предметной области.

         Соответствие семантической модели предметной области определяется следующим образом:


,                                                   (2.6)


где

S – численная величина, определяющая степень соответствия семантической модели предметной области

v – множество весов вершин графа, представляющего предметную область.

        

         Ребра в графе определяют отношения между семантическими лексемами. Для семантических моделей определены 2 типа ребер – ориентированные и неориентированные.

         Если между двумя вершинами, определяющими семантические лексемы, существует неориентированное ребро, то это означает, что эти две семантические лексемы эквивалентны. Кроме этого, определятся также степень эквивалентности, которая определяется весом ребра. В качестве вершин, связанных неориентированным ребром могут выступать, например, синонимы.

         Если две вершины связаны ориентированным ребром, то это указывается на некоторую зависимость одной семантической лексемы от другой. В качестве такой зависимости могут выступать, например:

·        Следствия вида: “если <семантическая лексема 1>, то <семантическая лексема 2>”. В таком случае будет определена зависимость, выражаемая ориентированным ребром объекта <семантическая лексема 2> от объекта
<семантическая лексема 1>. Схематически данная модель представлена на рис. 2.1.


Рис. 2.1. Зависимость одной семантической лексемы от другой

·        Вывод частного из общего

Степень зависимости между связями, определяемыми ребрами определяется весами соответствующих ребер.

В соответствии с вышеизложенными правилами, например, выражение:

 

“Язык программирования C++ – это универсальный язык программирования, который позволяет разрабатывать программы в соответствии с разными парадигмами: процедурным программированием, объектно-ориентированным, параметрическим”


в виде семантической графовой модели может быть представлено так, как это показано на рис. 2.2. Данная структура представляет собой совокупность элементов – вершин и ребер, составляющих граф, представляющий семантическую модель текста.


Рис. 2.2. Семантическое представление высказывания на естественном языке


           Формирование семантической модели на базе текста, представленного на естественном языке, выполняется на нескольких этапах:

1.     Получение информации о частной предметной области и выделение основного смысла текста. Определение соответствия предметной области предполагается проводить по правилу итеративного анализа величины соответствия предметной области согласно (2.4).
Выполнение этого анализа будет выполняться на основе сформированного заранее словаря.
Для этого предварительно будет построен граф, вершины которого имеют отношение к лексическим оборотам в анализируемом тексте. Таким образом, будет сформирован граф, соответствующий частной предметной области первой итерации.

2.     Задачу выделение основного смысла можно свести к определению связности данного графа и выделение связной компоненты графа. Для решения данной задачи можно использовать следующий алгоритм:
Предположим, что существует некоторый граф G, заданный таблицей связности так, как это показано в примере на рис 2.3

 

1

2

3

4

5

1

1

1

0

0

0

2

0

1

0

0

0

3

0

0

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.