Рефераты. Информационные ресурсы Интернет, относящиеся к области бизнеса и коммерции

- информационная система (ИС) - система, реализующая автоматизированный сбор, обработку и манипулирование данными и включающая технические средства обработки данных, программное обеспечение и соответствующий персонал.

Функционально - полная СУБД должна включать в свой состав средства, обеспечивающие потребности пользователей различных категорий на всех этапах жизненного цикла систем БД: проектирования, создания, эксплуатации.

БАЗЫ ДАННЫХ

Текстовые базы данных.

Объектами хранения в текстовых БД являются тексты. Под текстом будут пониматься неструктурированные данные, построенные из строк.

Основной целью любой текстовой БД является хранение, поиск и выдача документов, соответствующих запросу пользователя. Такие документы принято называть релевантными. Ввиду того, что автоматизированный поиск документов на естественных языках достаточно затруднен, возникает вопрос о проектировании некоторых формальных языков, предназначенных для отображения основного смыслового содержания документов и запросов в БД.

Такие языки называют информационно-поисковыми. В настоящее время разработано достаточно большое количество информационно-поисковых языков, которые отличаются не только по своим изобразительным свойствам, но и по степени семантической силы.

В основе подхода к построению классификационных языков лежит представление о том, что накопленные знания могут быть разделены на взаимоисключающие классы и подклассы. Существует система правил, которой должен подчиняться любой язык классификационного типа, в частности:

Деление отраслей знаний на классы и подклассы проводится по одному основанию;

Подклассы должны исключать друг друга;

При делении классов на подклассы должна соблюдаться непрерывность.

Информационно - поисковые языки, получившие название дескрипторных, основаны на применении принципов координатного индексирования, при котором смысловое содержание документа может быть с определенной степенью точности и полноты задано списком ключевых слов, содержащихся в тексте.

Дескрипторные языки привязаны к лексике текстов. Ключевые слова из текстов выбираются исходя из разных целей, соответственно, критерии выбора могут различаться. Для построения дескрипторного языка критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте.

Универсальными структурами дескрипторного языка являются лексические единицы, парадигматические и синтагматические отношения.

Лексическая единица - наименьшая смысловая единица, задаваемая при построении языка.

В большинстве автоматизированных информационных систем при индексировании документов и запросов применяется контроль с помощью тезауруса. Контроль может осуществляться в автоматизированном или ручном режиме. По сути дела тезаурус представляет собой словарь - справочник, в котором присутствуют все лексические единицы дескрипторного информационно поискового языка с введенными парадигматическими отношениями. Парадигматические отношения могут задаваться как:

Отношения вид - род (вышестоящий дескриптор);

Отношения род - вид (нижестоящие дескрипторы);

Синонимы;

Ассоциативные связи

В тезаурусы помещаются дескрипторы и недескрипторы, хотя существуют тезаурусы только из дескрипторов.

Как дескрипторы, так и недескрипторы приводят к единой грамматической форме. Как правило, дескрипторы употребляются в форме существительных или именных словосочетаний. Тезаурус может быть построен по принципу дескрипторных статей, состоявших из заглавного дескриптора и списка дескрипторов и недескрипторов с обозначением парадигматических отношений. Тезаурус может быть двуязычным. В этом случае эквивалентный дескриптор на иностранном языке должен быть обозначен.

Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.

Синтагматические отношения представляют собой отношения лексических единиц в тексте, т.е. они выражают семантику контекста.

При переводе основного смыслового содержания документов и запросов с естественного языка на дескрипторный информационно - поисковый язык существуют определенные правила, называемые системой индексирования. Результатом перевода документа является поисковый образ документа, а запроса - поисковый образ запроса.

Из перечисленных информационно - поисковых языков именно дескрипторные языки наилучшим образом приспособлены для описания документов и запросов при автоматизированном поиске в текстовых БД. Языки эти обладают таким преимуществом, как гибкость, открытость, близость к естественному языку; это языки двухуровневые (уровень ключевых слов и уровень дескрипторов). Дескрипторные информационно - поисковые языки позволяют формулировать документы и запросы в разных терминах. К основным недостаткам языков данного класса можно отнести недостаточную полноту описания смыслового содержания документов и запросов.

Системы, контролируемые тезаурусом, содержат процедуры как морфологического, так и синтаксического анализа текстов. Однако при проектировании ряда БД возникает необходимость в добавлении еще одного этапа анализа текста на естественном языке - анализа его семантической структуры. Примером таких баз могут быть БД, ориентированные на поиск по образцам. В подобных семантических системах пытаются моделировать процесс понимания законченных описаний фрагментов действительности, например патентов, рассказов, эпизодов и др., выраженных в виде текстов. Как правило, понимание текста трактуется как процесс извлечения из него существенной с точки зрения системы информации. Извлеченная информация вводится в базу знаний, представляющую собой динамическую информационную модель реального мира. Затем система способна отвечать на запросы относительно событий, фактов, явлений, изложенных в текстах.

Пакеты прикладных программ, предназначенные для ввода, обработки, поиска и обновления текстов, называют информационно-поисковой системой (ИПС).

5. Сетевые базы данных.

Одним из наиболее эффективных методов представления знаний являются сетевые модели.

В основе моделей лежит понятие сети, вершинами которой являются понятия, соответствующие объектам, событиям, процессам, явлениям, а дугами - отношения между этими понятиями.

Узлы и связи можно наглядно изображать в виде диаграмм.

Если вершины сети не имеют своей внутренней структуры, то сеть будет простой. Если же вершины обладают некоторой структурой в виде сети, то сеть называется иерархической. Если отношения между вершинами одинаковые, то сеть однородна, в противном случае - сеть неоднородна. Характер отношений, приписываемый дугам, может быть различен. В соответствии с этим выделяют следующие типы сетей:

Функциональные сети отражают декомпозицию определенной вычислительной или информационной процедуры, а дуги показывают функциональную связь между декомпонированными частями; этот язык недостаточно богат для представления знаний;

Сценарии, представляющие собой однородные сети с единственным отношением в виде нестрогого порядка. Семантика отношений может быть различной. Отношение может трактоваться как классифицирующее, временное и т.п. Сценарии часто используются при формировании допустимых планов по достижению цели;

Семантические сети используют отношения разных типов, а вершины в них могут иметь разную интерпретацию, По сути дела семантическая сеть является классом, в который включаются как сценарии, так и функциональные сети. Наиболее часто используются в сети связи типа «это есть». Они позволяют построить в виде сети иерархию понятий, в которых узлы низших уровней наследуют свойства узлов более высоких уровней. Именно таким механизмом переноса свойств обусловлена эффективность семантических сетей.

6. Реляционные базы данных.

Базы данных называются реляционными, если управление ими основано на математической модели, использующей методы реляционной алгебры и реляционного исчисления. С. Дейт дает следующее неформальное определение реляционных баз данных:

Вся информация в базе данных представлена в виде таблиц.

Поддерживаются три реляционных оператора - выбора, проектирования и объединения, с помощью которых можно получить любые необходимые данные , заложенные в таблицы.

Доктор И.Ф. Кодд, автор реляционной модели, разработал целый список критериев, которым должна удовлетворять реляционная модель. Описание этого списка, часто называемого «12 правилами Кодда», требует введения сложной терминологии и выходит за рамки дипломной работы. Тем не менее можно назвать некоторые правила Кодда для реляционных систем. Чтобы считаться реляционной по Кодду, система управления базами данных должна:

Представлять всю информацию в виде таблиц;

Поддерживать логическую структуру данных, независимо от их физического представления;

Использовать язык высокого уровня для структурирования, выполнения запросов и изменения информации в базах данных;

Поддерживать основные реляционные операции (выбор, проектирование и объединение), а также теоретико-множественные операции, такие как объединение, пересечение и дополнение;

Поддерживать виртуальные таблицы, обеспечивая пользователям альтернативный способ просмотра данных в таблицах;

Различать в таблицах неизвестные значения (nulls), нулевые значения и пропуски в данных;

Обеспечивать механизмы для поддержки целостности, авторизации, транзакций и восстановления данных.

Первое правило Кодда гласит, что вся информация в реляционных базах данных представляется значениями в таблицах. В реляционных системах таблицы состоят из горизонтальных строк и вертикальных столбцов. Все данные представляются в табличном формате - другого способа просмотреть информацию в базе данных не существует. Набор связанных таблиц образует базу данных. Таблицы в реляционной базе разделены, но полностью равноправны. Между ними не существует никакой иерархии.

Страницы: 1, 2, 3, 4



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.