Рефераты. Технологии поиска документальной информации в INTERNET

Технологии поиска документальной информации в INTERNET

Московский Государственный Горный Университет

 










Курсовая работа

 

на тему: «Технологии поиска документальной информации в INTERNET»

по дисциплине: «ПТК САПР»

 

Выполнил:

Проверил: 






 



 

 

 

 

 

МОСКВА 2002 год.


СОДЕРЖАНИЕ (стр.):

 

1. ВВЕДЕНИЕ.


1.1. Что такое Internet (3).


1.2. Краткая история Internet (4).


2. БРАУЗЕРЫ: сравнительные характеристики Netscape Navigator и Microsoft Internet Explorer (5).


3. ПОИСКОВЫЕ СИСТЕМЫ (7).


3.1. Механизмы поиска (9).


3.2. Сравнительный обзор поисковых систем. Структура запроса (11).

     

          3.3 Алгоритмы поиска (17).

                     3.3.1 Алгоритм Кнута-Мориса-Пратта (17).

                     3.3.2 Алгоритм Бойера-Мура (19).

                     3.3.3 Алгоритм Рабина (21).


4. ЗАКЛЮЧЕНИЕ (23).


5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ (24).





1. ВВЕДЕНИЕ.


1.1. Что такое Internet.


Internet - глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 30 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличивается на 5-7%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой.

         Всплеск интереса к глобальной информационной сети Internet наблюдается сейчас повсеместно. В сложившихся условиях потребность в информации о сети Internet становится особенно острой. В настоящее время по Internet распространяется множество документов, касающихся как функционирования сети и работы в ней пользователей, так и связанных с различными сферами жизни: наукой, культурой, экономикой и т.д. При чём обновление информации в Internet, обширной разветвленной сети, которая включает в себя компьютерные узлы, разбросанные по всему миру, происходит, практически, в режиме реального времени.

         В действительности Internet не просто сеть, - она есть структура, объединяющая обычные сети. Internet - это «Сеть сетей».

         Чтобы описать сегодняшнюю Internet, полезно воспользоваться строгим определением. В своей книге "The Matrix: Computer Networks and Conferencing Systems Worldwide" Джон Квотерман описывает Internet как «метасеть, состоящую из многих сетей, которые работают согласно протоколам семейства TCP/IP, объединены через шлюзы и используют единое адресное пространство и пространство имен».

Для организации межсетевых соединений необходим соответствующий протокол.

Протокол - это набор договоренностей, который определяет обмен данными между различными программами. Протоколы задают способы передачи сообщений и обработки ошибок в сети, а также позволяют разрабатывать стандарты, не привязанные к конкретной аппаратной платформе. Все параметры - от скорости передачи данных до методов адресации при транспортировке отдельных сообщений - задаются протоколами, используемыми в данной конкретной сети.

В Internet базовым протоколом служит TCP/IP (Transmission Control Protocol/Internet Protocol). IP отвечает за адресацию сетевых узлов, а TCP обеспечивает доставку сообщений по нужному адресу. Эти мощные протоколы были предложены в 1974 г. Робертом Кэном, одним из основных разработчиков ARPANET, и ученым-компьютерщиком Винтоном Серфом, вице-президентом CNRI. Следует иметь в виду, что TCP/IP не единственный протокол, пригодный для объединения различных сетей. Internet ныне превратилась в многопротокольную сеть, интегрирующую другие стандарты. Основные среди них - стандарты взаимодействия открытых систем (OSI).

Предложенные Международной организацией по стандартизации (ISO) протоколы OSI получили широкое распространение в Европе. Системы, основанные на других протоколах, тоже подключаются к Internet через шлюзы. Например, BITNET - это сеть, которая использует для передачи данных свои собственные стандарты, однако, по крайней мере, частично, она доступна через шлюзы из Internet.

В Internet нет единого пункта подписки или регистрации; вместо этого вы контактируете с поставщиком услуг, который предоставляет вам доступ к сети через местный компьютер. Последствия такой децентрализации с точки зрения доступности сетевых ресурсов также весьма значительны. Среду передачи данных в Internet нельзя рассматривать только как паутину проводов или оптоволоконных линий. Оцифрованные данные пересылаются через маршрутизаторы, которые соединяют сети и с помощью сложных алгоритмов выбирают наилучшие маршруты для информационных потоков.


1.2. Краткая история Internet.


Вначале ничто не предвещало, что Internet станет общедоступной компьютерной сетью. Как и многие другие великие идеи, «Сеть сетей» возникла из проекта, предназначавшегося совершенно для других целей. Ее прародительницей стала сеть АRPANET, разработанная и развернутая в 1969г. компанией Bolt, Beranek, and Newman (BBN) по заказу Агентства передовых исследовательских проектов (ARPA) Министерства обороны США.

ARPANET объединяла учебные заведения, военные организации и их подрядчиков. Она была создана с целью помочь исследователям в обмене информацией, а также (что явилось одной из главных целей) для отработки методов поддержания связи в случае ядерного нападения.

Основатели ARPANET первоначально позволяли ученым только войти в систему и запустить программу на удаленном компьютере. Скоро к этим возможностям прибавились передача файлов, электронная почта и списки рассылки, обеспечившие общение исследователей, интересовавшихся одной и той же областью науки и техники. Но по мере роста ARPANET развивались и другие сети, и вскоре стала очевидной потребность в новых средствах связи.

Сравнительно недавно появилась новая технология Internet названная World Wide Web (WWW), что обычно переводится как «Всемирная паутина». Эта система была разработана, в основном, в Европейской лаборатории элементарных частиц в Швейцарии (CERN). Сеть предназначалась первоначально для физиков, но затем получила широкое признание.

WWW построена по технологии, в основе которой лежит принцип создания гипертекстовых документов (Web-страниц). Гипертекстовый документ заключает в себе ссылки на другие подобные документы, которые, в свою очередь, содержат ссылки на следующие, и т.д. Таким образом, они оказываются связанными между собой.

Для работы в WWW используется протокол HTTP (Hyper Text Transmission Protocol), а программы, позволяющие работать с соответствующими документами в Internet, называют просмотрщиками или браузерами.


2. БРАУЗЕРЫ: сравнительные характеристики Netscape Navigator и Microsoft Internet Explorer.

Документы Internet предназначены для отображения в электронном виде, причем автор документа не знает возможностей компьютера, на котором будут просматриваться документы. Поэтому был создан стандарт для описания и создания документов, расположенных на Web-страницах. Этот язык называется HTML (HyperText Markup Language – язык разметки гипертекста). Этот язык описывает логическую структуру документа, управляет форматированием текста и размещением вставных объектов.

Форматирование и отображение документа, описанного с помощью HTML, на конкретном компьютере  производится специальной программой – браузером. Проще говоря, браузер предназначен для просмотра содержимого Web-страниц.

Основные функции браузеров следующие:

·       установка связи с Web-сервером, на котором хранится документ, и загрузка всех его компонентов;

·       форматирование и отображение Web-страниц в соответствии с возможностями компьютера, на котором браузер работает;

·       предоставление средств для отображения мультимедийных и других объектов входящих в состав Web-страниц, а так же механизма расширения, позволяющего настраивать программу на работу с новыми типами объектов;

·       обеспечение автоматизации поиска Web-страниц и упрощение доступа к страницам, посещавшимся раньше;

·       предоставление доступа к встроенным или автономным средствам для работы с другими службами Internet.

В настоящее время на этом рынке доминируют два браузера: Navigator фирмы Netscape и Internet Explorer фирмы Microsoft.

Они предоставляют пользователям весьма схожий интерфейс и набор основных возможностей и ведут на этом рынке весьма жесткую конкурентную борьбу, постоянно обновляя предыдущие версии.

Ниже приводится описание основных возможностей этих браузеров.

Браузер Internet Explorer обеспечивает работу с WWW, предоставляет идентичные средства работы с локальными папками компьютера и файловыми архивами FTP, дает доступ к средствам связи с Internet. Для запуска программы можно использовать значок  Internet Explorer на Рабочем столе или Главного меню. Кроме того, программа запускается автоматически при попытке открыть документ Internet или локальный документ в формате HTML.

Если соединение с Internet отсутствует, то после запуска программы появиться диалоговое окно установки соединения. При невозможности установки соединения сохраняется возможность просмотра в автономном режиме ранее загруженных Web-документов. При наличии соединения после запуска программы на экране появится основная страница, выбранная при настройке программы.

Далее можно работать с Web-страницами, просматривая их содержимое, сохраняя  его на локальном диске и т.д. При этом можно открывать несколько окон, работая с несколькими Web-страницами.

Для более эффективной работы в Internet необходима настройка Internet Explorer . Параметры оптимальной настройки зависят от:

·       свойств видеосистемы компьютера;

·       производительности действующего соединения с Internet;

·       содержания текущего Web-документа;

·       личных предпочтений пользователя.

Настроить Internet Explorer можно как из самой программы, так и через Панель управления.

Страницы: 1, 2, 3, 4



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.