Рефераты. Технологии поиска документальной информации в INTERNET

Если браузер неспособен отображать файлы определенного типа (*.exe, *.zip  и т.д.) инициируется процесс загрузки данного файла на компьютер. Программа Internet Explorer 5.0 запускает мастер загрузки файлов, на первом этапе работы которого требуется указать открывать ли файл или сохранить его на локальном диске. Чаще всего файл сохраняется. Это позволяет  использовать его в дальнейшей работе, не выходя в Internet. Этот процесс называется проще – скачать файл.

Netscape Navigator – один из лучших Web-браузеров, главная программа пакета Netscape Communicator. С его помощью можно просматривать содержимое Web-страниц, копировать файлы, искать различного рода информацию, работать с текстом и мультимедийными файлами Internet.

Оба браузера имеют свои преимущества. Например:

·       Internet Explorer поставляется бесплатно в составе программного обеспечения фирмы Microsoft;

·       Internet Explorer имеет более широкие возможности при настройке на конкретные вкусы потребителя и большее количество выполняемых функций;

·       Netscape Navigator – имеет большую скорость при работе с Web-страницами.

Но в принципе, оба браузера выполняют похожие задачи и полностью удовлетворяют запросы пользователей при работе с Internet.

Одной из основных архитектурных особенностей Explorer является применение ActiveX - технологии, которая позволяет удобно конфигурировать, например, вид и возможности панели инструментов, что делает компьютер доступным даже для детей.

Оба браузера поддерживают возможность создания HTML-документов, при чём Explorer позволяет создавать темплайты, что так же упрощает создание web-страниц.

Internet Explorer поддерживает наиболее распространенные языки, облегчая пользовательский интерфейс, поддерживает все основные сетевые стандарты и предусматривает интерфейс без использования мыши и возможность изменять шрифт для удобства просмотра.

         Что касается скорости просмотра Web-страниц, то Microsoft утверждает, что Navigator проигрывает в скорости, по крайней мере, на 30 процентов.

Netscape подчеркивает отличие Navigatora от других браузеров, а в особенности от Internet ExplОrer, количеством необходимой для него памяти, скоростью работы, значительными удобствами для создателей Web-документов, наличием системы, позволяющей компьютеру пользоваться телефонными услугами Internet в режиме реального времени. К тому же это позволяет избежать неудобств обычной телефонной связи.

         Когда Netscape неожиданно появилась на рынке, Microsoft пришлось немедленно отреагировать, чтобы не потерять часть своего бизнеса. Без такой яростной конкуренции между двумя гигантами не было бы ни такого широкого использования Web, ни коммерческих Web-серверов, ни недорогих браузеров с графическими интерфейсами. Это соперничество породило недорогие продукты, которые, благодаря использованию протоколов Internet, способны к взаимодействию. Преодолеть несовместимость различных HTML проще, чем те трудности, которые могли бы возникнуть, считают оптимисты.

3. ПОИСКОВЫЕ СИСТЕМЫ.

Основная задача Internet – предоставление необходимой информации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта информация находится. Лучше всего искать в Сети необходимую информацию с помощью поисковых систем. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифицируют по методам поиска.

Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.

Поисковый индекс обеспечивает поиск по заданным ключевым словам. Обычно ключевые слова вводятся при заполнении специальной формы поиска, после чего нажимается кнопка «Поиск». В результате поиска формируется набор гиперссылок на Web-страницы, содержащий указанные термины. Обычно поисковые индексы выдают огромное количество искомых страниц.

В этом списке представлены ссыл­ки на различные Web-страницы, причем ссылки располагаются по степени убы­вания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка  необходимо  выбрать те страницы, ко­торые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же - по степени вероятности того, что данные страницы окажутся искомыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается иско­мое слово. Первыми в таком списке идут ссылки на те страницы, у которых клю­чевые слова встречаются уже в названии.

Поисковые каталоги предоставляют доступ к меньшему количеству страниц, чем поисковые индексы, но они точнее указывают на основные ресурсы Сети. Поэтому при первичном поиске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые индексы. Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы. Многие современные поисковые системы сочетают в себе оба указанных метода.

Программа Internet Explorer 5.0  имеет специальные средства организации поиска без явного обращения к поисковым системам. Можно получить доступ к одной из известных поисковых систем, просто щелкнув на кнопке «Поиск», слева появится окно поиска. Далее можно набрать ключевые слова для поиска и выбрать поисковую систему. Результаты поиска будут отражены в правой части окна обозревателя. Если выбрать нужную ссылку, то в правом окне появится содержимое выбранной страницы. Чтобы скрыть окно поиска, необходимо щелкнуть на кнопке «Поиск» еще раз.

При работе с Internet ЕхрLorer можно проводить поиск прямо в поле «Ад­рес». Для этого в адресную строку вводиться слово или фраза для поиска. Под адресной строкой откроется окно со словом «Поиск» и искомой фразой. Internet Explorer начнет поиск с использованием заранее определенной системы поиска; при этом кнопка «Поиск» на панели инструментов нажмется  сама.

Можно осуществить поиск нажав кнопку «Пуск» и выбрав опцию меню «Найти». Окно Internet Explorer откроется само с уже нажатой кнопкой «Поиск».

Если удалось найти то, что искали, но все же не совсем то, то в этом случае пригодится механизм связанных ссылок. Для любой Web-страницы можно просмотреть список ссылок, имеющих к ней отноше­ние, возможно, среди них окажется как раз то, что нужно. Чтобы просмотреть связанные ссылки, нужно сделать следующее. Необходимо выбрать в меню «Сервис» команду «Показать связанные ссылки».

После этого на панели инструментов нажать кнопку «Поиск», и в левой ча­сти экрана полнится окно, содержащее список ссылок, связанных с данной страницей. Нужно щелкнуть на одной из ссылок, и  просмотреть в правом окне соответствующую Web-страницу.

Чтобы скрыть окно поиска, необходимо щелкнуть еще раз на кнопке «Поиск».

3.1. Механизмы поиска.

Поисковые cистемы обычно состоят из трех компонентов:

·        агент (паук или кроулер), который перемещается по Сети и собирает информацию;

·        база данных, которая содержит всю информацию, собираемую пауками;

·        поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются.

Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.

Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированны, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Internet и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Страницы: 1, 2, 3, 4



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.