Рефераты. Аналітико-синтетичні засоби обробки інформації

Проте, як відомо, «комфортність інформаційного середовища» вимагає від суспільства досить значних витрат. Чи можемо ми, наприклад, очікувати, що з будь-якого обраного нами тематичним напрямком ми обов'язково зустрінемо оглядовий документ? Звичайно, немає. Вторинні документи оглядового характеру повинні бути розраховані на широке коло споживачів і присвячені ключових питань науки і техніки.

Вибрати ці ключові питання, точно розрахувати сили і засоби для забезпечення максимального ефекту від аналітико-синтетичної обробки документів, як і від автоматизації обробки документальної інформації, можна тільки в тому випадку, якщо регулювати ці роботи в державному масштабі.

В Україні ці функції покладені на Державну систему науково-технічної інформації.

Розділ 2. Роль наукової обробки документів у сфері інформаційної діяльності

2.1 Індексування як вид інформаційної діяльності

Проблема інформаційного пошуку - одна з найважливіших проблем інформатики. Інформаційний пошук - це процес відшукання в якомусь безлічі документів тих, які присвячені зазначеної в інформаційному запиті темі (предмету) або містять необхідні споживачеві факти, відомості.

Інформаційний пошук здійснюється за допомогою інформаційно пошукових систем (ІПС) і виконується вручну або з використанням відповідних засобів механізації та автоматизації.

Інформаційно-пошукові системи можуть бути реалізовані за допомогою бібліографічної картотеки селектора, що містить перфокарти з крайової або внутрішньої перфорацією, ЕОМ і т.д. Для застосування ІПС необхідна систематизація та класифікація документів (етапи 1,2,3) [5].

Однією з найпоширеніших класифікацій в даний час є універсальна десяткова класифікація (УДК), створена на основі десяткової класифікації М. Дьюї з ініціативи бельгійських вчених Поля Отле і Анрі Лафонтена. Всі знання, накопичені людством, розбиті в ній на 10 класів: 0. Загальний відділ; 1. Філософія; 2 Релігія; 3 Суспільні науки; 4 Вільний відділ; 5 Математика. Природничі науки; 6 Прикладні знання. Медицина. Техніка; 7 Спорт. Фотографія. Видовища, 8 Мовознавство. Філологія. Художня література. Літературознавство, 9 Краєзнавство. Географія. Біографія. Історія.

Кожен з цих 10 класів ділиться на 10 підкласів, потім ще на десять і т.д. Класифікація є ієрархічної (відношення, при якому один клас є підкласом іншого, більш широкого). Для позначення класів, підкласів в УДК застосовані арабські цифри, абсолютно однозначні для всіх людей, незалежно від їхньої мови або алфавіту. Ця класифікація на сьогоднішній день є міжнародною.

П. Отле і А. Лафонтен бачили в УДК лише засіб для досягнення досконалої системи організації знань. Їх основною ідеєю була геніальна здогадка про необхідність впорядкування всесвітньої системи наукової комунікації. Ця ідея і сьогодні залишається актуальною, оскільки цілі, вперше сформульовані П. Отле на рубежі нашого століття, та ідеї, що розвивалися їм аж до середини 40-х років, далеко ще не реалізовані й нині, а потреба у створенні більш досконалої системи наукової комунікації в людському суспільстві відчувається зараз значно гостріше, ніж у минулі десятиліття. Його почин у створенні універсальної десяткової класифікації послужив надійною основою для подальшої колективної розробки цієї класифікації.

Поряд з УДК, в Україні широко використовуються бібліотечно-бібліографічна класифікація (ББК), міжнародна класифікація винаходів (МКІ), класифікатори промислової продукції і т.д.

Широке поширення класифікацій пояснюється їх зручністю при інформаційному пошуку. Найпростіша Пошукова система являє собою каталог, організований за алфавітом, УДК чи за якоюсь іншою класифікації. У цьому випадку пошук здійснюється в масиві самих документів, представлених у вигляді каталожних карток. Після знаходження потрібної картки в каталозі подальший пошук зводиться до вилучення документа з полиці, де він зберігається. Здається, все просто і зручно. Дійсно, інформаційно-пошукові системи, організовані без застосування будь-яких засобів механізації пошуку, виправдовували себе протягом тривалого періоду.

Із зростанням потоків інформації різко збільшилися і обсяги каталогів. На пошук інформації стало йти значно більше часу, ніж колись. Поки величина масиву, в якому проводився пошук, не перевищувала кількох тисяч документів, миритися зі збільшенням часу пошуку було ще можна. Коли ж обсяг масивів став вимірюватися десятками тисяч документів, а в даний час у великих інформаційних органах такими цифрами вимірюється тільки щорічний приріст фондів, ручні методи пошуку, виявилися малопридатними.

Перші спроби зменшити час пошуку документів за допомогою механізації цього процесу відносяться до початку століття, коли з'явилися (1904 р.) карти з крайової перфорацією, що поклали початок застосуванню напівмеханізованими ІПС. У 1915 р. американський вчений Г. Тейлор отримав патент на спосіб пошуку інформації за допомогою так званих суперпозіціонних перфокарт. Однак практичне застосування ці перфокарти знайшли тільки в 1939 р. З тих пір перфокарти заслужили добру славу як вірні помічники людей в пошуку тієї чи іншої інформації.

Вже в середині 50-х років в СРСР була практично здійснена ідея використання перфораційних обчислювальних машин для пошуку документальної інформації.

Якщо на зорі розвитку обчислювальної техніки для інформаційного пошуку ефективніше було використовувати людей, навіть якщо для цього було потрібно їх все більше і більше, то незабаром положення круто змінилося. Погляди фахівців у галузі інформатики звернулися на ЕОМ. У інформаційному пошуку почалася ера автоматизації.

Механізація і особливо автоматизація бібліотечних та інформаційних процесів - це життєва необхідність. Слідуючи цій необхідності, в даний час у нашій країні і за кордоном розроблена велика кількість автоматизованих інформаційно-пошукових систем (АІПС). Зупинимося на описі таких систем докладніше.

Автоматизовані ІПС залежно від об'єктів пошуку можна розділити на дві групи: документальні і фактографічні.

Документальні системи обмежують свої цілі пошуком документів, фактографічні - пошуком найрізноманітніших числових характеристик, фактів, даних і т.д. Маючи багато спільного, ці типи ІПС володіють і рядом істотних відмінностей. У автоматизованих системах науково-технічної інформації найбільш широке застосування в нашій країні отримали документальні ІПС. Цей факт відображає провідне положення документа в процесі розповсюдження інформації.

Будь-яка документальна ІПС - від ручного до автоматизованої - включає наступні елементи: інформаційно-пошуковий мова (ІПМ), правила перекладу текстів документів і запитів з природної мови на ІПМ, формальні правила (алгоритми) пошуку, технічні пристрої, що реалізують алгоритми пошуку, фонд документів ( або їх адрес), записаних на будь-яких носіях інформації.

2.2 Предметизація як вид інформаційної діяльності

Завданням предметизації є точне уявлення основного змісту документа у вигляді предметних рубрик (рядків).

Інакше ці рядки називаються дескрипторах [5].

Дескриптор (позднелат. descriptor, від лат. Describо - описую), лексична одиниця (слово, словосполучення) інформаційно-пошукової мови, що служить для опису основного смислового змісту документів. Дескриптори служать також для формулювання інформаційних запитів при пошуку документів в інформаційно-пошуковій системі.

Опис змісту документа за допомогою дескрипторів представляє собою пошуковий образ документа (ПІД), а опис змісту запиту - пошуковий образ запиту (ПОЗ). Правила складання пошукових образів документів і запитів є правилами перекладу текстів з природної мови на інформаційно-пошуковий мова (ІПМ).

Словник дескрипторів із зазначеними між ними смисловими відносинами, що охоплює певну галузь знання, називається інформаційно-пошуковим тезаурусом (ІПТ). Ідея застосування ІПТ для інформаційного пошуку документів складається в описі змісту документів і запитів за допомогою дескрипторів, що входять до його складу. На практиці ця ідея реалізується наступним чином. Текст документа, що вводиться в ІПС, зменшується до обсягу реферату, в якому виділяються слова, що несуть основну смислове навантаження, так звані ключові слова. За допомогою ключових слів досить точно передається зміст документа. Після цього кожне слово замінюється близьким йому за змістом дескриптором інформаційно-пошукового тезауруса.

Сукупність термінів тезауруса-дескрипторів, які замінили ключові слова, утворює пошуковий образ документа. Точно так само на язик дескрипторів перекладається і запит. Пошук документів після цього вже можна доручити машині. ЕОМ з притаманною їй швидкістю переглядає масиви подовий і порівнює їх з ПОЗом. Мета такого порівняння - виявити дескриптори, що належать одночасно поду і позу, тобто знайти перетин множин дескрипторів подав і поза. Чим більше зона перетину, тим точніше відповідність документа запиту. Мінімальна величина зони перетину обмовляється прийнятим критерієм смислового відповідності. Змінюючи його, можна варіювати точність і повноту пошуку в залежності від потреб споживачів інформації.

Такі принципи роботи ІПС з ІПМ дескрипторних типу. Якість їх роботи багато в чому залежить від досконалості застосовуваного інформаційно-пошукового тезауруса. Тому вимоги до ІПТ дуже високі. У ній не повинно бути, наприклад, термінів, що виражають одне і те ж поняття, тобто синонімів - це призвело б до втрат інформації при пошуку. Крім цього, повинні бути зафіксовані деякі відношення між термінами (рід - вид, частина ціле та інші), службовці цілям підвищення точності та повноти пошуку.

Тезаурус є необхідним лінгвістичним посібником будь-механізованої або автоматизованої інформаційно-пошукової системи, що використовує ІПМ дескрипторних типу.

Перші тезауруси, що задовольняють специфічним завданням інформаційного пошуку, були розроблені на початку 60-х років нашого століття.

Відповідно до тематичним профілем розрізняють багатогалузеві, галузеві і вузькотематичного тезауруси. Найбільш відомі з інформаційно-пошуковий тезаурус наступні:

1) тезаурус АСТІА (Агентство служби технічної інформації США) - 1-е видання в грудні 1962 р.;

2) тезаурус технічних і наукових термінів, найбільш великий з існуючих тезаурусом (23364 слова, з яких 17810 слів виступають в якості дескрипторів). Ця праця, що вийшов у світ в грудні 1967 р., представляє собою спільне видання Документального центру Міністерства оборони США та Об'єднаного ради інженерів;

Страницы: 1, 2, 3, 4, 5



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.