Успешно зарегистрировано сканирование зарубежных ипс. Информационно-поисковые системы Internet. Концепция функционирования ИПС

Успешно зарегистрировано сканирование зарубежных ипс. Информационно-поисковые системы Internet. Концепция функционирования ИПС

11.04.2019

В данной статье я хотел бы рассмотреть различные техники поиска информации о VoIP-устройствах в сети, а затем продемонстрировать несколько атак на VoIP.

Введение

В последние несколько лет наблюдались высокие темпы внедрения IP-телефонии (VoIP). Большинство организаций, внедривших VoIP, либо игнорируют проблемы безопасности VoIP и ее реализации, либо попросту не знают о них. Как и любая другая сеть, сеть VoIP чувствительна к неправильной эксплуатации. В данной статье я хотел бы рассмотреть различные техники поиска информации о VoIP-устройствах в сети, а затем продемонстрировать несколько атак на VoIP. Я сознательно не стал спускаться до деталей уровня протокола, поскольку данная статья предназначена для пентестеров, которые хотят для начала попробовать основные приемы. Однако я настоятельно рекомендую изучить протоколы, используемые в VoIP-сетях.

Возможные атаки на VoIP

  • Отказ в обслуживании (DoS)
  • Похищение регистрационных данных и манипуляция ими
  • Атаки на систему аутентификации
  • Подмена (спуфинг) Caller ID
  • Атаки типа "Человек посередине"
  • "Шаманство над VLAN-ами" (Vlan hopping)
  • Пассивное и активное прослушивание
  • Спам через интернет-телефонию (SPIT)
  • VoIP фишинг (Vishing)

Конфигурация лаборатории для тестирования VoIP

Чтобы продемонстрировать проблемы безопасности VoIP в рамках данной статьи, я использовал следующую конфигурацию лаборатории:

  • Trixbox i (192.168.1.6) - IP-PBX сервер с открытым исходным кодом
  • Backtrack 4 R2 (192.168.1.4) - ОС на машине атакующего
  • ZoIPer ii (192.168.1.3) - программный телефон для Windows (пользователь A - жертва)
  • Linphone iii (192.168.1.8) - программный телефон для Windows (пользователь B - жертва)

Конфигурация нашей лаборатории

Рисунок 1

Рассмотрим схему лаборатории, представленную выше. Это - типичная конфигурация VoIP-сети небольшой организации с маршрутизатором, который выделяет IP-адреса устройствам, IP-PBX системе и пользователям. Если пользователь A данной сети захочет связаться с B , произойдет следующее:

  1. Звонок A направляется на IP-PBX сервер для аутентификации пользователя.
  2. После успешной аутентификации A IP-PBX сервер проверяет присутствие экстеншена (внутреннего номера) пользователя B . Если экстеншен присутствует, звонок перенаправляется B .
  3. На основании ответа B (например, прием звонка, сброс и т. п.) IP-PBX сервер отвечает пользователю A .
  4. Если все в порядке, A начинает общение с B .

Теперь, когда у нас есть ясная картина взаимодействия, давайте перейдем к развлекательной части - атакам на VoIP.

Поиск VoIP устройств

Поиск устройств (enumerating) - лежит в основе каждой успешной атаки/пентеста, поскольку он обеспечивает атакующего как необходимыми подробностями, так и общим представлением о конфигурации сети. VoIP - не исключение. В VoIP-сети нам, как атакующим, будет полезна информация о VoIP-шлюзах/серверах, IP-PBX системах, клиентских программных и VoIP-телефонах и номерах пользователей (экстеншенах). Давайте посмотрим на некоторые широко используемые инструменты для поиска устройств и создания отпечатков (fingerprints). Для упрощения демонстрации предположим, что нам уже известны IP-адреса устройств.

Smap

Smap iv сканирует отдельный IP-адрес или подсеть на предмет включенных SIP-устройств. Давайте используем smap против IP-PBX сервера. Рисунок 2 показывает, что мы смогли найти сервер и получить информацию о его User-Agent.

Рисунок 2

Svmap

Svmap - другой мощный сканер из набора инструментов sipvicious v . Данный инструмент позволяет выставить тип запроса, использующийся при поиске SIP-устройств. Тип запроса по умолчанию - OPTIONS. Давайте запустим сканер для пула из 20 адресов. Как видно, svmap может обнаруживать IP-адреса и информацию о User-Agent.

Рисунок 3

Swar

При поиске VoIP-устройств для определения действующих SIP-экстеншенов может помочь поиск по номерам пользователей. Svwar vi позволяет сканировать полный диапазон IP-адресов. Рисунок 4 показывает результат сканирования пользовательских номеров в диапазоне от 200 до 300. В результате получаем экстеншены пользователей, зарегистрированные на IP-PBX сервере.

Рисунок 4

Итак, мы рассмотрели процесс поиска VoIP-устройств и получили некоторые интересные детали конфигурации. Теперь давайте воспользуемся этой информацией для атаки на сеть, конфигурацию которой мы только что исследовали.

Атака на VoIP

Как уже обсуждалось, VoIP-сеть подвержена множеству угроз безопасности и атак. В данной статье мы рассмотрим три критические атаки на VoIP, которые могут быть направлены на нарушение целостности и конфиденциальности VoIP-инфраструктуры.

В дальнейших разделах продемонстрированы следующие атаки:

  1. Атака на VoIP-аутентификацию
  2. Прослушивание через ARP-спуфинг
  3. Имитация Caller ID

1. Атака на VoIP-аутентификацию

Когда новый или существующий VoIP-телефон подсоединяется к сети, он посылает на IP-PBX сервер запрос REGISTER для регистрации ассоциированного с телефоном идентификатора пользователя/экстеншена. Этот запрос на регистрацию содержит важную информацию (вроде информации о пользователе, данных аутентификации и т. п.) которая может представлять большой интерес для атакующего или пентестера. Рисунок 5 показывает перехваченный пакет запроса на аутентификацию по протоколу SIP. Перехваченный пакет содержит лакомую для атакующего информацию. Давайте используем данные пакета для атаки на аутентификацию.

Рисунок 5

Демонстрация атаки

Сценарий атаки

Рисунок 6

Шаг 1: Для упрощения демонстрации предположим, что у нас есть физический доступ к VoIP-сети. Теперь, используя инструменты и техники, описанные в предыдущих разделах статьи, мы проведем сканирование и поиск устройств, чтобы получить следующую информацию:

  • IP-адрес SIP-сервера
  • Существующие идентификаторы и экстеншены пользователей

Шаг 2: Давайте перехватим несколько запросов на регистрацию с помощью wireshark vii . Мы сохраним их в файле с именем auth.pcap. Рисунок 7 показывает файл wireshark с результатами перехвата (auth.pcap).

Рисунок 7

Шаг 3:

Теперь мы используем набор инструментов sipcrack viii . Набор входит в состав Backtrack и находится в директории /pentest/VoIP. Рисунок 8 показывает инструменты из набора sipcrack.

Рисунок 8

Шаг 4: Используя sipdump, давайте выгрузим данные аутентификации в файл с именем auth.txt. Рисунок 9 показывает файл захвата wireshark, содержащий аутентификационные данные пользователя 200.

Рисунок 9

Шаг 5: Эти данные аутентификации включают в себя идентификатор пользователя, SIP-экстеншен, хэш пароля (MD5) и IP-адрес жертвы. Теперь мы используем sipcrack, чтобы взломать хэши паролей с помощью атаки по заготовленному словарю. Рисунок 10 показывает, что в качестве словаря для взлома хэшей используется файл wordlist.txt. Мы сохраним результаты взлома в файле с именем auth.txt.

Рисунок 10

Шаг 6: Замечательно, теперь у нас есть пароли для экстеншенов! Мы можем использовать эту информацию, чтобы перерегистрироваться на IP-PBX сервере с нашего собственного SIP-телефона. Это позволит нам выполнять следующие действия:

  • Выдавать себя за легального пользователя и звонить другим абонентам
  • Прослушивать и манипулировать легальными звонками, исходящими и входящими на экстеншен жертвы (пользователя A в данном случае).

2. Прослушивание через Arp-спуфинг

Каждое сетевое устройство имеет уникальный MAC-адрес. Как и остальные сетевые устройства, VoIP телефоны уязвимы к спуфингу MAC/ARP. В данном разделе мы рассмотрим снифинг активных голосовых звонков путем прослушивания и записи действующих разговоров по VoIP.

Демонстрация атаки

Сценарий атаки

Рисунок 11

Шаг 1: В целях демонстрации, давайте предположим, что мы уже определили IP-адрес жертвы, используя ранее описанные техники. Далее, используя ucsniff ix как средство ARP-спуфинга, мы подменим MAC-адрес жертвы.

Шаг 2: Важно определить MAC-адрес цели, который требуется подменить. Хотя ранее упоминавшиеся инструменты были способны определять MAC-адрес автоматически, хорошей практикой будет определить MAC независимо, отдельным способом. Давайте используем для этого nmap x . Рисунок 12 показывает результаты сканирования IP-адреса жертвы и полученный в результате MAC-адрес.

Рисунок 12

Шаг 3: Теперь, когда у нас есть MAC-адрес жертвы, давайте используем ucsniff, чтобы подменить ее MAC. ucsniff поддерживает несколько режимов спуфинга (режим наблюдения, режим изучения и режим MiTM, т. е. «человек-посередине»). Давайте используем режим MiTM, указав IP-адрес жертвы и SIP-экстеншен в файле с именем targets.txt. Этот режим гарантирует, что прослушиваются только звонки (входящие и исходящие) жертвы (пользователь A ), не затрагивая другой трафик в сети. Рисунки 13 и 14 показывают, что ucsniff подменил MAC пользователя A (в ARP-таблице).

Рисунок 13

Рисунок 14

Шаг 4: Мы успешно подменили MAC-адрес жертвы и теперь готовы прослушивать входящие и исходящие звонки пользователя A по VoIP-телефону.

Шаг 5: Теперь, когда пользователь B звонит пользователю A и начинает диалог, ucsniff принимается записывать их беседу. Когда звонок завершается, ucsniff сохраняет записанную беседу целиком в wav-файл. Рисунок 15 показывает, что ucsniff обнаружил новый звонок с экстеншена 200 на экстеншен 202.

Рисунок 15

Шаг 6: Когда мы закончим, мы вызывем ucsniff снова с ключом -q, чтобы прекратить спуфинг MAC в системе и, таким образом, гарантировать, что после завершения атаки все встало на свои места.

Шаг 7: Сохраненный аудиофайл можно проиграть, используя любой известный медиаплеер вроде windows media player.

Спуфинг Caller ID

Это одна из простейших атак на VoIP-сети. Спуфинг ID абонента соответствует сценарию, когда неизвестный пользователь может выдать себя за легального пользователя VoIP-сети. Для реализации данной атаки может быть достаточно легких изменений в INVITE запросе. Существует множество способов формирования искаженных нужным образом SIP INVITE сообщений (с помощью scapy, SIPp и т. д.). Для демонстрации используем вспомогательный модуль sip_invite_spoof из фреймворка metasploit xi .

Сценарий атаки

Рисунок 16

Шаг 1: Давайте запустим metasploit и загрузим вспомогательный модуль voip/sip_invite_spoof.

Шаг 2: Далее, установим значение опции MSG в User B . Это даст нам возможность выдавать себя за пользователя B . Пропишем также IP-адрес пользователя A в опции RHOSTS. После настройки модуля, мы запускаем его. Рисунок 17 демонстрирует все настройки конфигурации.

Рисунок 17

Шаг 3: Вспомогательный модуль будет посылать измененные invite-запросы жертве (пользователю A ). Жертва будет получать звонки с моего VoIP телефона и отвечать на них, думая, что говорит с пользователем B . Рисунок 18 показывает VoIP-телефон жертвы (A ), которая получает звонок якобы от пользователя B (а на самом деле от меня).

Рисунок 18

Шаг 4: Теперь A считает, что поступил обычный звонок от B и начинает говорить с тем, кто представился как User B .

Заключение

Множество существующих угроз безопасности относится и к VoIP. Используя поиск устройств, можно получить критичную информацию, относящуюся к VoIP-сети, пользовательским идентификаторам/экстеншенам, типам телефонов и т. д. С помощью специальных инструментов, возможно проводить атаки на аутентификацию, похищать VoIP звонки, подслушивать, манипулировать звонками, рассылать VoIP-спам, проводить VoIP-фишинг и компрометацию IP-PBX сервера.

Я надеюсь, что данная статья была достаточно информативной, чтобы обратить внимание на проблемы безопасности VoIP. Я бы хотел попросить читателей отметить, что в данной статье не обсуждались все возможные инструменты и техники, использующиеся для поиска VoIP-устройств в сети и пентестинга.

Об авторе

Сохил Гарг - пентестер в PwC. Области его интересов включают разработку новых векторов атак и тестирование на проникновение в охраняемых средах. Он участвует в оценках защищенности различных приложений. Он докладывал о проблемах безопасности VoIP на конференциях CERT-In, которые посещали высокопоставленные правительственные чиновники и представители ведомств обороны. Недавно он обнаружил уязвимость в продукте крупной компании, дающую возможность повышения привилегий и прямого доступа к объекту.

Ссылки

i http://fonality.com/trixbox/
ii http://www.zoiper.com/
iii http://www.linphone.org/
iv http://www.wormulon.net/files/pub/smap-blackhat.tar.gz
v
vi http://code.google.com/p/sipvicious/
vii http://www.wireshark.org/
viii Этот инструмент можно найти в Backtrack 5 в каталоге /pentest/voip/sipcrack/
ix http://ucsniff.sourceforge.net/
x http://nmap.org/download.html
xi http://metasploit.com/download/

Городилов А.В.
Крагин А.Н.

Источник: archive.alee.ru

Система разработана в рамках дипломного проекта. Кафедра ИПОВС, МИЭТ. В ближайшее время будут выложены подробные описания системы, а также исходный код модулей.

Обзор существующих технологий построения и организации электронных архивов.

В данном разделе я постарался выделить общее в технологиях построения и организации электронных архивов.

Технология построения электронного архива.

Процесс построения электронного архива включает:

  • сканирование документов и создание их электронных образов;
  • организацию надёжного и защищённого хранилища образов документов;
  • индексирование документов;
  • распознавание текста и коррекцию ошибок;

Существует несколько типовых решений проблемы создания Электронного архива документов.

«Минимальное решение»

Это самое дешёвое решение для организаций, стремящихся упорядочить доступ к архивной информации, но не предполагающих активно использовать электронные образы документов.

При таком решении создаётся электронная картотека архива - база данных с полноценным формализованным описанием документов по нескольким поисковым полям (обычно 5–10) и точным физическим адресом (раздел, шкаф, стеллаж) расположения бумажного документа.

Зная характеристики документа, архивариус запрашивает систему о его местонахождении в хранилище, а, получив физический адрес, легко находит и сам документ. Такая электронная картотека во много раз облегчает структуризацию бумажного архива, упрощает поиск документов и учёт их использования.

«Стандартное решение»

Более распространённое и функциональное решение - электронная картотека, дополненная массивом графических образов документов (отсканированных изображений).

Такой архив позволяет полностью отказаться от использования в повседневном обороте оригиналов документов, которые могут в этом случае храниться удалённо, на площадях с низкой стоимостью и, при необходимости, под надёжной охраной.
Стандартный программно-аппаратный комплекс архива гарантирует, что в результате поиска по электронной картотеке сотрудник организации получит в своё распоряжение точный образ нужного документа, который можно использовать для просмотра, передачи по сети или печати бумажной копии. При этом автоматизированная система управления доступом обеспечит учёт и авторизацию всех обращений, а также надёжную защиту от несанкционированного использования документов.

Стандартное решение позволяет организовать единое управление архивом даже для территориально распределённой организации и обеспечить полноценный контроль за всеми её документами из единого центра.

«Максимальное решение»

Наиболее эффективный электронный архив, в котором электронная картотека и массив графических образов дополняются файлами, содержащими тексты всех документов архива.

Тексты документов создаются набором вручную или путем автоматического распознавания и верификации их графических образов. Поиск в таком архиве может быть организован как по поисковым полям (картотеке), так и по содержанию самих документов (контекстный поиск). Найденные документы можно просматривать, пересылать и распечатывать как в виде их исходных образов, так и в виде текстовых файлов, доступных для редактирования стандартными текстовыми редакторами.

Выбор «Решения»

Для создания Электронного архива Управления было выбрано наиболее полное и функциональное решение. Проанализировав Максимальное решение в контексте технологии построения электронного архива, было принято решение о создании программного комплекса для решения следующих задач:

  • организация надёжного и защищённого хранилища документов;
  • индексирование документов;
  • создание системы поиска и отображение документов;
  • создание системы управления электронным архивом.

Концепция функционирования ИПС

В концепции функционирования Электронного архива ИПС я выделил следующие основные информационные и функциональные сущности:

  • контрольно-регистрационная карточка документа;
  • файл документа;
  • сервер контекстного поиска;
  • приложение документа.

Контрольно-регистрационная карточка документа содержит учетно-регистрационную информацию, различные признаки документа и его атрибуты. Кроме того, карточка документа содержит ряд признаков, по которым можно провести однозначную идентификацию документа, его место хранения, параметры привязки отдельного документа в комплекте документации в целом и т. п.

В файле документа представлено собственно содержание документа в электронном виде.

Приложение документа служит программным средством для работы с документом.

Таким образом, можно выделить основные программно-аппаратные компоненты системы ИПС:

Ядро системы управления документами (СУД);
Сервер БД архивной системы (Картотека);
Файловый сервер документов (Хранилище документов);
Сервер приложений (Поисковый сервер);
Сеть клиентских рабочих мест.
Ядро системы управления документами.

Ядро системы управления документами или другими словами, бизнес-логика функционирования системы, встроено в клиентское приложение. Вся работа по авторизации пользователей ИПС, аутентификации пользователей ИПС, работе с документами, администрированию и настройке системы проводится с помощью клиентского приложения ИПС. Именно ядро отвечает за правильность и целостность хранения данных в БД и на файловом сервере документов.

Сервер БД архивной системы (Картотека).
Сервер БД архивной системы (Картотека). Роль сервера БД в системе играет SQL-сервер Borland InterBase6. С версии 6.0 этот продукт является совершенно бесплатным и распространяется с открытыми исходными текстами.
Файловый сервер документов (Хранилище документов).
Файловый сервер документов

(Хранилище документов) - это файловый сервер с большим дисковым пространством под хранение текстов документов, а также их txt-образов и индекса документов. Взаимодействие Хранилища документов с ядром системы осуществляется посредством протокола обмена файлами (FTP).

Сервер приложений (Поисковый сервер). Полноценный поиск по документам включает в себя две составляющие:

  1. Поиск по реквизитам.
  2. Поиск по содержимому документа.

Если с первой задачей можно успешно справится средствами языка структурированных запросов (SQL) к базе данных, то в задаче поиска по контексту без полнотекстовой индексации документов не обойтись. Учитывая то, что в функциональности Электронного архива первое место отводится мощности, скорости и простоте контекстного поиска было решено для полнотекстовой индексацией в ИПС применить библиотеку ABBYY RETRIEVAL & MORPHOLOGY 4.0 ENGINE. Эта библиотека предоставляет разработчику Retrieval API в. реализацию которого входят следующий функции:

1) Полнотекстовая индексация. Инструментарий позволяет создать эффективный полнотекстовый индекс многоязычных документов. Индекс хранит информацию о словах и их местоположении в информационном хранилище (файловых серверах, WEB-серверах или базах данных). Для того, чтобы создать наиболее компактный индекс, который в дальнейшем обеспечит наибольшую скорость поиска, система использует знание морфологии, лемматизацию и словари стоп-слов. В результате использования лемматизации (нахождения начальной формы слова по любой его словоформе) система включает в индекс не все 4 000 000 словоформ русского языка, а только 150 000 его словооснов. Словари стоп-слов содержат набор незначимых для поиска символов языка (предлоги, союзы), которые не включаются в индекс и делают его короче. В общем случае скорость индексирования и относительного размера индекса зависят от большого числа параметров - конфигурации компьютера, структуры исходной информационной базы, формата и языков документов и т. д. Ниже приведена приблизительная оценка характеристик системы при индексировании одноязычного «гладкого текста» в формате TXT:
Скорость индексирования 20 мб\мин
Отношение размера индекса к информационному источнику 40%.

2) Полнотекстовый поиск. Функции полнотекстового поиска позволяют, указав в запросе любую форму нужного слова, найти в проиндексированных документах все вхождения этого слова как в заданной, так и в остальных его формах. ARM Engine позволяет осуществлять как простой, так и расширенный поиск. При простом поиске запрос состоит из одного или нескольких слов, а также логических операторов (AND, OR, NOT). Так как индекс содержит информацию о координатах каждого слова в проиндексированных документах, возможно также задать дистанцию между искомыми словами и их относительную позицию. Запрос для расширенного поиска представляет собой строку на специальном «языке запросов», что позволяет более точно задать параметры поиска, используя произвольную комбинацию логических операторов. В обоих случаях, благодаря использованию компактного индекса, Булевой логики, словарей словоформ и стоп-слов, поиск даже в многоязычных документах осуществляется настолько эффективно, что скорость поиска составляет доли секунды и практически сравнима со скоростью реакции пользователя.

3) Нечеткий поиск. ARM Engine позволяет осуществлять нечеткий поиск, т. е. находить слова, которые отличаются от исходного несколькими символами. Такая возможность полезна в случае, если документы содержат слова с ошибками, пользователь не уверен в правильности написания слов или хочет найти похожие слова.

Проанализировав возможности этой библиотеки, а также, учитывая возможность довольно безболезненной интеграции библиотеки в ИПС, нами было принято решение об использовании ее в качестве Полнотекстового Индексирующего Механизма.

Лицензионная политика компании ABBYY позволяет разработчикам программного обеспечения (потенциальным покупателям их продукта) получить бесплатную полнофункциональную версию ARM Engine для тестирования и разработки механизмов взаимодействия.

Сеть клиентских рабочих мест

Сеть клиентских рабочих мест состоит из клиентских приложений ИПС. Для взаимодействия с сервером БД (Хранилищем документов) клиентское приложение использует InterBase API. Для взаимодействия с Поисковым сервером клиентское приложение использует Retrieval API. Взаимодействие с пользователем осуществляется с помощью стандартных графических средств MS Windows - Windows GUI.

Техническое обеспечение ИПС

Для функционирования системы ИПС «НПДок» необходимо следующие техническое обеспечение:

1) Локальная вычислительная сеть под управлением домена MS Windows. Обязательное присутствие домена объясняется использованием ARM Engine технологии DCOM (Distributed Component Object Model). DCOM - это программная архитектура, разработанная компанией Microsoft для распределения приложений между несколькими компьютерами в сети. Программный компонент на одной из машин может использовать DCOM для передачи сообщения (его называют удаленным вызовом процедуры) к компоненту на другой машине. DCOM автоматически устанавливает соединение, передает сообщение и возвращает ответ удаленного компонента.

2) Сервер InterBase 6. Системные требования для сервера InterBase6:

Свободное дисковое пространство: на начальном этапе достаточно 50 мб, но с ростом базы потребуется дополнительное дисковое пространство

3) Сервер ABBYY FTRE. Библиотека полнотекстовой индексации устанавливается сервисом в систему MS Windows NT 4.0/5.0/5.1. Системные требования Поискового сервера:
Операционная система: MS Windows NT\2000
Компьютер на базе Intel Pentium II
Оперативная память: не менее 128 мб
Свободное дисковое пространство: на начальном этапе достаточно 500 мб, но с ростом базы потребуется дополнительное дисковое пространство

4) Клиентские места системы ИПС. Системные требования для компьютеров, обеспечивающих работу Клиента ИПС:
Операционная система: MS Windows 9x\NT\2000
Компьютер на базе Intel Pentium 200Mhz
Оперативная память: 32 мб
Свободное дисковое пространство: 3 мб

Как только посылка поступит на один из наших складов за рубежом или в России, вы получите оповещение по электронной почте. В дальнейшем Вы сможете отследить Вашу посылку на нашем сайте в разделе «Отслеживание», для этого необходимо ввести свой tracking-number.

Пожалуйста, убедитесь что Вы верно указали свой почтовый адрес в профиле IPS, и что Ваш электронный почтовый ящик не переполнен.

Если ваш продавец (интернет-магазин) сообщил Вам, что Ваша посылка прибыла в один из наших офисов, но вы все еще не можете отследить ее, пожалуйста, свяжитесь с нами, по возможности, предоставив полную информацию о вашей посылке (название магазина, отправителя и адрес отправления, идентификационный номер, дату отправления и т.д.).

    Доставка посылки из-за границы. Как это работает?

    Всем нашим клиентам (будь это постоянный клиент или клиент, желающий получить посылку единоразово) мы предоставляем почтовые адреса в трех городах мира – Лондоне, Нью-Йорке, Ганновере. На любой из них Ваш респондент (интернет-магазин, друг, родственник, коллега и т.п.) может выслать Вам посылку и через – 7-10 рабочих дней после того, как она поступит на один из этих адресов, Вы получите ее в Москве.

    Как мне получить адреса?

    Есть два варианта:

    • Вы хотите получить пока одну-две посылки:

    Вам нужно подъехать с паспортом в офис IPS. Здесь сделают ксерокопию Вашего паспорта, запишут Ваши контактные телефоны и выдадут нужный Вам адрес (в Лондоне, в Нью-Йорке или в Ганновере).

    • Вы планируете регулярно (несколько раз в месяц) получать письма, журналы или посылки из-за рубежа:

    Вам имеет смысл заключить договор на постоянное обслуживание. Для этого нужно абонировать почтовый ящик и регулярно вносить абонентский платеж. Минимальный размер месячной абонентской платы – 755,2руб (с учетом НДС 18%). (Есть и другие размеры абонентской платы, они зависят от набора дополнительный бесплатных услуг, уже включенных в абонентское обслуживание). В этом случае Вы получаете все три адреса и можете пользоваться ими по своему усмотрению.

    Для получения адреса - можно мне к Вам не приезжать, а отправить копию паспорта по e-mail?

    Можно, но тогда нужна предоплата.

    В двух вышеуказанных случаях (см. вопрос 2) мы обслуживаем клиентов в режиме наложенного платежа - мы привозим (т.е. сначала оказываем услугу), а потом только получаем оплату от клиента. Поэтому для нас важно удостовериться, что наш клиент –реальное лицо.

    Если Вы хотите нам отправить копию паспорта электронно, то для дальнейшего обслуживания важна предоплата от Вас в размере не менее 4000,0 руб. Если после оказания и оплаты услуги доставки у Вас остается сумма – по первому Вашему требованию эта сумма будет Вам возвращена на те реквизиты, с которых она была отправлена Вами нам. Либо в дальнейшем вы сможете использовать ее для оплаты услуг в нашей компании.

    Почему выгодно абонировать почтовый ящик?

    Клиент, который абонирует почтовый ящик, становится нашим постоянным клиентом.

    Постоянные клиенты имеют следующие льготы:

    • Тарифы на наши услуги для наших постоянных клиентов ниже тарифов для непостоянных клиентов на 10-30 % (в зависимости от вида услуг).
    • Расчет тарифов за доставку посылки из-за рубежа производится в соответствии с реальным весом этой посылки, а не за округленный вес до полного числа килограмм.
    • Действуют накопительные скидки.
    • Упаковка, переупаковка писем/посылок для наших постоянных клиентов производится бесплатно.
    • Для постоянных клиентов осуществляется доставка или пересылка писем/посылок из наших зарубежных адресов на любой другой международный адрес или в руки любому лицу за рубежом.
    • Постоянный клиент получает информацию обо всех изменениях заранее.
    • Постоянный клиент может заказать нужную ему нестандартную услугу, даже если эта услуга не обозначена в списке услуг IPS и ее нужно выполнить за пределами России.
    • Бесплатно хранить длительное время письма/посылки в наших зарубежных офисах.
    • Самостоятельно забирать свои посылки в наших зарубежных офисах.
  • Могу я использовать абонируемый почтовый ящик в Вашем офисе для получения обычной почты, корреспонденции, счетов, подписки из Москвы или из России?

    Конечно. Абонентская плата у нас дешевле, чем на Почте России. В данном случае, кроме абонентской платы Вы больше ничего не платите.

    Мне нужно отправить посылку за рубеж. Чем услуги IPS по отправке отличаются от других курьерских компаний?

    • Через нас клиент может отправить 3-мя режимами:
      • почтовый режим – самый дешевый, но и самый медленный – 10-12 раб.дней;
      • курьерский режим средней скорости доставки – 4-5 раб.дней (Экспресс-смарт);
      • курьерский режим высшей скорости доставки - 1-2 раб.дня (Экспресс-бизнес).
    • Мы самостоятельно оформляем за клиента все документы для таможни.
    • Бесплатно консультируем по оптимизации логистического процесса отправки любого груза в любую страну мира.
  • У меня 4 маленьких посылки. Вы сможете упаковать эти посылки в одну?

    Cможем. Мы обеспечим консолидацию посылок. Для постоянных клиентов (абонирующих почтовый ящик) – эта услуга бесплатная.

    Каким образом я могу оплатить доставку?

    На данный момент доступны наличный и безналичный способы оплаты.

    Какая компенсация мне будет выплачена в случае потери посылки?

    Наша доставка имеет высокую степень надежности. Однако если такое случилось и посылка была застрахована – полная застрахованная сумма.

    Как долго занимает доставка посылки?

    Обычно доставка занимает от 7 до 12 дней со дня поступления посылки на наш склад в соответствующей стране.

    Могу ли я хранить мою посылку на вашем складе в США/Великобритании/Германии в течение 1-2 месяцев? Взимается ли за это дополнительная плата?

    Если Вы не абонируете почтовый ящик компания IPS будет хранить бесплатно Вашу посылку только в течение 7 дней с момента поступления на склад. В случае хранения посылки свыше 7 дней взимается дополнительная плата. IPS оставляет за собой право по своему усмотрению распоряжаться посылками, которые хранятся на складе более чем на 60 дней, владельцы которых не осуществили оплату хранения.

    Каковы преимущества доставки с компанией IPS?

    Преимущества доставки с компанией IPS:

    • надежность доставки;
    • разумная и понятная стоимость доставки;
    • выполняемый срок доставки -7-12 дней;
    • наличие московского офиса, где всегда готовы помочь;
    • возможность покупки товаров, не доступных в России;
    • возможность покупки товаров в магазинах, не доставляющих товары в Россию;
    • возможность экономии на доставке, используя услугу консолидации отправления и переупаковки.
  • Какую информацию я должен указать в поле «Адрес доставки» при покупке товаров в интернет-магазинах?

    Вы должны ввести: адрес нашего зарубежного офиса, предоставленный Вам нашей компанией, Ваши Фамилию и Имя, номер Вашего почтового ящика.

    Должен ли я что-то Вам сообщить после совершения покупки и отправки посылки на предоставленный мне адрес?

    После осуществления заказа необходимо сообщить нам о совершенном заказе, предоставить данные заказа – описание вложения, его вес, стоимость. Эта информация необходима для обработки Ваших посылок.

    Существуют ли ограничения возможных вложений?

    С компанией IPS вы можете отправить посылку с любым вложением, не запрещенным законодательством Российской Федерации.

    К запрещенным вложениям относятся:

    • взрывчатые вещества,
    • легковоспламеняющиеся предметы,
    • радиоактивные материалы,
    • сжатый газ,
    • огнестрельное оружие,
    • любые предметы, которые, по своей природе упаковки могут привести к травме сотрудников IPS или вызвать повреждение других предметов.

    С полным перечнем запрещенных вложений вы сможете ознакомиться .

    Перед тем как сделать покупку в интернет-магазине, пожалуйста, убедитесь, что ваша покупка не относится к категории опасных грузов.

    Гарантирует ли IPS подлинность и качество приобретенного мною продукта?

    IPS не несет ответственности перед клиентом за подлинность и качество приобретенного им товара. В целях собственной безопасности, пожалуйста, приобретайте товары только в проверенных интернет-магазинах.

    Как правильно упаковать посылку?

    Тем не менее, если это необходимо, пожалуйста, обеспечьте надлежащую упаковку вашего отправления, либо проинформируйте сотрудников IPS о необходимости дополнительной упаковки вашей посылки.

    Мы не несем ответственность за любые убытки и повреждения, которые могут возникнуть во время обработки, перевозки или доставки вследствие ненадлежащей упаковки посылки отправителем.

    Какие документы необходимо предоставить для подтверждения оценочной стоимости отправки?

    Необходимо предоставить инвойс, подготовленный отправителем, указанные в нем суммы должны включать все налоги, а также все другие возможные сборы.

    В каких интернет-магазинах я могу совершать покупки?

    Что делать, если продавец выслал не тот товар / не правильное количество товара?

    Так как компания IPS осуществляет только доставку вашей посылки в Россию, все вопросы, касательно комплектации и соответствия товара, а так же возможность обмена, либо возврата необходимо решать непосредственно с продавцом или отправителем.

    Я хочу приобрести ювелирные изделия из драгоценных металлов с драгоценными камнями. Это возможно?

    Нет. Мы не доставляем изделия из драгоценных металлов и/или с драгоценными камнями.

    Когда я буду знать конечную стоимости доставки?

    Только после того, как посылка поступит на наш, выбранный Вами, зарубежный склад.

    Как только ваша посылка будет обработана, вы будете уведомлены по электронной почте относительно сроков доставки и конечной стоимости доставки. Вашей посылке будет присвоен персональный номер, вы сможете, следуя инструкциям в письме, оплатить стоимость доставки и отследить статус своего отправления.

    В случае, если вы хотите произвести консолидацию вашего отправления, необходимо производить оплату после окончательного формирования посылки.

    Клиенту, абонирующему почтовый ящик, не нужно совершать никаких оплат до получения своей корреспонденции/посылок в московском офисе IPS.

    Если я решил отказаться от доставки в Россию посылки, которая пришла на мое имя в зарубежный офис IPS, будут ли с меня удержаны какие-то суммы, если будет необходимо вернуть посылку отправителю или уничтожить её?

    Если по какой-либо причине вы решили остановить доставку в Россию вашей посылки, пожалуйста, срочно переговорите с вашим отправителем, чтобы он не отправлял на адрес IPS вашу посылку.

    В случае, если посылка все же пришла на адрес склада IPS, мы можем по вашему указанию, отправить посылку обратно (или переправить на другой адрес) с удержанием 10$ административного сбора, а также 100% стоимости затрат на возврат/доставку посылки.

    Так же мы можем утилизировать посылку с удержанием 10$ административного сбора (для посылок, не превышающих 15 кг). В случае хранения посылки более, чем 21 день, IPS взимает оплату в размере $.50 в день за одну посылку.

    Каков минимальный оплачиваемый вес доставляемой посылки?

    Для клиентов, абонирующих почтовый ящик - минимальный оплачиваемый вес составляет 1 фунт с последующим шагом в 0,1 фунт.

Семинар

Проектирование систем управления документами

Понятие информационно-поисковой системы (ИПС).

Состав компонент и технология работы с ИПС.

В работе современных предприятий важную роль играют его информационные ресурсы, под которыми можно понимать проектную документацию, переписку с партнерами, внутренние приказы и распоряжения, финансовые данные и другие документы, которые служат основой для принятия новых решений и используются в процессах управления предприятием. И если для хранения структурированных данных можно применять специализированные информационные системы (типа бухгалтерской или торговой системы или системы планового отдела), основанные, на использовании СУБД, то для неструктурированных данных нужны системы общего назначенияэлектронные архивы, работающие на принципах информационно-поисковой системы.

Информационно-поисковая система (ИПС) – это система, предназначенная для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области. Выделяют ИПС двух типов: фактографические и документографические системы. ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, о предприятиях, акционерах и т.д.). Документографические ИПС отличаются тем, что объектом хранения и поиска в этих системах служат документы, отчеты, рефераты, обзоры, журналы, книги и т.д. Сценарий поиска документа при помощи ИПС обычно сводится к вводу запроса на поиск, состоящего из одного или нескольких слов, после чего предъявляется список имен найденных документов. Пользователь может открыть любой из найденных документов и если поисковая система позволяет, вхождения искомых слов в документе выделяются - «подсвечиваются». Можно выделить следующие особенности организации и



функционирования документографической ИПС, отличающие ее от систем управления базами структурированных данных: – Документы могут храниться на бумаге, микрографических носителях или существовать в электронных форматах. Микрографические форматы включают микрофильмы, микрофиши, слайды и другие микроформы, производимые разнообразными документными камерами. Электронные форматы еще многочисленнее, они включают документы, подготовленные в текстовых процессорах, системах электронной почты и других компьютерных программах, оцифрованные изображения прошедших сканирование документов и проч. При этом предполагается обязательное хранение как электронных копий документов, так и их бумажных оригиналов.

Если документы занимают большой объем и полные электронные копии выдавать на просмотр или хранить не возможно, то для таких документов создают и хранят электронные адреса их хранения.

Поиск осуществляется нахождением документа по двум принципам: по

атрибутам документа – дате создания, размеру, автору и пр. и по его содержанию (тексту). Обычно поиск по содержанию документа выполняется двумя способами: по ключевым словам и по всему тексту, который называют полнотекстовым, подчеркивая тем самым, что для поиска используется весь текст документа, а не только его реквизиты.

Для поиска документов создают и хранят их поисковые образы. Поисковый образ документа (ПОД) – совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают смысл, содержание документа.

Ключевые слова и их коды хранятся в специальном словаре – тезаурусе .

Для того, чтобы осуществлять поиск документов, нужно создать информационно-поисковый язык (ИПЯ), в состав которого входит тезаурус и грамматика языка, т.е. совокупность правил задания множества высказываний на множестве ключевых слов.

Чтобы отыскать документ, нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ) , который представляет собой совокупность закодированных ключевых слов, описывающие те документы, которые нужно найти.

Схема взаимодействия компонент ИПС представлена на рис. 1.

Рис. 1. Схема взаимодействия компонент ИПС

ИПС состоит из следующих обеспечивающих подсистем:

Лингвистическое обеспечение, включающее в свой состав информационно-поисковый язык;

Техническое обеспечение системы, включающее ЭВМ и устройства создания, хранения, чтения и размножения копий на бумажных носителях, в микроформатах и в электронной форме;

Информационное обеспечение, состоящее из БД документов (БД Док.), адресов (БД Адр.) и БД поисковых образов документов (БД ПОД) и списков дескрипторов и их кодов - тезауруса;

Программное обеспечение.

Программное обеспечение ИПС предназначено для автоматизации следующих основных функций, которые должна выполнять эта система:

Составления, кодирования и загрузки базы данных ПОД;

Загрузки БД документов и их адресов хранения;

Составления, кодирования ПОЗ;

Выполнение операции поиска и выдачи ответа на запрос в виде документа или адресов хранения документов на экран ЭВМ, на бумагу, в файл;

Актуализация баз данных ПОД, документов и адресов;

Актуализация тезауруса;

Выдача справок.

Рассмотрим основные понятия, употребляемые в сфере поиска документов.

Релевантность - степень соответствия найденного документа запросу. Найденный по запросу документ может иметь отношение к запросу, т. е. содержать нужную (искомую) информацию, а может и не иметь никакого отношения. В первом случае документ называется релевантным (по-английски relevant - «относящийся к делу» ), во втором - нерелевантным , или шумовым. Как правило, в любой поисковой системе по запросу выдается несколько (чаще много) найденных документов. Многие из них могут повествовать не о том. И наоборот, некоторые важные, релевантные, документы могут быть пропущены при поиске. Ясно, что количество тех и других определяет качество поиска, которое можно определить достаточно точно. Основными понятиями в мире поисковых средств являются идеи точности и полноты поиска.

Точность поиска (Т) определяется тем, какая часть информации, выданная в ответ на запрос, является релевантной, т.е. относящейся к этому запросу и является параметром, показывающим, какова доля релевантных документов в общем числе найденных. Этот показатель рассчитывается по формуле:

Если, например, все выданные по запросу документы относятся к делу, то точность равна 100%; если, напротив, все документы шумовые, то точность поиска равна нулю.

Полнота поиска (П) - дополнительный параметр, показывающий, какова доля (или процент) найденных релевантных документов в общем количестве релевантных документов, т.е. характеризуется соотношением между всей релевантной информацией, имеющейся в базе, и той ее частью, которая включена в ответ и рассчитывается по формуле:

Если в области поиска на самом деле имеется 100 документов, содержащих нужную информацию, а по запросу найдено из них всего 30, то полнота поиска равна 30%. Кроме этого при оценке поисковых систем учитывается, с какими типами данных может работать та или иная система, в какой форме представляются результаты поиска и какой уровень подготовки пользователей необходим для работы в этой системе. Следует отметить, что точность поиска и его полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного запроса, а также от субъективного представления пользователя о том, какая нужна ему информация. Если стоит проблема оценки нескольких систем и выбора наиболее эффективной, можно вычислить средние значения полноты и точности рассматриваемых конкретных систем, протестировав их на эталонной базе документов.

Индексация документов (т.е. составление ПОД), которая означает предварительную подготовку текстов для поиска и применяется главным образом для ускорения поиска; как правило, текстовые базы данных, предназначенные для многократного поиска, обрабатывают заранее, составляя так называемый индекс (ПОД) . При индексации поисковая система составляет списки слов, встречающихся в тексте, и приписывает каждому слову его код - координаты в тексте (чаще всего номер документа и номер слова в документе). При поиске слово ищется в индексе, и по найденным координатам выдаются нужные документы. Если слов в запросе несколько, над их координатами производится операция пересечения. В том случае, если множество документов пополняется, приходится пополнять и индекс.

Единица поиска - это квант текста, в пределах которого в данной поисковой системе осуществляется поиск, от величины которого зависит показатель точности поиска, величина шума и время ответа на запрос. Единицей поиска может быть документ, предложение или абзац. В технологии использования ИПС можно выделить три группы операций:

Операции, связанные с получением поисковых образов документов (ПОД), описывающих содержание документов и загрузкой их в базу данных (БД ПОД), а также загрузкой самих документов или их адресов хранения в БДДок и БДАдр.;

Операции составления поисковых образов запроса (ПОЗ) с использованием тезауруса, поиска и выдачи результатов на просмотр и отбор или файл или на печать найденных документов или списка адресов;

Операции ведения информационно-поисковой системы, включающие актуализацию БД ПОД, БДДок., БДАдр. и тезауруса вследствие возникновения и необходимости пополнения памяти системы новыми документами или ключевыми словами. В состав операций ведения ИПС входит также процедура выдачи справок о работе системы, о ее структуре, методах поиска и классах и видах хранимых u1076 документах.

Санкт-Петербургский государственный университет

Филологический факультет

Кафедра математической лингвистики

В.П. Захаров

ИнформационнО-ПОИСКОВЫЕ
системы

Учебно-методическое пособие

Санкт-Петербург

Рецензенты:

докт. техн. наук В.Ш. Рубашкин (С.-Петерб. гос. ун-т)

канд. пед. наук О.А. Арбатская (С.-Петерб. гос. ун-т культ. и иск-в)

Печатается по постановлению
Редакционно-издательского совета
С.-Петербургского государственного университета

Захаров В.П.

З-38Информационно-поисковые системы: Учебно-метод. пособие. - СПб., 2005. - 48 с.

Предлагаемое пособие содержит описание основ документального информационного поиска, программу учебной дисциплины «Теория информационного поиска», которая изучается студентами 3-го курса отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета, и набор лабораторных (практических) работ по этой дисциплине. Отдельные лабораторные работы используются для обучения студентов других курсов и по другим дисциплинам. Пособие базируется на исследовательской и преподавательской деятельности автора.

Для студентов и аспирантов, специализирующихся в области прикладной лингвистики, информационных систем и автоматизированных систем обработки текста.

ã В.П. Захаров, 2005

ã Санкт-Петербургский
государственный
университет, 2005

1. Введение в теорию и практику
информационного поиска

1.1. Основные понятия информационного поиска

Информационно-поисковая система (ИПС) - это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации - текстов (документов) или данных (фактов). Информационно-поиско-выми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический - и, соответственно, два типа ИПС - документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.

В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.

Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ-ствует смысловому содержанию информационного запроса, называется релевантным , а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) - релевантностью . Релевантность - это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа-нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, - формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Составные части ИПС называют подсистемами. Разделение на подсистемы необходимо и полезно как в целях разработки, так и для описания технологии функционирования систем. Оно может иметь разную основу. Обычно рассматривают два типа разбиения ИПС на подсистемы: по функциональному принципу (функциональные подсистемы) и по типу средств (обеспечивающие подсистемы).

Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем , или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.

Информационное обеспечение - это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.

Лингвистическое обеспечение - это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Программное обеспечение - это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.

Техническое обеспечение - это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.

Технологическое обеспечение - это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.

Кадровое (или штатное) обеспечение - это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).

ИПС также делят на составные части (подсистемы) по функциональному признаку, когда каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов поиска, выдача документов и др. Такие части получили название функциональных подсистем .

Важные понятия в информационном поиске - документ и запрос. Документ определяется как средство закрепления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме.

Запрос представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов , который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы.

Третья часть информационного обеспечения - так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы.

Важнейшей компонентой информационно-поисковых систем является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов - аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Хорошо известны такие «недостатки» языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Информационно-поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.

При сопоставлении документов и запросов требуется определить релевантность документа по отношению к запросу и принять решение о выдаче или невыдаче документа на данный запрос. Правила, на основе которых формально определяется степень релевантности документа и запроса, т.е. соответствие ПОД и ПОЗ, называются критерием смыслового соответствия (КСС), или критерием выдачи .

Математические модели и формулы вычисления коэффициента релевантности могут быть самые разные. На практике повсеместное распространение получили ИПС с логическим критерием выдачи , когда ПП строятся с использованием логических (булевых) операторов конъюнкции (&), дизъюнкции (\/), отрицания (~). В этом случае логическое выражение запроса представляет собой набор поисковых элементов (обычно ключевых слов), объединенных логическими операторами и скобками, необходимыми для указания порядка выполнения операторов. Ключевые слова ПП играют роль булевых переменных, принимающих значение 1 («истина»), если данное слово содержится в документе, и 0 («ложь»), когда оно там отсутствует. Документ признается релевантным запросу, если логическая формула запроса в целом получает для данного документа значение «истина», и нерелевантным, если результат вычисления логической формулы дает «ложь».

Принятые в логике для обозначения конъюнкции, дизъюнкции и отрицания значки (&, \/, ~) в информационном поиске обычно заменяют на операторы AND, OR и NOT соответственно. В России чаще используются обозначения И, ИЛИ, НЕ. Однако в общем случае в каждой конкретной ИПС обозначения для булевых операторов выбираются свои, причем иногда для удобства пользователя вводится несколько значков для одного и того же оператора (например, в ИПС «Апорт» оператор конъюнкции может быть задан следующими знаками: &, пробел, AND, И, +).

Использование булевых операторов обеспечивает логику сравнения документов и запросов, понятную пользователю. Поиск (вычисление истинности для элементов ПП), как правило, проводится по специальным индексным (инвертированным) файлам, построенным на основе словника документального массива, и характеризуется высокой скоростью. Эти простота и понятность логического КСС и явились причиной его широкой распространенности.

Проблема оценки эффективности поиска является комплексной проблемой, включающей как теоретическую, так и практическую сторону. Главные из функциональных (технических) показателей ИПС, базирующихся на релевантности, - это полнота и точность, которые основываются на разделении документов на релевантные и нерелевантные, а также на выданные и невыданные.

Полнотой поиска (П) (англ. Recall - R) называется мера, вычисляемая как отношение количества выданных релевантных документов к общему числу релевантных документов, содержащихся в информационном массиве.

Точность поиска (Т) (англ. Precision - P) - это отношение количества выданных релевантных документов к общему числу документов в выдаче .

1.2. Информационный поиск в сети Интернет

Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.

История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет - это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.

Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и програм-мные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.

Если попытаться дать классификацию ИПС сети Интернет, то можно выделить следующие основные типы:

1. ИПС вербального типа (поисковые системы – search engines)

2. Классификационные ИПС (каталоги – directories)

3. Электронные справочники («желтые» страницы и т.п.)

4. Специализированные ИПС по отдельным видам ресурсов

5. Интеллектуальные агенты.

Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.

Классификационные ИПС реализуют навигацию в веб-пространстве на основе специальных указателей, представляющих собой тематические «деревья», строящиеся на основе классификаций. Схемы классификации ресурсов в Интернете - это, как правило, древесные структуры, узлы которых названы словами естественного языка. Различные классификационные схемы отличаются друг от друга по объему и методологии их составления. Одним из недостатков универсальных иерархических классификаций является то, что они консервативны и отстают от развития науки, техники и жизни вообще. Главная проблема классификационных поисковых служб - это автоматизация классификации. До сих пор задача автоматической классификации удовлетворительного решения не нашла. Регистрация веб-сайтов и веб-страниц в каталогах, как правило, осуществляется людьми - индексаторами и модераторами данной системы. И поэтому объем базы данных систем классификационного типа сравнительно невелик по сравнению с информационной емкостью всего Интернета.

Для решения проблемы максимального охвата ресурсов Интернета создаются системы, называемые метапоисковыми (metasearch engines). Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. За счет этого вероятность нахождения нужной информации возрастает. Для передачи запроса к поисковой системе используется специальный метапоисковый агент, который отвечает за процесс ретрансляции запроса в другие системы. После обработки полученного запроса каждая система возвращает метапоисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. При всей привлекательности метапоисковых систем следует помнить и об их минусах и недостатках. Прежде всего, отсутствие единого стандарта языка запросов не позволяет метасистемам добиваться от поисковых систем, выполняющих запросы метапоисковых систем, такого же результата, какого может добиться опытный пользователь при работе с каждой машиной в отдельности.

Основным средством поиска информации в сети сегодня следует считать глобальные ИПС вербального типа (search engines), индексирующие (по крайней мере, претендующие на это) все Интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Полнота поисковой базы и оперативность индексирования веб-сайтов является главной проблемой всех ИПС в Интернете. Как правило, системы с бóльшим объемом базы дают в результате поиска и большее количество документов. Большая, как лингвистическая, так и программная проблема - многоязычие информационного пространства Интернета и многообразие форматов представления данных. Тем не менее, основные глобальные системы с этими проблемами справляются.

Именно вербальным ИПС и уделено основное внимание в практической части пособия. Прежде всего, моделируется уровень пользователя, выражающийся в языках запросов и в запросно-ответных интерфейсах. Производится сравнительный анализ языков запросов различных ИПС сети Интернет.

Особенность современных систем - полнотекстовый поиск. Многие вербальные ИПС сети Интернет вычисляют релевантность документов запросам путем сопоставления элементов запроса с полными текстами документов, размещенных в сети. Что касается информационно-поискового языка, то, как правило, в качестве поисковых элементов выступают обычные слова естественных языков. Запросы формулируются через специальный интерфейс, реализуемый в виде экранных форм в программах-броузерах.

Полезно представлять, как эти системы устроены. В составе любой поисковой системы можно выделить три основные части.

Робот - подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети.

Поисковая база данных - так называемый индекс - специальным образом организованная база (англ. index database), включающая, прежде всего, инвертированный файл, который состоит из лексических единиц, взятых из проиндексированных веб-документов, и содержит разнообразную информацию о них (в частности, их позиции в документах), а также о самих документах и сайтах в целом.

Поисковая система - подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. Поисковая система общается с пользователем через пользовательские интерфейсы - экранные формы программ-броузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска.

Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. В основе индекса всегда лежит инвертированный файл. Инвертированная (инверсная) схема организации поискового массива основана на принципе обеспечения доступа к документам через их идентификаторы содержания (поисковые признаки: дескрипторы, ключевые слова, термины, другие признаки). Такую схему получают путем обработки последовательного массива документов с целью создания специальных вспомогательных инвертированных файлов - точек доступа.

Каждая запись такого вспомогательного массива идентифицирована соответствующим идентификатором содержания (дескриптор, ключевое слово, просто термин, имя автора, название организации и т.п.) и содержит имена (адреса хранения) всех документов, в поисковых образах которых он содержится. Для каждого идентификатора содержания (поискового элемента данных) в инвертированном массиве вместе с адресом (номером, именем) документа может храниться (и обычно хранится) дополнительная информация, как-то: имя поля, номер предложения, в составе которых данный элемент встретился в данном документе, номер слова в предложении и т.д. Фиксация положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Нахождение необходимых документов через инвертированный файл осуществляется не сплошным просмотром всего массива, а просмотром лишь тех идентификаторов содержания в инвертированном файле, которые заданы в поисковом предписании, т.е. число операций сравнения слов при поиске пропорционально числу терминов поискового предписания. Такой способ работы систем снижает время на поиск и позволяет обслуживать потребителей информации в реальном масштабе времени.

Поиск в индексе - это операции над списками идентификаторов поисковых элементов в соответствии с моделью поиска и критерием соответствия. Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список кратких описаний документов, снабженных гипертекстовыми ссылками и другими характеристиками, возвращается пользователю в его клиентскую программу-броузер. Щелчок мышью по названию документа в его кратком описании (по гиперссылке) запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

Важным компонентом современных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь общается с поисковой системой. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

    индексирование полных текстов возможно большего числа сайтов;

    «грамотная» работа со словоформами - способность ИПС отождествлять разные словоформы одной и той же лексемы, по-другому, порождать каноническую форму - лемму, и возможность выделять среди множества словоформ конкретную форму;

    поиск слов с заданным или произвольным усечением, как правым, так и левым;

    работа со словосочетаниями - учет расстояния между словами в словосочетаниях и порядка их следования;

    эффективные алгоритмы вычисления коэффициента смысловой релевантности и ранжирования результатов поиска.

Также важно, какую информацию и в каком виде можно извлечь из выходных интерфейсов ИПС. Интерфейс выдачи (форма представления результатов) у разных систем включает такие параметры: статистика слов из запроса, количество найденных документов, количество сайтов, средства управления сортировкой документов в выдаче, краткое описание документов и др. Описание каждого документа, в свою очередь, может содержать в своем составе: заглавие документа, URL (адрес в сети), объем документа, дату создания, название кодировки, аннотацию, шрифтовое выделение в аннотации слов из запроса, указание на другие релевантные веб-страницы того же сайта, ссылка на рубрику каталога, к которой относится найденный документ или сайт, коэффициент релевантности, другие возможности поиска (поиск похожих документов, поиск в найденном). Большой интерес представляют также частотные характеристики - сведения о количестве найденных документов и отождествленных языковых единиц. Некоторые системы ведут журнал запросов с возможностью повторных поисков и выдачей статистики по запросам. Полезной и интересной возможностью является также отнесение документов к тематическим классам.

Покажем особенности разных систем, наиболее популярных и обладающих наиболее развитым лингвистическим обеспечением (см. Табл., с. 14). В первую очередь, это российские ИПС Яндекс, Рамблер и Апорт. Возможно, наиболее мощный лингвистический аппарат имеет ИПС «Артефакт» (фирма «Интегрум-ТЕХНО», г. Москва), однако эта система является коммерческой и ее база данных по составу заметно отличается от других. Из западных систем, в большинстве своем не обладающих развитыми лингвистическими средствами анализа текстового материала, возьмем хорошо известные ИПС Google и AltaVista. Кратко охарактеризуем особенности этих систем (наличие или отсутствие соответствующих возможностей помечено знаками «+» и «-»).

«Поиск по лексемам» означает, что результат сравнения слов документов и запросов признается положительным при наличии в документе любой формы слова из запроса, что обеспечивается механизмом автоматической лемматизации.

«Поиск по словоформам» означает, что результат сравнения документов и запросов признается положительным при наличии в документе словоформы, точно совпадающей со словом из запроса, что происходит при отсутствии автоматической лемматизации или обеспечивается особым механизмом учета словоформ.

«Частота подокументная» означает, что в результате поиска выдается сообщение о количестве релевантных документов, т. е. документов, содержащих данное слово (словоформу) или словосочетание.

«Частота пословная» означает, что в результате поиска дополнительно выдаются сведения об общем количестве словоупотреблений данной лексемы или конкретной словоформы в поисковой базе данных (индексе).

Характеристика поисковых систем

Поиск по лексемам

+ (однословный запрос или логическая формула)

Поиск по словоформам

+ (в синтагмах: однословный запрос в кавычках или словосочетание в кавычках)

Учет синтагм (неразрывных словосоч.)

Учет больших и малых букв

+ (в синтагмах)

Частота послов- ная

Частота подокументная

1.3. Языки запросов ИПС Интернет

Обратившись в какую-либо службу, пользователь, не выходя из броузера, работает с «клиентом» этой службы, предоставляющим нам тот или иной язык запросов. Как правило, это языки без контроля лексики. Фактически, мы имеем дело с нормальным ИПЯ, реализованным в архитектуре «клиент-сервер», но видим только «надводную» часть этого ИПЯ - язык запросов. Язык запросов большинства систем включает в себя как традиционные булевы операторы, так и специальные контекстные операторы, учитывающие структурирование документа, порядок слов в тексте и расстояние между словами.

На языке запросов описывается сам запрос и иногда форма представления результатов. В языках запросов сетевых ИПС можно выделить следующие основные компоненты.

1) Собственно поисковые элементы (объекты поиска).

Это или ключевые слова, или другие идентификаторы содержания.

2) Поисковые операторы.

Почти во всех языках запросов используются булевские логические операторы И, ИЛИ, НЕ. Форма, в которой эти операторы задаются в запросе, самая разная, и разнится она как в отдельных службах, так и в разных типах запросов (простой, сложный).

3) Нормализация элементов запроса.

Одни и те же лексические единицы в документах и запросах могут быть представлены в разной форме. В поисковых службах имеются способы нормализации таких лексических единиц. Эта нормализация может задаваться самим пользователем (способ, известный под названием «усечения» (truncation) или «маскирования» (wildcards)) или выполняться автоматически (последнее предпочтительнее).

4) Линейная грамматика: порядок следования поисковых элементов и расстояние между ними.

Во-первых, это «фразы» (жесткие словосочетания).

Во-вторых, имеются специальные контекстные операторы (контекстное И), когда условие совместного вхождения элементов запроса в документ должно выполняться в контексте определенной длины.

5) Дополнительные условия поиска.

Для уменьшения объема выдачи и повышения точности используются различные дополнительные условия поиска, как-то:

– поиск в определенных полях (частях) документа;

– ограничение области поиска различными критериями (дата, тип данных, формат, и т.п.).

6) Требования к форме представления результатов поиска.

– требования на сортировку (ранжирование) выдаваемых результатов поиска;

– вид выдаваемых результатов;

– количество выдаваемых документов.

Для получения (просмотра) самих документов (веб-страниц) и их просмотра необходимо отправиться по http-адресу. Как правило, системы предоставляют возможность посмотреть контекст - фрагменты документов с выделенными ключевыми словами запроса.

В процессе поиска пользователю, как правило, дается возможность вернуться к старому запросу и либо просто уточнить, сузить его, либо перейти в другой режим поиска, предоставляющий более сложные поисковые средства. Довольно широко также распространен еще один способ поиска - поиск по образцу (search similar pages). При этом стратегия поиска выбирается самой системой.

2. Программа учебной дисциплины
«Теория информационного поиска»

2.1. Организационно-методический раздел

Программа дисциплины составлена в соответствии с государ-ственным образовательным стандартом высшего профессионального образования по направлению 021800 - Лингвистика.

Цель курса состоит в том, чтобы дать студентам теоретические основы информационного поиска, в первую очередь, документального, и навыки использования различных документальных ИПС, в том числе в сети Интернет.

Задачи курса:

    ознакомить студентов с основными понятиями и пробле-мами автоматизированного информационного поиска;

    ознакомить студентов с основными принципами организа-ции и функционирования информационно-поисковых систем (ИПС);

    изучить различные ИПС, в том числе ИПС сети Интернет;

    сформировать навыки исследовательской работы по анали-зу и сопоставлению различных систем.

Место курса в профессиональной подготовке выпускника: курс носит пропедевтический характер. Он рассчитан на широкий круг студентов-гуманитариев и призван дать им основополагающее пред-ставление о способах хранения и поиска информации.

Требования к уровню освоения содержания курса

В результате обучения студент:

    должен знать:

    основные понятия, относящиеся к информационным сис-темам;

    основные типы систем;

    понятие информационно-поискового языка;

    понятия релевантности и критерия смыслового соответ-ствия;

    основные поисковые системы сети Интернет;

    языки запросов и интерфейсы этих систем;

    должен уметь:

    осуществлять поиск в сети Интернет;

    сравнивать и анализировать различные системы.

Разделы курса:

      Основы информационного поиска

      Документальные ИПС

      Фактографические ИПС

      Информационный поиск в сети Интернет

Раздел 1. Основы информационного поиска

Предмет, цели и задачи курса. Связь курса с другими дисциплинами.

Информация, информационные процессы, информационные системы, информационные потоки, информационные технологии. Типы информационных систем (АИПС, АСНТИ, АСУ, АСНИ, АОС, САПР, ЭС, БЗ и др.).

Основные понятия информационного поиска: информация, информационная система, информационная потребность, релевантность.

Данные и документы. Виды информационных документов. Текстовые документы. Описание документов.

Запросы. Типы запросов. Предметный поиск. Основные проблемы автоматизации семантических процессов обработки информации.

Информационно-поисковые системы (ИПС). Типы ИПС. Краткий обзор основных типов: документальные, фактографические, интеллектуальные.

Библиографический поиск. Библиографические базы данных и электронные каталоги. Библиотечные системы.

Нетекстовые информационные системы (географические, картографические и др.). Поиск объектов по их описаниям (графические файлы, музыкальные файлы и т.п.). Поиск изображений и видеоинформации.

Раздел 2. Документальные ИПС

История развития автоматизированных документальных ИПС, этапы развития. Интегрированные системы. АСНТИ. Особенности современного этапа.

Составные части ИПС. ИПЯ. . Модели поиска. Абстрактная и конкретная ИПС.

Структура документальных и фактографических ИПС. Функциональные подсистемы. Структурная схема документальной ИПС.

Двухконтурные системы. Полнотекстовые ИПС. Гипертекстовые информационные системы.

Обеспечивающие подсистемы. Техническое обеспечение. Програм-мное обеспечение. Компьютерные сети. Особенности построения сетевых ИПС.

Математическая модель документальной ИПС.

Организация поисковых массивов в ИПС.

Классификация документальных ИПС по различным основаниям.

Раздел 3. Фактографические ИПС

Фактографическая информация. Хорошо структурированная и плохо структурированная фактографическая информация.

Объектно-характеристические таблицы.

Язык семантической эксп-ликации.

Эффективность фактографических ИПС.

Библиографический поиск как вид фактографического.

Раздел 4. Лингвистическое обеспечение информационного поиска

Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС.

Понятие информационно-поискового языка (ИПЯ). ИПЯ как основной элемент логико-семантического аппарата ИПС.

Информационно-поисковые языки: классификация, типология. Объектно-признаковые языки. Классификации. Алфавитно-предметные и фасетные классификации.

Дескрипторные языки. Вербальные языки.

Семантические и синтагматические языки.

Способы описания языков. Составные части дескрипторных информационно-поисковых языков (алфавит, словарь, грамматика).

Нормирование лексики в ИПС. Дескрипторные словари. Тезаурусы. Создание словарей и тезаурусов. Авторитетный контроль как элемент лингвистического обеспечения автоматизированных библиотечных систем.

Грамматические средства ИПЯ. Парадигматические и синтагматические отношения.

Индексирование документов и запросов. Поисковые образы доку-ментов и запросов.

Языки запросов: понятие и состав. Средства и методы выражения информационной потребности. Поисковые предписания.

Модели поиска. Поисковые операторы.

Средства морфологической нормализации.

Языковые средства представления и структурирования электрон-ных документов (форматы, языки SGML, HTML, XML). Языки мета-данных (Dublin Core, GILS и др.).

Лингвистическое обеспечение фактографических ИПС. Основные единицы ИПЯ фактографических ИПС.

Раздел 5. Функционирование и эксплуатация ИПС

Информационное, технологическое и кадровое обеспечение.

Технология предмашинной обработки информации. Индексирование документов и запросов. Особенности поиска в зависимости от видов документов.

Режимы функционирования ИПС (ИРИ, ретроспективный поиск). Пакетный и диалоговый режимы.

Основные технические характеристики документальных ИПС (пол-нота, точность). Факторы, влияющие на эффективность поиска. Оценки эффективности ИПС.

Средства и методы решения лексико-семантических проблем в ИПС. Проблемы составления поисковых предписаний. Обратная связь по релевантности.

Обеспечение результатов поиска первичными документами. Электронная доставка документов.

Раздел 6. Информационный поиск в сети Интернет

Значение компьютерных сетей для организации информационного обслуживания. Способы и средства доступа к удаленным докумен-тальным массивам. Протокол Z39.50 (Search/Retrieval).

Сеть Интернет, ее краткая характеристика. Интернет как элек-тронная транспортная система. Интернет как глобальное информаци-онное пространство.

Информационные ресурсы сети Интернет. FTP-серверы. GOPHER. WAIS.

Понятие о гипертексте. Гипертекстовые системы до появления Интернета. WWW-серверы. Навигация в сети. Проблемы поиска инфор-мации.

Документальные источники информации. Электронные документы. Форматы представления текстовой информации в сети (html, pdf, ps, doc и др.). Электронные издания.

Нетекстовые информационные объекты. Понятие электронной библиотеки.

Типология поисковых систем в сети Интернет. Различные основания для классификации (по ширине охвата, по внутренним характеристикам, по видам документов).

Типология поисковых систем в Интернет. Классификационные информационно-поисковые системы (каталоги). Вербальные (текстовые, словарные) информационно-поисковые системы (поисковые машины).

Глобальные информационно-поисковые системы и службы Интернета.

Естественные языки в Интернете. Региональные ИПС. Региональные версии глобальных систем. Русскоязычный Интернет.

Методы создания поисковых баз данных в глобальных системах. Индексирование и регистрация. Роботы-индексаторы. Инструменты управления индексированием (файл robots.txt, META-элементы).

Особенности лингвистического и информационного обеспечения ИПС в Интернет. Вербальные ИПЯ. Грамматические средства ИПЯ: синтагматика. Контекстно-позиционные операторы («фразы», операторы расстояния и др.).

Проблемы ранжирования документов в выдаче. Способы управления ранжированием.

Входные интерфейсы. Языки запросов (простые, расширенные). Их состав, примеры. Сравнительный анализ языков запросов ИПС сети Интернет. Сохранение запросов (история сеанса).

Выходные интерфейсы. Представление результатов поиска. Описание документов (веб-страниц), описание сайтов. Группирование документов по сайтам. Идентификация и объединение дублей.

Управление поиском. Статистика поиска. Поиск в найденном. Поиск по подобию.

Примеры вербальных ИПС. Сравнительный анализ поисковых систем.

Практикум по отладке запросов и поиску в вербальных ИПС.

Классификационные ИПС. Способы формиро-вания базы данных в классификационных системах. Регистрация, специальные регистрационные сайты. Поиск по рубрикатору.

Практикум по поиску в классификационных ИПС.

Раздел 7. Настоящее и будущее информационного поиска

Коммерциализация Интернета в целом и поисковых служб в частности. Реклама. Плата за ускоренную регистрацию.

Развитие локальных ИПС.

Проблемы унификации и стандартизации.

Средства обратной связи. Неформальные «поисковые сообщества».

Развитие лингвистического обеспечения.

Системы с централизованной и децентрализованной распределенной архитектурой.

Интеллектуализация информационного поиска. Интеллектуальные информационные системы.

Элементы интеллектуальной обработки в глобальных ИПС сети Интернет. Интеллектуальные агенты.

Языки метаданных, языки XML, RDF, OWL и другие средства описания содержания.

2.3. Примерные вопросы для самоконтроля

Дать определения:

    Критерий выдачи

    Релевантность

    Тезаурус

    Составные части ИПС

    Состав лингвистического обеспечения

    Инверсный файл

Выбрать правильные варианты ответов

    Знак «&» в ИПС Рамблер означает операцию:

    дизъюнкции (ИЛИ)

    конъюнкции (И)

    расстояния

    Знак «|» в ИПС Яндекс означает операцию:

    следования

    конъюнкции (И)

    дизъюнкции (ИЛИ)

    Функциональные подсистемы ИПС - это:

    лингвистическое обеспечение

    программное обеспечение

    техническое обеспечение

    ввод документов

    ввод запросов

    критерий смыслового соответствия

    язык запросов

    выдача результатов поиска

    инвертированные файлы

    Типы ИПЯ - это:

    морфологические языки

    дескрипторные языки

    семантические языки

    классификационные языки

    вербальные языки

    вторичные языки

    объектно-признаковые языки

    Основные способы морфологической нормализации в ИПС:

    на основе автоматического морфоанализа

    усечение

    маскирование

    префиксация

    Критерий смыслового соответствия - это:

    правила индексирования

    правила нормализации

    правила вычисления полноты

    методы ранжирования

    методы классификации

    Индексирование - это:

    морфологическая нормализация

    составление поискового образа

    перевод на язык математической логики

    перевод на ИПЯ

    вычисление релевантности

    составление дескрипторного словаря

    Обеспечивающие подсистемы ИПС - это:

    лингвистическое обеспечение

    программное обеспечение

    техническое обеспечение

    ввод документов

    ввод запросов

    критерий смыслового соответствия

    поисковые предписания

    выдача результатов поиска

    инвертированные файлы

    Типы ИПЯ:

    объектно-признаковые языки

    классификационные языки

    морфологические языки

    семантические языки

    вербальные языки

    вторичные языки

    дескрипторные языки

    Критерий выдачи - это:

    правила индексирования

    правила нормализации

    правила вычисления релевантности

    правила вычисления полноты

    методы ранжирования

    методы классификации

2.4. Примерная тематика докладов, рефератов,
курсовых работ

    Анализ и описание ИПС сети Интернет (выбор сис-темы по согласованию с преподавателем)

    Создание терминологического банка данных по ин-форма-ционно-поисковым системам (выявление, клас-сификация терминов и толкований; результат - ги-пертекстовый словарь-указатель или поисковая база данных)

    Исследование способов использования онлайновых словарей и тезаурусов (например, WordNet) для индекси-рования запросов в информационно-поисковых системах

    Анализ и описание механизмов морфологической нормализации в информационно-поисковых системах

    Учет синтагматических связей как средство повы-шения эффективности поиска в полнотекстовых ИПС (экспериментальное исследование)

    Вычисления релевантности в информационно-поис-ковых системах (экспериментальное исследование)

    Анализ исследований сравнительной эффективности полнотекстовых информационно-поисковых систем

    Анализ лингвистического обеспечения полнотекс-товых информационно-поисковых систем

    Аналитический обзор публикаций электронного жур-нала по информационно-поисковым системам Search Engine Report

2.5. Примерный перечень вопросов к экзамену
(зачету) по всему курсу

    Абстрактная и конкретная (реальная) ИПС

    Вербальные информационно-поисковые системы (поисковые машины). Их архитектура. Примеры вербальных ИПС

    Глобальные и региональные ИПС в сети Интернет. Примеры

    Грамматические средства ИПЯ. Способы выражения грамматических отношений

    Дескрипторные словари. Тезаурусы

    Документальная информация в сети Интернет. Текстовые документы. Языковые средства представления и структурирования документов (под углом поиска)

    Индексирование документов и запросов. Автоматизация индексирования

    Интеллектуальные информационные системы

    Интернет как глобальная информационная среда. Информационные ресурсы сети. Проблемы поиска в сети Интернет

    Информационная потребность, информационный запрос, поисковое предписание

    Информационно-поисковые системы (ИПС). Типы ИПС. Краткий обзор основных типов

    Информационно-поисковые языки: классификация, типология

    ИПЯ. Дескрипторные языки. Вербальные языки

    ИПЯ. Классификационные языки

    История развития автоматизированных документальных ИПС, этапы развития. Особенности современного этапа

    Классификационные информационно-поисковые системы (каталоги). Примеры классификационных ИПС

    Классификация документальных ИПС по различным основаниям

    Критерий смыслового соответствия. Модели поиска

    Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС

    Методы создания поисковых баз данных в глобальных системах (индексирование, регистрация)

    Морфологическая нормализация лексики в ИПС

    Обеспечивающие подсистемы

    Объектно-признаковые языки

    Организация поисковых массивов в ИПС

    Основные технические характеристики документальных ИПС (полнота, точность)

    Понятие информационно-поискового языка (ИПЯ). Классификация (типология) ИПЯ

    Понятия «информация» и «система». Информационные процессы и системы. Типы информационных систем

    Проблемы многоязычного поиска в Интернет. Способы решения в разных ИПС

    Проблемы поиска документов на русском языке. Русско-язычные ИПС

    Проблемы составления поисковых предписаний. Обратная связь по релевантности

    Смешанные (гибридные) системы. Метапоисковые системы. Примеры

    Составные части дескрипторных информационно-поисковых языков

    Составные части ИПС. Системные взаимосвязи между элементами ИПС

    Сущность документального информационного поиска. Понятие релевантности

    Семантические языки

    Технология и режимы функционирования ИПС. Двухконтурные ИПС

    Типология поисковых систем в Интернет

    Фактографические ИПС

    Функционально-структурная схема ИПС. Функциональные подсистемы

    Язык запросов ИПС «Altavista». Интерфейс представления результатов поиска

    Язык запросов ИПС «Google». Интерфейс представления результатов поиска

    Язык запросов ИПС «Апорт». Интерфейс представления результатов поиска

    Язык запросов ИПС «Рамблер». Интерфейс представления результатов поиска

    Язык запросов ИПС «Яндекс». Интерфейс представления результатов поиска

    Языки запросов современных информационно-поисковых систем. Сравнительный анализ

    Языки запросов. Поисковые предписания.

2.6. Распределение часов курса по темам
и видам работы

Наименование тем
и разделов

Аудиторные
занятия (ч)

В том числе

Самостоятельная работа

Семи-нары

Основы информационного поиска

Документальные ИПС

Фактографические ИПС

Лингвистическое обеспечение информационного поиска

Функционирование и эксплуатация ИПС

Информационный поиск
в Интернет

Настоящее и будущее информационного поиска

ИТОГО:

2.7. Форма текущего, промежуточного и итогового контроля

В течение семестра слушатели готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса - зачет.

2.8. Учебно-методическое обеспечение курса

Основная литература

Захаров В.П. Информационные системы (документальный поиск). СПб., 2002.

Информатика / Под ред. К.В. Тараканова. М., 1986.

Лахути Д.Г . Автоматизированные документально-фактогра-фические информационно-поисковые системы // Итоги науки и техники. Информатика. Т. 12. М., 1988. С. 6–77.

Солтон Дж. Динамические библиотечно-информационные системы. М., 1979.

Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М., 1973.

Черный А.И . Введение в теорию информационного поиска. М., 1975.

Дополнительная литература

Аветисян Д.О . Проблемы информационного поиска. М., 1991.

Армс У. Электронные библиотеки. М., 2001.

Белоозеров В.Н. Новые стандарты на терминологию инфор-мационного поиска // НТИ. Сер. 1. 1997. № 11. С. 14–21.

Войскунский В.Г. Документальный поиск и обратная связь // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах. СПб., 1993. Вып. 11. С. 129–141.

Войскунский В.Г., Захаров В.П. Диалоговый отладочный комплекс // Структурная и прикладная лингвистика: Межвузовский сборник. Вып. 4. СПб., СПбГУ, 1993. С. 197–211.

Декер С., Мельник С., Хермелен ван Ф . Semantic Web: роли XML и RDF // Открытые системы. 2001. № 9. С. 23–33.

Захаров В.П., Мордовченко П.Г., Сахарный Л.В. Совершенствование лингвистического обеспечения в ИПС «бестезаурусного» типа // НТИ. Сер. 2. 1980. № 6. С. 14–19.

Захаров В.П., Панков И.П. Информационно-поисковые системы // Прикладное языкознание: Учебник / Отв. ред. А.С. Герд. СПб., СПбГУ, 1996. С. 334–359.

Захаров В.П., Пименов Е.Н . Естественно-языковой подход к созданию лингвистического обеспечения информационно-по-исковых систем // НТИ. Сер. 2. 1997. № 12.

Змитрович А.И. Интеллектуальные информационные систе-мы. Минск, 1997.

Капустин В.А. Поиск информации в Интернет // Мир Internet. 1998. №9. С. 54–58.

Капустин В.А. Информационные ресурсы - как мы их будем искать? // Мир Internet. 1998. № 9. С. 58–61.

Капустин В.А. Основы поиска информации в Интернет: Методическое пособие. СПб., 1999.

Курник А. Поиск в Интернет. СПб., 2001.

Информационно -поисковые системы. М., 1972.

Лахути Д.Г. Интеллектуализация информационных систем: Научный доклад… М., 2002.

Любарский Ю.Я. Интеллектуальные информационные системы. М., 1990.

Масевич А.Ц . Два подхода к теории ИПС в свете современных лингвистических концепций // Предметный поиск в традиционных и нетрадиционных информационно-поисковых системах. Л., 1989. Вып. 9. С.25–49.

Москович В.А . Информационные языки. М., 1971.

Пархоменко В.Ф. Система автоматического индексирования документов СКОБКИ ОС ЕС // М., 1983

Прикладное языкознание: Учебник. СПб., 1996. С. 59–67, 92–99, 360–388.

Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М., 1989.

Соколов А.В. Автоматизация библиографического поиска. - М., 1981.

Соколов А.В . Введение в теорию социальной коммуникации. СПб., 1996.

Соколов А.В . Методические материалы по разработке информационно-поисковых тезаурусов. Л., 1976.

Степанов В . Библиографический поиск в Интернет // Библиография. 1998. № 1. С. 5–10.

Храмцов П.Б . Информационно-поисковые системы Internet // Открытые системы. 1996. № 3. С. 46–49.

Храмцов П.Б . Моделирование и анализ работы информационно-поисковых систем Internet // Открытые системы. 1996. № 6. С. 46–56.

Шемакин Ю.И., Романов А.А . Компьютерная семантика. М., 1995.

Шемакин Ю.И . Тезаурус в автоматизированных системах управления и обработки информации. М., 1974.

Стандарты

Типовые проектные решения для автоматизированных сис-тем научно-технической информации. М., 1983.

ГОСТ 34.601-90. Информационная технология. Комплекс стандартов на автоматизированные системы. Стадии создания автоматизированных систем.

ГОСТ 34.602-89. Информационная технология. Комплекс стандартов на автоматизированные системы. Техническое задание на создание автоматизированной системы.

ГОСТ 7.52-85. Коммуникативный формат для обмена биб-лиографическими данными на магнитной ленте. Поисковый образ документа.

ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения.

РД 34.003-90. Информационная технология. Термины и опреде-ления.

РД 34.201-89. Информационная технология. Виды, комплект-ность и обозначения документов при создании автоматизированных систем.

РД 34.680-88. Методические указания. Информационная технология. Основные положения.

РД 34.698-90. Методические указания. Информационная технология. Требования к содержанию документов.

3. Практикум (лабораторные работы)

Инструкция по выполнению лабораторных работ

Результаты лабораторных работ сохраняются на жестком диске в папке соответствующей лабораторной работы Lab#N, где N - номер работы. При этом все эти папки, в свою очередь, хранятся в папке студента, которая имеет следующий путь: ДИСК:\ ФамилияПреподавателя\nnn-Фам\ , где nnn - номер (идентификатор) группы, Фам - фамилия студента. Например, все файлы и папки, создаваемые и сохраняемые в ходе лабораторной работы № 2 размещаются в папке D:\Захаров\ML_3kurs-Иванова\Lab#2. В заданиях лабораторных работ эта текущая папка студента называется «своя папка ».

В ряде случаев перед началом работы по указанию преподавателя следует скопировать (с компьютера преподавателя через «Сетевое окружение» или с дискеты) в свою папку дополнительные файлы, необходимые для выполнения задания.

Текстовый отчет c результатами выполнения соответствующей работы создается в редакторе Word. В окне документа требуется ввести фамилию, имя, номер группы/подгруппы, номер лабораторной работы, дату выполнения работы. Далее в этот файл записывать требуемые результаты выполнения работы (под номером соответствующего пункта задания ). Сохранять эти данные как файл отчета с именем ReportN в своей папке, где N - номер работы. Во избежание потери данных при сбоях формируемые студентами во время работы файлы рекомендуется регулярно сохранять.

Для предъявления преподавателю результатов работы расположить их на экране в следующих окнах, расположив их каскадом слева направо: содержимое папки защищаемой лабораторной работы (в окне Проводника), файл отчета в окне редактора Word, окно броузера (если требуется).

Лабораторная работа № 1

(Классификационные ИПС)

    Открыть страницу поисковой системы Апорт (РОЛ, Russia On-Line). Ознакомиться с классификатором (рубрикатором) данной системы. Рубрики верхнего уровня переписать в тетрадь и перенумеровать. Переходя по рубрикам рубрикатора, найти два музея («Литературно-мемориальный музей Ф.М. Достоевского» и «Историко-мемориальный музей М.В. Ломоносова в селе Ломоносово Архангельской области»). Ознакомиться с формой представления информации о сайтах в каталоге.

    Для каждого музея:

    скопировать краткие описания указанных музеев в каталоге в файл отчета Report1;

    указать индекс цитируемости (в виде числа) и лигу (в виде словесного названия) для данных музейных сайтов;

    перейти на сайт музея и первую домашнюю страницу скопировать в своей папке в формате ;

    создать «закладку» на сайт музея в своей папке в Избранном.

    Открыть страницу поисковой системы Яндекс. Ознакомиться с классификатором (рубрикатором) данной системы. Рубрики верхнего уровня переписать в тетрадь и перенумеровать. Пометить (обвести) рубрики, совпадающие с рубриками Апорта (полностью или частично). Переходя по рубрикам рубрикатора, найти «Литературно-мемориальный музей Ф.М. Достоевского» и «Историко-мемориальный музей М.В. Ломоносова в селе Ломоносово Архангельской области». Их описания в рубрикаторе Яндекса скопировать в файл отчета.

    Посетить Рейтинговую систему ИПС Рамблер. Ознакомиться с классификатором (рубрикатором) данной системы. Рубрики, совпадающие с рубриками Апорта (полностью или частично), переписать в тетрадь. Посмотреть рейтинг сайтов по теме «Образование». Ознакомиться с формой представления информации в каталоге. Название сайта, занимающего пятое место, с его количественными показателями, скопировать в файл отчета Report1. Посмотреть подробную статистику и статтаблицу скопировать в файл отчета.

    То же самое повторить в системе Yahoo.

Лабораторная работа № 2

(Русскоязычные вербальные ИПС: сравнительный анализ)

    Работа заключается в сравнительном изучении систем Апорт, Яндекс, Рамблер. Результаты изучения студент должен отразить в виде таблицы (с. 34) в файле Report2 (ориентация таблицы - альбомная). В ячейках записать, как в каждой системе представляется тот или другой элемент языка запросов или входного/выходного интерфейса (все допустимые способы). В некоторых случаях можно отвечать знаками «+» или «–» (например, «Описание документа ») или свободным текстом своими словами (например, «Релевантные страницы того же сайта» или «Сортировка» ).

    Перейти на сайт поисковой системы Апорт (затем Яндекс и Рамблер). Найти в каждой системе ссылки на ее описание в целом, на описание языка запросов, интерфейсов («Справка», «Помощь», «Расширенный поиск» и т.п. ). Перейдя по ссылкам, внимательно изучить справочную информацию и в рабочей тетради кратко закон-спектировать основные пункты. После этого для каждой системы заполнить соответствующие ячейки таблицы (разделы 1, 2).

Примечание. Если текст ответа не помещается в ячейке таблицы, рекомендуется делать сноску и продолжать его под таблицей. Обратить внимание на то, что возможности систем в простом и в расширенном поиске различаются. Отразить это в отчете. Обратить внимание на наличие разделов «другое».

    Вернуться назад на начальную страницу поисковой системы Апорт (затем Яндекс и Рамблер). Ввести какой-либо запрос (например, «Статистические методы в лингвистике» ) в окне для текстового запроса и провести поиск. Страницу с результатами поиска сохранить в своей папке в формате «только html» .

    Изучить форму представления результатов. Кратко записать в тетради, что содержится на веб-странице с результатами поиска (структуру веб-страницы). Изучить форму представления отдельных веб-документов (их краткие описания с дополнительной информацией). На основе изучения полученных результатов и ранее изученной справочной информации заполнить соответствующие ячейки таблицы (раздел 3).

    Предъявить работу преподавателю.

Результаты сравнительного изучения систем Апорт, Яндекс, Рамблер


раздела

Параметры

Апорт

Яндекс

Рам-блер

Поиск по тексту

Логические операторы:

конъюнкция

дизъюнкция

отрицание

Синтагматические операторы:

фразы (словосочетания, слова рядом)

расстояние в словах

расстояние в предложениях

Морфологическая нормализация (автоматическая, используемые метасимволы)

Поиск по полям

по заглавию

по полю ключевых слов

по комментарию к картинкам (поле ALT)

по тексту гиперссылок

по адресам ссылок

по доменному имени сайта (сервера)

по формату

Интерфейс выдачи (форма представления результатов)

статистика слов из запроса

количество найденных документов

количество найденных сайтов

количество документов на странице результатов

сортировка документов на странице выдачи

поиск в найденном

описание документа включает следующие элементы:

URL (адрес в сети)

размер документа (объем)

дата создания

кодировка

аннотация (краткое содержание)

указание на другие релевантные веб-страницы того же сайта

поиск похожих документов

Лабораторная работа № 3

(Русскоязычные вербальные ИПС: поиск)

Составление и отладка тематического запроса

    Составить в тетради запрос по теме «Морские сражения во время Великой отечественной войны». При этом убрать из темы незначащие слова, расширить запрос синонимами, составить логическую формулу запроса с обязательным использованием операторов конъюнкции, дизъюнкции, расстояния и фразы (жесткое словосочетание).

    Показать запрос преподавателю.

    Затем записать его варианты на языках систем Апорт, Яндекс, Рамблер.

    Отладить запрос в режиме реального поиска, проводя последовательно сеансы во всех трех системах. Попытаться варьировать поисковые предписания, чтобы добиться оптимальных показателей поиска. Для этого фиксировать в тетради полученные результаты по каждому варианту: точность (по первым 20 документам) и условную полноту (абсолютный объем выдачи).

    Вернуться к наилучшему поисковому предписанию и текст запроса скопировать через буфер обмена из поисковой строки (окно для ввода запроса) в окно файла отчета Report3 (поочередно в каждой системе). Указать при этом в отчете показатели точности и полноты. Первую веб-страницу с результатами поиска в каждой системе сохранить в своей папке в формате «только html» .

Знакомство с поиском по полям («Расширенный поиск»)

    Найти с помощью системы Яндекс документы, посвященные Льву Гумилеву. Количество найденных документов и сайтов записать в файл отчета. Адрес (URL) первого документа из списка сохранить в Избранном в папке «Гумилев».

    Затем перейти в режим расширенного поиска и найти документы, посвященные Льву Гумилеву, с датой после 1 октября 2004 г. Новое количество найденных документов и сайтов снова записать в файл отчета. Первый документ из списка результатов поиска сохранить в своей папке в формате «веб-архив, один файл» (*.mht) .

    Найти через систему Рамблер документы по теме «Экономика города Москвы». При этом объём выдачи (количество описаний документов на странице результатов) установить равным 30. Результаты поиска отсортировать по дате (по убыванию) и первую веб-страницу с результатами поиска сохранить в своей папке в формате «только html»

    Перейти в режим расширенного поиска и найти документы по той же теме, но находящиеся лишь на сайте. Результаты поиска отсортировать по дате (по возрастанию) и первую веб-страницу с результатами поиска сохранить в своей папке в формате «только html» . Количество найденных документов и сайтов зафиксировать в файле отчета.

    Найти через систему Яндекс документы по теме «Образование», из которых есть ссылка на сайт. Первую веб-страницу с результатами поиска сохранить в своей папке в формате «только html» . Количество найденных документов и сайтов зафиксировать в файле отчета.

    Загрузить один из найденных документов, просмотреть его html-код, найти в нем ссылку на сайт и элемент гиперссылки (от начального до конечного тега А) через буфер обмена скопировать в файл отчета.

    Документ в формате mht, сохраненный в п. 7 (о Льве Гумилеве), прочитать в редакторе Word: вначале в формате веб-страницы, затем в формате «только текст». При втором чтении просмотреть содержимое окна ввода редактора Word (особенно начало и конец файла), скопировать первую страницу окна ввода в файл отчета и быть готовым объяснить, что такое формат mht.

Примечание. Формат mht кодируется в соответствии со стандартом MIME (RFC2046 и RFC2047) .

    Предъявить работу преподавателю.

Лабораторная работа № 4

(Глобальные вербальные ИПС: сравнительный анализ)

    Работа заключается в сравнительном изучении заданных глобальных ИПС сети Интернет вербального типа.

Примечание. Набор систем и их количество может меняться по усмотрению преподавателя.

    Перейти на сайт соответствующей поисковой системы (здесь и далее - доменное имя системы: www .название_системы. com ). Найти в каждой системе ссылки на ее описание в целом, на описание языка запросов, интерфейсов, режимов работы и других особенностей системы. Описание каждой ИПС кратко законспектировать в тетради.

    Проанализировать и сравнить возможности систем в режиме расширенного поиска. Страницы интерфейса расширенного поиска сохранить в своей папке.

    Результаты анализа в сжатом виде представить в форме сводной таблицы (с. 38) в файле отчета Report4 (ориентация таблицы - альбомная). Размеры таблицы можно увеличить. Если что-то не помещается в таблице, в ячейке делать сноску на текст под таблицей (таблица не столько форма представления результатов, сколько схема анализа).

    Предъявить работу преподавателю.

Результаты сравнительного изучения глобальных вербальных ИПС

Параметры

Логические операторы (какие и как задаются)

Синтагматические операторы
(какие и как задаются)

Поиск по полям (составить список полей, отмечать их наличие / отсутствие в конкретных системах)

поле 1

поле 2

………

поле k

Выбор поисковой базы данных
(в каких ресурсах можно искать)

ресурс 1

ресурс 2

………

ресурс k

Формат выдачи содержит следующие элементы (под таблицей привести пример из каждой системы)

элемент 1

элемент 2

………

элемент k

Специальные возможности или характерные особенности
(описать для каждой системы)

Лабораторная работа № 5

(Глобальные вербальные ИПС: изучение и поиск)

    Провести поиск по теме «Компьютерная лингвистика» в заданных глобальных ИПС (набор систем и их количество может меняться по усмотрению преподавателя). Поисковое предписание логически должно выглядеть следующим образом:

(comp utational V c omputi ng V c omput er ) & l inguistics .
Запрос задать по-английски дважды, как конъюнкцию и как устойчивое словосочетание (фраза), используя характерные для каждой системы способы выражения операторов (для незнакомых систем найти соответствующую справочную информацию). Первую веб-страницу с результатами каждого поиска сохранить в своей папке в виде «только html» . Количественные результаты отразить в таблице:

Название ИПС

Найдено документов/сайтов



© 2024 beasthackerz.ru - Браузеры. Аудио. Жесткий диск. Программы. Локальная сеть. Windows