Файловая система пк. Что такое файловая система? Какие виды файловых систем существуют? Функции файловой системы

04.04.2019

Городилов А.В.
Крагин А.Н.

Источник: archive.alee.ru

Система разработана в рамках дипломного проекта. Кафедра ИПОВС, МИЭТ. В ближайшее время будут выложены подробные описания системы, а также исходный код модулей.

Обзор существующих технологий построения и организации электронных архивов.

В данном разделе я постарался выделить общее в технологиях построения и организации электронных архивов.

Технология построения электронного архива.

Процесс построения электронного архива включает:

сканирование документов и создание их электронных образов;
организацию надёжного и защищённого хранилища образов документов;
индексирование документов;
распознавание текста и коррекцию ошибок;

Существует несколько типовых решений проблемы создания Электронного архива документов.

«Минимальное решение»

Это самое дешёвое решение для организаций, стремящихся упорядочить доступ к архивной информации, но не предполагающих активно использовать электронные образы документов.

При таком решении создаётся электронная картотека архива - база данных с полноценным формализованным описанием документов по нескольким поисковым полям (обычно 5–10) и точным физическим адресом (раздел, шкаф, стеллаж) расположения бумажного документа.

Зная характеристики документа, архивариус запрашивает систему о его местонахождении в хранилище, а, получив физический адрес, легко находит и сам документ. Такая электронная картотека во много раз облегчает структуризацию бумажного архива, упрощает поиск документов и учёт их использования.

«Стандартное решение»

Более распространённое и функциональное решение - электронная картотека, дополненная массивом графических образов документов (отсканированных изображений).

Такой архив позволяет полностью отказаться от использования в повседневном обороте оригиналов документов, которые могут в этом случае храниться удалённо, на площадях с низкой стоимостью и, при необходимости, под надёжной охраной.
Стандартный программно-аппаратный комплекс архива гарантирует, что в результате поиска по электронной картотеке сотрудник организации получит в своё распоряжение точный образ нужного документа, который можно использовать для просмотра, передачи по сети или печати бумажной копии. При этом автоматизированная система управления доступом обеспечит учёт и авторизацию всех обращений, а также надёжную защиту от несанкционированного использования документов.

Стандартное решение позволяет организовать единое управление архивом даже для территориально распределённой организации и обеспечить полноценный контроль за всеми её документами из единого центра.

«Максимальное решение»

Наиболее эффективный электронный архив, в котором электронная картотека и массив графических образов дополняются файлами, содержащими тексты всех документов архива.

Тексты документов создаются набором вручную или путем автоматического распознавания и верификации их графических образов. Поиск в таком архиве может быть организован как по поисковым полям (картотеке), так и по содержанию самих документов (контекстный поиск). Найденные документы можно просматривать, пересылать и распечатывать как в виде их исходных образов, так и в виде текстовых файлов, доступных для редактирования стандартными текстовыми редакторами.

Выбор «Решения»

Для создания Электронного архива Управления было выбрано наиболее полное и функциональное решение. Проанализировав Максимальное решение в контексте технологии построения электронного архива, было принято решение о создании программного комплекса для решения следующих задач:

организация надёжного и защищённого хранилища документов;
индексирование документов;
создание системы поиска и отображение документов;
создание системы управления электронным архивом.

Концепция функционирования ИПС

В концепции функционирования Электронного архива ИПС я выделил следующие основные информационные и функциональные сущности:

контрольно-регистрационная карточка документа;
файл документа;
сервер контекстного поиска;
приложение документа.

Контрольно-регистрационная карточка документа содержит учетно-регистрационную информацию, различные признаки документа и его атрибуты. Кроме того, карточка документа содержит ряд признаков, по которым можно провести однозначную идентификацию документа, его место хранения, параметры привязки отдельного документа в комплекте документации в целом и т. п.

В файле документа представлено собственно содержание документа в электронном виде.

Приложение документа служит программным средством для работы с документом.

Таким образом, можно выделить основные программно-аппаратные компоненты системы ИПС:

Ядро системы управления документами (СУД);
Сервер БД архивной системы (Картотека);
Файловый сервер документов (Хранилище документов);
Сервер приложений (Поисковый сервер);
Сеть клиентских рабочих мест.
Ядро системы управления документами.

Ядро системы управления документами или другими словами, бизнес-логика функционирования системы, встроено в клиентское приложение. Вся работа по авторизации пользователей ИПС, аутентификации пользователей ИПС, работе с документами, администрированию и настройке системы проводится с помощью клиентского приложения ИПС. Именно ядро отвечает за правильность и целостность хранения данных в БД и на файловом сервере документов.

Сервер БД архивной системы (Картотека).
Сервер БД архивной системы (Картотека). Роль сервера БД в системе играет SQL-сервер Borland InterBase6. С версии 6.0 этот продукт является совершенно бесплатным и распространяется с открытыми исходными текстами.
Файловый сервер документов (Хранилище документов).
Файловый сервер документов

(Хранилище документов) - это файловый сервер с большим дисковым пространством под хранение текстов документов, а также их txt-образов и индекса документов. Взаимодействие Хранилища документов с ядром системы осуществляется посредством протокола обмена файлами (FTP).

Сервер приложений (Поисковый сервер). Полноценный поиск по документам включает в себя две составляющие:

Поиск по реквизитам.
Поиск по содержимому документа.

Если с первой задачей можно успешно справится средствами языка структурированных запросов (SQL) к базе данных, то в задаче поиска по контексту без полнотекстовой индексации документов не обойтись. Учитывая то, что в функциональности Электронного архива первое место отводится мощности, скорости и простоте контекстного поиска было решено для полнотекстовой индексацией в ИПС применить библиотеку ABBYY RETRIEVAL & MORPHOLOGY 4.0 ENGINE. Эта библиотека предоставляет разработчику Retrieval API в. реализацию которого входят следующий функции:

1) Полнотекстовая индексация. Инструментарий позволяет создать эффективный полнотекстовый индекс многоязычных документов. Индекс хранит информацию о словах и их местоположении в информационном хранилище (файловых серверах, WEB-серверах или базах данных). Для того, чтобы создать наиболее компактный индекс, который в дальнейшем обеспечит наибольшую скорость поиска, система использует знание морфологии, лемматизацию и словари стоп-слов. В результате использования лемматизации (нахождения начальной формы слова по любой его словоформе) система включает в индекс не все 4 000 000 словоформ русского языка, а только 150 000 его словооснов. Словари стоп-слов содержат набор незначимых для поиска символов языка (предлоги, союзы), которые не включаются в индекс и делают его короче. В общем случае скорость индексирования и относительного размера индекса зависят от большого числа параметров - конфигурации компьютера, структуры исходной информационной базы, формата и языков документов и т. д. Ниже приведена приблизительная оценка характеристик системы при индексировании одноязычного «гладкого текста» в формате TXT:
Скорость индексирования 20 мб\мин
Отношение размера индекса к информационному источнику 40%.

2) Полнотекстовый поиск. Функции полнотекстового поиска позволяют, указав в запросе любую форму нужного слова, найти в проиндексированных документах все вхождения этого слова как в заданной, так и в остальных его формах. ARM Engine позволяет осуществлять как простой, так и расширенный поиск. При простом поиске запрос состоит из одного или нескольких слов, а также логических операторов (AND, OR, NOT). Так как индекс содержит информацию о координатах каждого слова в проиндексированных документах, возможно также задать дистанцию между искомыми словами и их относительную позицию. Запрос для расширенного поиска представляет собой строку на специальном «языке запросов», что позволяет более точно задать параметры поиска, используя произвольную комбинацию логических операторов. В обоих случаях, благодаря использованию компактного индекса, Булевой логики, словарей словоформ и стоп-слов, поиск даже в многоязычных документах осуществляется настолько эффективно, что скорость поиска составляет доли секунды и практически сравнима со скоростью реакции пользователя.

3) Нечеткий поиск. ARM Engine позволяет осуществлять нечеткий поиск, т. е. находить слова, которые отличаются от исходного несколькими символами. Такая возможность полезна в случае, если документы содержат слова с ошибками, пользователь не уверен в правильности написания слов или хочет найти похожие слова.

Проанализировав возможности этой библиотеки, а также, учитывая возможность довольно безболезненной интеграции библиотеки в ИПС, нами было принято решение об использовании ее в качестве Полнотекстового Индексирующего Механизма.

Лицензионная политика компании ABBYY позволяет разработчикам программного обеспечения (потенциальным покупателям их продукта) получить бесплатную полнофункциональную версию ARM Engine для тестирования и разработки механизмов взаимодействия.

Сеть клиентских рабочих мест

Сеть клиентских рабочих мест состоит из клиентских приложений ИПС. Для взаимодействия с сервером БД (Хранилищем документов) клиентское приложение использует InterBase API. Для взаимодействия с Поисковым сервером клиентское приложение использует Retrieval API. Взаимодействие с пользователем осуществляется с помощью стандартных графических средств MS Windows - Windows GUI.

Техническое обеспечение ИПС

Для функционирования системы ИПС «НПДок» необходимо следующие техническое обеспечение:

1) Локальная вычислительная сеть под управлением домена MS Windows. Обязательное присутствие домена объясняется использованием ARM Engine технологии DCOM (Distributed Component Object Model). DCOM - это программная архитектура, разработанная компанией Microsoft для распределения приложений между несколькими компьютерами в сети. Программный компонент на одной из машин может использовать DCOM для передачи сообщения (его называют удаленным вызовом процедуры) к компоненту на другой машине. DCOM автоматически устанавливает соединение, передает сообщение и возвращает ответ удаленного компонента.

2) Сервер InterBase 6. Системные требования для сервера InterBase6:

Свободное дисковое пространство: на начальном этапе достаточно 50 мб, но с ростом базы потребуется дополнительное дисковое пространство

3) Сервер ABBYY FTRE. Библиотека полнотекстовой индексации устанавливается сервисом в систему MS Windows NT 4.0/5.0/5.1. Системные требования Поискового сервера:
Операционная система: MS Windows NT\2000
Компьютер на базе Intel Pentium II
Оперативная память: не менее 128 мб
Свободное дисковое пространство: на начальном этапе достаточно 500 мб, но с ростом базы потребуется дополнительное дисковое пространство

4) Клиентские места системы ИПС. Системные требования для компьютеров, обеспечивающих работу Клиента ИПС:
Операционная система: MS Windows 9x\NT\2000
Компьютер на базе Intel Pentium 200Mhz
Оперативная память: 32 мб
Свободное дисковое пространство: 3 мб

17.03.1996 Павел Храмцов

Пользователям Internet хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek и др. - без услуг этих систем сегодня практически нельзя найти что-либо полезное в море информационных ресурсов Сети. Что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos. Архитектура современных ИПС для WWW Информационные ресурсы и их представление в ИПС Индекс поиска Информационно-поисковый язык системы Интерфейс системы Заключение Литература Пользователям Internet уже хорошо известны названия таких сервисов

Информационно-поисковые системы появились на свет достаточно давно. Теории и практике построения таких систем посвящено множество статей, основная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечественных источников следует выделить научно-технический сборник "Научно-техническая информация. Серия 2", который выходит до сих пор. На русском языке издана так же и "библия" по разработке ИПС - "Динамические библиотечно-информационные системы" Ж. Солтона , в которой рассмотрены основные принципы построения информационно-поисковых систем и моделирования процессов их функционирования. Таким образом, нельзя сказать, что с появлением Internet и бурным вхождением его в практику информационного обеспечения появилось нечто принципиально новое, чего не было раньше. Если быть точным, то ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекстовая модель World Wide Web еще не решают проблему поиска информации в больших объемах разнородных документов. И на сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам.

При использовании иерархической модели Gopher приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Учитывая анархичность Internet и огромное количество всевозможных интересов у пользователей Сети, понятно, что кому-то может и не повезти и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала "Communication of the ACM" среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital , главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например , приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы (рис.).

Рис. Типовая схема информационно-поисковой системы.

Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

Информационные ресурсы и их представление в ИПС

Как видно из рисунка, документальным массивом ИПС Internet является все множество документов шести основных типов: WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet и статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных: тексты, графическая и аудиоинформация и вообще все, что имеется в указанных хранилищах. Естественно возникает вопрос - как информационно-поисковая система должна со всем этим работать?

В традиционных системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель , в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Internet .

Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска и модель поиска в нечетких множествах . Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результаты которых отражены в работах . Таким образом, первая задача, которую должна решить ИПС, - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы, и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.

Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОД для документов Gopher. В WWW ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики . Разработка роботов - это довольно нетривиальная задача; существует опасность зацикливания робота или его попадания на виртуальные страницы. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, что за термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно используют для индексирования следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах . Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все термины из перечисленных элементов документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не могут быть употреблены для индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с набором различных словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое понятие, как вес термина . Документ обычно индексируется через 40 - 100 наиболее "тяжелых" терминов.

Индекс поиска

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы , для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентификатор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле - это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным - хеширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью. Для того чтобы убедиться в этом, достаточно почитать материалы OpenText .

Информационно-поисковый язык системы

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно ".

Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Интерфейс системы

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На схеме из рисунка указаны сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры коррекции запросов по релевантности . Релевантность - это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле , где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.

Заключение

В обзорной статье были рассмотрены основные элементы информационно-поисковых систем и принципы их построения. Сегодня ИПС являются наиболее мощным механизмом поиска сетевых информационных ресурсов Internet. К сожалению, в российском секторе Internet пока не наблюдается активного изучения этой проблемы за исключением, может быть, проекта LIBWEB, финансируемого РФФИ и системы "Паук", которая работает недостаточно надежно. Наибольшим опытом разработки такого сорта систем безусловно обладает ВИНИТИ, но здесь работа сосредоточена пока на размещении своих собственных ресурсов в Сети, что принципиально отличается от информационно-поисковых систем Internet типа Lycos, OpenText, Alta Vista, Yahoo, InfoSeek и т.п. Казалось бы, что такая работа могла быть сосредоточена в рамках таких проектов, как Россия On-line компании SovamTeleport, но здесь мы пока наблюдаются ссылки на чужие поисковые машины. Развитие ИПС для Internet в США началось два года назад, учитывая отечественные реалии и темпы развития технологий Сети в России, можно надеяться, что у нас еще все впереди.

Литература

1. Дж. Солтон. Динамические библиотечно-информационные системы. Мир, Москва, 1979.
2. Frank G. Halasz. Reflection notecards: seven issues for the next generation of hypermedia systems. Communication of the acm, V31, N7, 1988, p.836-852.
3. Tim Berners-Lee. World Wide Web: Proposal for HyperText Project. 1990.
4. Alta Vista . Digital Equipment Corporation, 1996.
5. Brain Pinkerton. Finding What People Want: Experiences with the WebCrawler .
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. An Overview of Information Retrieval Subjects. IEEE Computer, N5, 1985,p.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Web Agent Related Research at the Center for Machine Translation .
9. Ian R.Winship. World Wide Web searching tools -an evaluation . VINE (99).
10. G.Salton, C.Buckley. Term-Weighting Approachs in Automatic Text Retrieval. Information Processing & Management, 24(5), pp. 513-523, 1988.
11. Open Text Corporation Releases Industry"s Highest Performance Text Retrieval System.

Павел Храмцов ([email protected]) - независимый эксперт, (Москва).

С иском к россиянину, заказавшему в зарубежном Интернет-магазине новый смартфон Motorola? Тогда было немало заметок на эту тему и почти все они могли бы быть сформулированы коротко: “Российские власти закручивают гайки и обычному россиянину уже даже через Интернет нельзя заказать ничего нужного - везде фискалы и правоохранительные органы вставляют палки в колеса”. Надо заметить, что такие высказывания типичны для почти любого человека, который столкнувшись с нестандартной для себя ситуацией, в которой происходит якобы ущемление прав, начинает, не разобравшись, винить во всем всех кроме себя. С ввозом смартфона ситуация была как раз из этой области. Однако случай этот был далеко не первый. Еще несколько лет назад один из россиян, купив на eBay маршрутизатор Cisco, столкнулся с аналогичной ситуацией на российской таможне. А до и после было и еще несколько аналогичных случаев. Попробуем разобраться.

Дело в том, что в России, а точнее на территории Таможенного Союза, в который входят Россия, Беларусь и Казахстан, уже несколько лет действуют правила ввоза криптографических средств, под которые попадают многие гаджеты и иные предметы, о которых мы даже не задумываемся, что они подпадают под понятие средств щифрования. До сих пор в отношении этой темы больше слухов и мифов, чем достоверной информации. Основным заблуждением является две позиции и их производные “В Россию нельзя ввозить средства шифрования Cisco” и “Я могу заказать в зарубежном Интернет-магазине или аукционе все, что угодно, и без проблем получить это в России”. Это неверно и в данной статье нам бы хотелось ответить на самые распространенные вопросы в отношении импорта ИТ-продукции, и в частности, средств шифрования.

А причем тут вообще шифровальные средства?

Документы, регламентирующие вопросы ввоза-вывоза шифровальных средств, определяют, что средства шифрования – это “аппаратные, программные и аппаратно-программные средства, системы и комплексы, реализующие алгоритмы криптографического преобразования информации и предназначенные для защиты информации от несанкционированного доступа при ее передаче по каналам связи и (или) при ее обработке и хранении”. С одной стороны это очень емкое, а с другой – совсем неконкретное определение, которое может трактоваться по разному в разных ситуациях. Кодирование – это шифрование? А электронная подпись? А криптографическая аутентификация?

На самом деле с точки зрения таможенных органов контролю подлежат не только средства шифрования определенные абзацем выше, но также:

средства имитозащиты
средства электронной цифровой подписи
средства кодирования
средства изготовления криптографических ключей
сами криптографические ключи
системы, оборудование и компоненты, разработанные или модифицированные для выполнения криптоаналитических функций
системы, оборудование и компоненты, разработанные или модифицированные для применения криптографических методов генерации расширяющегося кода для систем с расширяющимся спектром, включая скачкообразную перестройку кодов для систем со скачкообразной перестройкой частоты
системы, оборудование и компоненты, разработанные или модифицированные для применения криптографических методов формирования каналов или засекречивающих кодов для модулированных по времени сверхширокополосных систем.

Список получается достаточно большой, но для целей ввоза не так уж и важно само определение. Важнее то, что именно контролируется таможней. В Перечне 2.19 нет отдельно определенной группы шифровальных средств и соответствующих им кодов так называемой единой Товарной номенклатуры внешнеэкономической деятельности (ЕТН ВЭД). В Перечне 2.19 указаны наименования товаров и их коды ЕТН ВЭД, по принадлежности к которым, таможенные органы могут определить ввозимый продукт как шифровальный (и не важно, есть ли там шифрование на самом деле или нет). Применительно к продукции компании Cisco выдержка из Перечня 2.19 выглядит, например, следующим образом:

Не стоит сильно вникать в то, что написано в таблице:-) Гораздо важнее понимать, что таможенные органы контролируют все, что так или иначе мы используем в своей обычной жизни или в служебных целях - компьютеры, смартфоны, лэптопы, GPS-приемники, маршрутизаторы, точки беспроводного доступа, программное обеспечение, телевизоры и телевизионные приставки и т.п. Именно поэтому смартфон Motorola в нашумевшем недавно случае попал “под раздачу” - он считается шифровальным средством с точки зрения таможни. Хотя надо признать, что он таковым считается и не только с точки зрения таможни, но и здравый смысл подсказывает нам, что в любом современном смартфоне шифрование есть. Оно есть в чипе, реализующем любой стандарт мобильной связи (например, A5 в GSM). Оно есть в операционной системе Android или iOS или Blackberry. Оно есть в бразуере Safari или ином мобильном варианте распространенных браузеров. Оно есть в почтовом клиенте на смартфоне. Оно есть… Да мало ли приложений или микросхем на смартфоне, где есть шифрование. Если посмотреть на многие другие приведенные в таблице устройства, то мы поймем, что шифрование там действительно есть. Как минимум, для защиты информации на самом устройстве, для хранения ключей или аутентификационной информации, или для защищенного управления (SSH - это тоже шифрование).

Если в продукте шифровальный функционал не является основным или его не предполагается использовать в качестве шифровального средства, он будет считается шифровальным средством или нет?

Поставьте себя на место рядового таможенника… Как он узнает, для чего вы будете использовать провозимый через границу продукт? Может быть вы приобретенный на eBay смартфон повесите в рамочку на стену, а может быть будете им гвозди заколачивать. А может вы скрытый террорист или экстремист, который планирует использовать импортное средство связи для взаимодействия со своими подельниками? Но если отбросить шутки в сторону, то позиция властей проста - если продукт может реализовать алгоритмы криптографического преобразования информации, он в любом случае считается шифровальным средством, даже если шифрование является неосновной или неиспользуемой функцией продукта.

Иными словами получается, что почти любой ИТ-товар, пересекающий границу Российской Федерации, становится предметом таможенного регулирования и на него распространяются все правила ввоза шифровальных средств. И совершенно неважно, кто является заказчиком такого средства - физическое или юридическое лицо.

Единая ли процедура ввоза для разных средств шифровальных средств?

Все шифровальные средства (читай почти любые ИТ-продукты) по процедуре ввоза разделены на две группы:

Упрощенная процедура ввоза. Означает ввоз по так называемой зарегистрированной нотификации, которая оформляется для шифровальных средств, которые могут быть включены в “Перечень категорий товаров (продукции), являющихся шифровальными (криптографическими) средствами или содержащих в своем составе шифровальные (криптографические) средства, технические и криптографические характеристики которых подлежат нотификации” (приложение к ранее упомянутому Положению о ввозе, далее - Перечень НТФ).
Ввоз по лицензии. Шифровальные средства, непопавшие в Перечень НТВ, ввозятся на основании разовой лицензии Минпромторга России, выданной на основании заключения Центра лицензирования, сертификации и защите государственной тайны ФСБ России (далее - ЦЛСЗ) о возможности ввоза шифровального средства. Лицензия и заключение выдаются импортеру на конкретную поставку в сторону конкретного заказчика (потребителя).

Что ввозится по упрощенной схеме?

Идеально, если продукт попадает под “упрощенку”. В этом случае его ввоз ничем не отличается от ввоза любой иной, неограниченной никакими запретами продукции. На сегодняшний день в этот список попадают:

Товары, содержащие шифровальные (криптографические) средства, имеющие любую из следующих составляющих:
- симметричный криптографический алгоритм, использующий криптографический ключ длиной, не превышающей 56 бит (это обычный и мало где сейчас применяемый DES); или
- асимметричный криптографический алгоритм, основанный на любом из следующих методов (тот же RSA в современной реализации в это исключение тоже не попадает):
  - на разложении на множители целых чисел, размер которых не превышает 512 бит;
  - на вычислении дискретных логарифмов в мультипликативной группе конечного поля
    размера, не превышающего 512 бит; или
  - на дискретном логарифме в группе, отличного от поименованного в вышеприведенном
    подпункте “b” размера, не превышающего 112 бит.
Товары, содержащие шифровальные (криптографические) средства, обладающие следующими ограниченными функциями:
- аутентификация, включающая в себя все аспекты контроля доступа, где нет шифрования файлов или текстов, за исключением шифрования, которое непосредственно связано с защитой паролей, персональных идентификационных номеров или подобных данных для защиты от несанкционированного доступа;
- электронная цифровая подпись.
Шифровальные (криптографические) средства, являющиеся компонентами программных операционных систем, криптографические возможности которых не могут быть изменены пользователями, которые разработаны для установки пользователем самостоятельно без дальнейшей существенной поддержки поставщиком и техническая документация (описание алгоритмов криптографических преобразований, протоколы взаимодействия, описание интерфейсов и т.д.) на которые является доступной. Именно под это исключение подпадают широко распространенные ОС - Windows, Linux и т.п.
Шифровальное (криптографическое) оборудование, специально разработанное и ограниченное применением для банковских или финансовых операций. Это банкоматы, оборудование для SWIFT и т.п. Cisco специально для данных целей выпускает маршрутизаторы 800-й серии с кодом PCI в коде продукта.
Персональные смарт-карты (интеллектуальные карты).
Приемная аппаратура для радиовещания, коммерческого телевидения или аналогичной коммерческой аппаратуры для вещания на ограниченную аудиторию без шифрования цифрового сигнала, кроме случаев использования шифрования исключительно для управления видео- или аудиоканалами и отправки счетов или возврата информации, связанной с программой, провайдерам вещания.
Оборудование, криптографические возможности которого недоступны пользователю, специально разработанное и ограниченное для применения любым из следующего
- программное обеспечение исполнено в защищенном от копирования виде
- доступом к любому из следующего:
  - защищенному от копирования содержимому, хранящемуся только на доступном для чтения носителе информации;
  - информации, хранящейся в зашифрованной форме на носителях, когда эти носители информации предлагаются на продажу населению в идентичных наборах
- контролем копирования аудио- и видеоинформации, защищенной авторскими правами.
Портативные или мобильные радиоэлектронные средства гражданского назначения (например, для использования в коммерческих гражданских системах сотовой радиосвязи), которые не способны к сквозному шифрованию (т.е. от абонента до абонента). Именно под это исключение попадают обычные мобильные телефоны и многие модели смартфонов.
Беспроводное радиоэлектронное оборудование, осуществляющее шифрование информации только в радиоканале с максимальной дальностью беспроводного действия без усиления и ретрансляции менее 400 м в соответствии с техническими условиями производителя. Домашние точки доступа вполне подпадают под это исключение.
Шифровальные (криптографические) средства, используемые для защиты технологических каналов информационно-телекоммуникационных систем и сетей связи.
Товары, у которых криптографическая функция заблокирована производителем. Например, Cisco для многих своих продуктовых линеек выпускает специальные версии оборудования с установленным программным обеспечением NO PAYLOAD ENCRYPTION - “NPE”. Такое ПО есть для маршрутизаторов Cisco 800, ISR 1900, ISR 2900, ISR 3900, 2100 CGR, ASR1000, ASR 903, коммутаторов Cisco Catalyst 3560-X, Catalyst 3750-X, 2500 CGS, Nexus 7000, оборудования систем видеоконференцсвязи, систем унифицированных коммуникаций. Этот список модифицированных продуктов постоянно расширяется.

Что ввозится по “сложной” схеме?

Если на пересекающий границу товар отсутствует нотификация, то ввозится он по “сложной” схеме. Даже если формально он мог бы быть оформлен по упрощенному варианту. Такая ситуация часто возникает для совсем новых продуктов, на которые производитель еще не успел (или и вовсе не планирует) оформить нотификацию.

А других вариантов нет?

В Положении указан ряд исключений, когда шифровальное средство может быть ввезено без нотификации, но и без лицензии Минпромторга. Это происходит в следующих случаях:

при ввозе и вывозе шифровальных средств для осуществления ремонта или замены в соответствии с обязательствами по договору (контракту, соглашению);
при временном ввозе и временном вывозе шифровальных средств в целях:
- проведения научно-технической экспертизы
- научных исследований;
- экспонирования на выставках;
при ввозе и вывозе шифровальных средств в целях обеспечения собственных нужд организаций без права их распространения и оказания третьим лицам услуг в области шифрования;
при транзитных перевозках шифровальных средств через территорию государств – участников таможенного союза.

Правда, в этом случае все равно необходимо получение соответствующего заключения ЦЛСЗ.

Кто должен заниматься оформлением документов на ввоз средств шифрования?

В случае с ввозом по нотификации, ее оформлением занимается производитель ввозимой продукции. Например, Cisco заполняет нотификации на свою продукцию в двух экземплярах, после чего соответствующая информация попадает в Перечень НТФ, а Cisco передает сами нотификации для регистрации в ЦЛСЗ. После регистрации один экземпляр нотификации возвращается в Cisco. ЦЛСЗ также направляет информацию о зарегистрированной нотификации в ЕЭК для опубликования на сайте www.tsouz.ru/db/entr/notif/Pages/default.aspx (кстати, вы можете и сами проверить законность ввоза используемой вами продукции). В среднем, процедура регистрации нотификации занимает не менее 2-3 недель. Ввоз шифровальных средств, попадающих в Перечень НТФ, осуществляется на основании информации о зарегистрированной нотификации без оформления иных разрешительных документов.

В случае с ввозом по “сложной” схеме все работы с уполномоченными государственными органами (ЦЛСЗ и Минпромторг) осуществляет импортер (а не потребитель). Процедура получения лицензии и вся необходимая информация подробно представлена на сайте Минпромторга - www.minpromtorg.gov.ru/services/permission/export-import . При этом Положение о ввозе не делает различия между юридическими или физическими лицами, но на практике обычный гражданин врядли будет в состоянии пройти все процедуры общения с регулирующими органами.

Общий срок получения лицензии Минпромторга с учетом проведения экспертизы и получения заключения ЦЛСЗ не должен превышать 90 дней со дня регистрации обращения импортера в ЦЛСЗ. Сложившаяся практика показывает, что при условии правильно подготовленных документов, получение разрешительных документов занимает около 7 - 9 недель (ЦЛСЗ – от 4 до 6 недель, Минпромторг – не более 3 недель). При этом заказывать продукцию можно сразу после получения заключения ЦЛСЗ. Процедуру получения лицензии Минпромторга можно совместить с процессом изготовления и транспортировки продукции в Россию.

В вышеприведенном случае с ввозом смартфона он должен был попасть под упрощенную схему; но только после того, как российское юридическое лицо, представляющее интересы Motorola, зарегистрировало бы нотификацию на данный смартфон. Так как модель эта было новая и в Россию на момент заказа не поставлялась, то к смартфону была применена “сложная” схема. При этом оформлением документов на ввоз смартфона должен был заниматься не покупатель, а импортер - курьерская или логистическая компания, доставляющая товар через границу. У нее, разумеется, никаких специальных разрешительных документов на ввоз шифровального средства не было, а таможня в базе зарегистрированных нотификаций провозимой модели смартфона тоже не нашла. В результате и возникло нарушение таможенного законодательства.

Что грозит за нарушение правил ввоза средств шифрования?

Как было написано в повестке, приведенной пострадавшим любителем смартфонов Motorola, ему инкриминировали нарушение части 1 статьи 16.3 Кодекса об административных правонарушениях (“”Несоблюдение ограничений на ввоз товаров). На самом деле таможня не совсем верно классифицировала правонарушение - зесь следовало бы применить часть 2 данной статьи. Помимо статьи 16.3 возможно применение (но уже к импортеру) статей 16.2 “Недекларирование или недостоверное декларирование” и 16.7 “Представление недействительных документов при таможенном декларировании”. Все эти статьи могут быть применены как к юридическому лицу, ввозящему шифровальные средства через таможенную границу РФ, так и физическому лицу, что и было уже не раз продемонстрировано за прошедшие несколько лет.

Но вот если шифровальное средство пересекло границу и продается уже на территории России, то покупателю ничего не грозит. Дело в том, что покупка шифровальных средств на территории Российской Федерации в настоящее время никак не регламентируется. Действующее законодательство не обязывает покупателя на территории России проверять условия ввоза приобретаемых им продуктов. Только в случае заказа шифровальных средств за пределами РФ и ввоза их через границу Таможенного Союза вступают в силу все правила, описанные выше.

А разве конечный пользователь не участвует в процессе оформления своего заказа?

Как это ни странно, нет. В Положении не определены процедуры, которые должен осуществлять потребитель. Но в соответствии со сложившейся практикой, потребитель оказывает импортеру поддержку, предоставляя в ЦЛСЗ информационное письмо по применению ввозимого оборудования (для “сложной” схемы), т.к. импортер обязан указать для кого осуществляется ввоз шифровального средства. В письме указывается минимально необходимая следующая информация:

каталожные номера (P/N), наименования, количество ввозимых шифровальных средств
цель ввоза
краткая характеристика среды функционирования – локализация, пользователи, обрабатываемая информация
назначение ввозимых шифровальных средств, их размещение (адрес).

Информационное письмо должно совпадать по содержанию с заявлением в ЦЛСЗ от импортера. Отсутствие информационного письма может трактоваться как недобросовестность импортера и, как правило, означает стопроцентный отказ в выдаче заключения на ввоз шифровального средства.

С практикой оформления таких писем от потребителей - рядовых граждан нам сталкиваться не приходилось.

А вот другой вендор уверяет, что у него нет проблем с ввозом. Такое может быть?

Для перемещения любого шифровального средства через таможенную границу независимо от страны происхождения и названия производителя обязательными документами являются зарегистрированная нотификация или заключение ЦЛСЗ (при необходимости требуется также лицензия Минпромторга России). Обойти эту процедуру можно единственным способом - ввозить оборудование незаконным путем.

Если при приобретении продукции с функцией шифрования покупатель не может получит у продавца информацию о зарегистрированной нотификации или копию лицензии Минпромторга России – существует высокая вероятность, что данная продукция ввезена на территорию России с нарушением законодательства.

А если я ввез оборудование без шифрования, а потом обновил его через Интернет и получилось средство шифрования?

В действующем российском законодательстве действия по изменению криптографических характеристик устройств, уже находящихся и приобретенных на территории России не регламентированы и предсказать последствия скачивания из Интернет апгрейда с включенной криптографической функциональностью никто не возьмется. Вместе с тем, в настоящее время существует практика получения разрешения ЦЛСЗ на ввоз продуктов, позволяющих изменить криптографических характеристики имеющегося оборудования, например программного обеспечения на физическом носителе (CD/DVD) или скачиваемого по сети Интернет. Правда, действует эта практика преимущественно для юридических лиц, использующих средства шифрования. Они должны понимать, что у регулирующих и проверяющих органов могут быть вопросы к организации, которая никогда не приобретала криптографические продукты, ввезенные для нее по заключению ЦЛСЗ, но использует их в своей деятельности.

В отношении рядовых граждан, скачивающих из Интернет программные шифровальные средства, правоприменительной практики пока не сложилось.

Кто регламентирует вопросы ввоза и вывоза шифровальных средств?

Вопреки бытующему мнению, что регулирование ввоза средств шифрования у нас занимается таможня или ФСБ, это не совсем верно, а точнее совсем неверно. Эти органы по сути только выполняют распоряжения вышестоящей организации - Евразийской экономической комиссии (далее - ЕЭК), созданной решением Президентов Российской Федерации, Республики Беларусь и Республики Казахстан в конце 2011 года.

ЕЭК была создана как единый постоянно действующий регулирующий орган Таможенного союза и Единого экономического пространства. Комиссия имеет статус наднационального органа управления, не подчинена какому-либо правительству и решения Комиссии обязательны для исполнения на территории трех стран, включая и Россиию. Основной задачей ЕЭК является обеспечение условий функционирования и развития Таможенного союза и Единого экономического пространства, а также выработка предложений по дальнейшему развитию интеграции. ЕЭК передаются полномочия упраздняемой Комиссии Таможенного союза.

В соответствии с решением Межгосударственного Совета Евразийского экономического сообщества от 27 ноября 2009 года «О едином нетарифном регулировании таможенного союза Республики Беларусь, Республики Казахстан и Российской Федерации» нынешнее Положение о ввозе, с изменениями и дополнениями, действует с 01 января 2010 года. Вступление России в ВТО 22 августа 2012 года ничего не поменяло в области нетарифного регулирования внешней торговли.

После подписания договора о создании Евразийского экономического союза ситуация врядли изменится и ЕЭК пока остается основным органом, определяющим правила ввоза средства шифрования, а таможня только реализует на практике эти правила. ФСБ же, а точнее ее ЦЛСЗ, определяет, что будет ввозиться по упрощенной схеме, а что потребует бОльших телодвижений.

В качестве заключения хотелось бы ответить еще на 2 вопроса, которые могут возникнуть по ходу прочтения материала.

А мне нужна лицензия ФСБ на ввоз средств шифрования?

Нет. Несмотря на схожие названия, лицензии Минпромторга на ввоз шифровальных средств и лицензии ФСБ на деятельность с шифровальными средствами это совершенно разные ветви законодательства.

Какими документами регулируется ввоз шифровальных средств на территорию Российской Федерации?

Решением Решение Коллегии Евразийской экономической комиссии от 16 августа 2012г. №134 «О нормативных правовых актах в области нетарифного регулирования» утверждены:

«Единый перечень товаров, к которым применяются запреты или ограничения на ввоз или вывоз государствами - членами таможенного союза в рамках Евразийского экономического сообщества в торговле с третьими странами», включающий в себя перечень шифровальных (криптографических) средств, ввоз которых на таможенную территорию Таможенного союза и вывоз с таможенной территории Таможенного союза ограничен (далее - Перечень 2.19).
Положения о применении ограничений, включающие в себя Положение о порядке ввоза на таможенную территорию Таможенного союза и вывоза с таможенной территории Таможенного союза шифровальных (криптографических) средств (далее - Положение о ввозе).

Файловая система (англ. file system) - регламент, определяющий способ организации, хранения и именования данных на носителях информации. Она определяет формат физического хранения информации, которую принято группировать в виде файлов. Конкретная файловая система определяет размер имени файла (папки), максимальный возможный размер файла и раздела, набор атрибутов файла. Некоторые файловые системы предоставляют сервисные возможности, например, разграничение доступа или шифрование файлов.

Файловая система связывает носитель информации с одной стороны и API для доступа к файлам - с другой. Когда прикладная программа обращается к файлу, она не имеет никакого представления о том, каким образом расположена информация в конкретном файле, так же, как и на каком физическом типе носителя (CD, жёстком диске, магнитной ленте или блоке флеш-памяти) он записан. Всё, что знает программа - это имя файла, его размер и атрибуты. Эти данные она получает от драйвера файловой системы. Именно файловая система устанавливает, где и как будет записан файл на физическом носителе (например, жёстком диске).

С точки зрения операционной системы, весь диск представляет собой набор кластеров размером от 512 байт и выше. Драйверы файловой системы организуют кластеры в файлы и каталоги (реально являющиеся файлами, содержащими список файлов в этом каталоге). Эти же драйверы отслеживают, какие из кластеров в настоящее время используются, какие свободны, какие помечены как неисправные.

Однако файловая система не обязательно напрямую связана с физическим носителем информации. Существуют виртуальные файловые системы, а также сетевые файловые системы, которые являются лишь способом доступа к файлам, находящимся на удалённом компьютере.

Как работает файловая система. Для каждого файла Windows создает путь, представляющий собой имя локального диска и названия каталогов и подкаталогов. Таким образом, путь – это своего рода адрес, по которому программа находит файл. Путь к некоторым полезным файлам вы найдете во врезке внизу. Когда программе требуется определенный файл, она посылает Windows запрос, который операционная система перенаправляет файловой системе. Используя путь, файловая система определяет физическое расположение объекта на жестком диске и передает его Windows. Файловая система создает базу данных, которая привязывает различные адреса файлов на жестком диске к соответствующим путям. В популярной файловой системе NTFS подобная база данных называется MFT (Master File Table – главная файловая таблица).

Почему копирование идет дольше, чем перемещение. При перемещении файла изменяется только запись в главной файловой таблице, а адрес файла, хранящегося на жестком диске, остается прежним. При копировании файловой системе приходится повторно сохранять данные, а на это, как правило, требуется время.

Рис. 3.8. Копирование файлов

Сохраняется ли порядок в файловой системе. Как и на складе, на жестком диске со временем возникает беспорядок. Старые файлы удаляются или переписываются в свободные области, новые данные добавляются… Кроме того, Windows сохраняет файлы в первые «подвернувшиеся под руку» свободные секторы на диске, разделяя файлы на несколько частей (фрагментов) – если он не помещается в свободную область. Поэтому со временем одному и тому же пути начинает соответствовать несколько адресов, а время открытия большого файла, например фотографии, постоянно увеличивается. Дефрагментация позволяет восстановить целостность файлов, повышая тем самым скорость работы ПК.

Чем различаются файловые системы. В зависимости от требований, предъявляемых к накопителю данных, может использоваться одна из нескольких файловых систем. Основное отличие между файловыми системами заключается в максимально допустимом размере файла.

Какие существуют файловые системы. В компьютерах используются пять типов файловых систем.

FAT16 (File Allocation Table 16). Была разработана в 1983 году и могла корректно работать только с файлами размером до 2 Гб. Допускалось использование накопителей данных емкостью не более 4 Гб и хранение не более 65 536 файлов. В настоящее время эту устаревшую файловую систему заменили FAT32 и NTFS.

FAT32. В связи с тем, что объемы данных, которые хранились на жестком диске, постоянно росли, в 1997 году была введена файловая система FAT32. Она поддерживает файлы размером не более 4 Гб, жесткие диски емкостью приблизительно до 8 Тб и позволяет хранить около 270 млн файлов. Помимо Windows 95 и выше файловую систему FAT32 могут использовать также и другие операционные системы, например Mac OS X от Apple. В настоящее время средний размер файла значительно увеличился – так, объем видеофильма много больше 4 Гб, поэтому FAT32 имеет смысл использовать только на сменных накопителях (флэшках или внешних жестких дисках).

NTFS (New Technology File System). В настоящее время это стандартная файловая система для Windows. Она может управлять файлами с немыслимым до настоящего времени размером в 16 Тб и поддерживает жесткие диски емкостью до 256 Тб. Файловая система позволяет хранить практически неограниченное количество файлов – более 4 млрд. На случай, если будут использоваться файлы больших размеров и жесткие диски большей емкости, функции NTFS можно расширить. Еще одним преимуществом системы является журналирование. С помощьюданной технологии все изменения файлов NTFS записывает вначале в отдельную область на жестком диске. Это позволяет избежать потери данных в процессе их сохранения, например при возникновении перебоя в подаче электроэнергии.

exFAT (Extended File Allocation Table). Была создана для карт памяти, чтобы обеспечить возможность сохранения файлов большего размера. Однако exFAT работает только в Windows с пакетом обновления ServicePack 2 и выше, в Windows Vista с пакетом обновления ServicePack 1 или в Windows 7. Поскольку данную файловую систему поддерживает только Windows, она практически не применяется.

HSF+ (Hierarchical File System+). Стандартная файловая система в операционных системах Mac OS. Как и NTFS, она подходит для работы с очень большими файлами и жесткими дисками. Это журналируемая файловая система. Тому, кто захочет использовать в Windows жесткий диск с HSF+, необходимо установить дополнительную программу, например MacDrive.

Что происходит при перемещении, копировании и удалении. Не все операции, выполняемые в Windows или других операционных системах с файлами в окне Проводника, ведут к физическим трансформациям на жестком диске. Во многих случаях достаточно лишь внести небольшие изменения в главную таблицу файлов. Рисунки ниже наглядно демонстрируют, что реально происходит на жестком диске и в файловой системе в процессе перемещения, копирования и удаления различных объектов (файлов и папок) в Windows.

Рис. 3.9. Операции над файлами

Можно ли изменить файловую систему. Да, но для этого необходимо отформатировать жесткий диск. Какие файловые системы будут предлагаться на выбор, зависит от установлвенной операционной системы или программы, с помощью которой выполняется форматирование. В Windows, например, это FAT32 и NTFS. При использовании жесткого диска исключительно в компьютерах на базе Windows рекомендуется ввиду всех перечисленных достоинств в качестве файловой системы выбрать NTFS. Если в целях обмена данными вы планируете подключать внешний жесткий диск к компьютеру Mac, единственно правильным выбором станет FAT32. При этом возникает следующая проблема: хотя при использовании FAT32 Windows может работать с жесткими дисками любой емкости, однако в процессе форматирования максимальный размер раздела или жесткого диска ограничивается ею до 32 Гб. Выход: с помощью программ для работы с жесткими дисками, такими как Paragon Disk Manager, удастся отформатировать весь жесткий диск в FAT32.

Что такое библиотеки. В Windows 7 появилась дополнительная функция управления файлами – библиотеки. Доступны четыре типа библиотек: Видео, Документы, Изображения и Музыка. Они показывают все файлы соответствующего типа в одной папке, независимо от их местоположения. И хотя файлы физически располагаются не в папках библиотек, с ними можно выполнять любые операции, будь то копирование, переименование и удаление, непосредственно в соответствующей библиотеке. Некоторые программы, среди них Picasa, также используют библиотеки для рационального размещения файлов. Они могут даже самостоятельно выполнять поиск изображений или других файлов на жестком диске.

Как программы получают доступ к данным. Все программы, которые хотят получить доступ к жесткому диску, вначале посылают Windows запрос, содержащий путь размещения файла. Затем операционная система направляет его таблице файловой системы. В этой таблице содержится физический адрес файла, по которому его можно найти на жестком диске. С помощью данного адреса файловая система отыскивает нужный файл и передает операционной системе. Windows соотносит полученный файл с соответствующим запросом и посылает его программе, которая направила запрос. После этого программа открывает файл, например в программе Microsoft Word, предоставляя, таким образом, возможность его редактирования. При каждом последующем изменении файла, например при сохранении или удалении, программа инициирует новый запрос.

Рис. 3.10. Организация доступа к данным

Работаем с файловой системой. Действие файловой системы скрыто от глаз пользователя. И все же он имеет возможность вмешаться в этот процесс – узнать с помощью социальных программ тип файловой системы на жестком диске своего ПК и, если понадобится, преобразовать ее в другую.

Рис. 3.11. Работа с файловой системой