В.А.Капустин
Основы профессиональной работы с информационными ресурсами Интернета Методическое пособие
Санкт-Петербург 2003
© В.А.Капустин, 2003
Содержание ИСТОРИЯ СОЗДАНИЯ И РАЗВИТИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ ИНТЕРНЕТА
5
Введение
5
Сороковые годы XX-го века
5
Создание первых ЭВМ – электронно-вычислительных машин
5
Закон Ципфа
6
Идея гипертекста
6
50-е годы. Развитие ЭВМ Языки программирования и операционные системы
7 7
Информационный поиск. Возникновение теории информационно-поисковых систем 7 Обработка текстов Три технологические ветви 60-е годы XX-го века
8 10 10
Многозадачные и многопользовательские операционные системы
11
Обобщенные языки разметки текста
12
Вычислительная техника и связь
13
ARPAnet – предшественница Интернета
14
Информационные технологии
14
70-е годы – время рождения Интернета
15
"Старые" информационные ресурсы Интернета
15
Базы данных с удаленным доступом
16
Развитие других информационных технологий
17
Структурные языки разметки.
17
История Unix.
17
Разработчики Unix получают премию им. Тьюринга
19
80-е годы.
20
FTP-серверы обретают средства поиска
20
Рождение телеконференций
20
Культурные конфликты в телеконференциях. Flames
21
Проект BSD Unix
22
Unix и Интернет попадают к физикам-ядерщикам
22
Персональные компьютеры
23
Gopher
23
Проект "World Wide Web" – "Всемирная Паутина"
26
1989 год. Язык гипертекстовой разметки HTML
26
1990 г. Lynx и HTML 2
27
1993 г. Mosaic и "Великий взрыв" Всемирной Паутины
28
1994 г. – год торжества Netscape
29
2
1995 г. Microsoft Internet Explorer
31
1995 -1997. Битва за HTML
31
1998 г. Каскадируемые таблицы стилей и HTML 4
32
1999 г. XML, DOM, RDF
32
Другие технологии Интернета
33
Заключение
33
ТЕХНОЛОГИИ ИНТЕРНЕТА
34
Введение
34
Наивный взгляд
34
Организационное строение Интернета
36
Проблема стандартизации
37
Процедура стандартизации в Интернете
38
Понятие о сетевых протоколах. Протоколы физического уровня
41
Протоколы сетевого уровня
42
Обнаружение ошибок передачи
43
Размер кадра. MTU
44
Межсетевой уровень протоколов. Протокол IP.
44
Нумерация сетевых интерфейсов
45
Сетки
47
Время жизни датаграммы
47
Протоколы транспортного уровня
50
Протоколы приложений
52
Коды ответов протоколов уровня приложений Доменная система имен
55 56
Правила записи доменных имен
58
Имена доменов верхнего уровня
58
Географические домены верхнего уровня Тематические домены верхнего уровня
58 59
Служба доменных имен (DNS) с точки зрения пользователя
60
Служба доменных имен (DNS) – как она работает
62
Доменное имя: типичные ошибки пользователя
63
Универсальный локатор ресурса (URL)
64
Диагностика Интернета: программа p i n g
66
Ключи программы ping
Время ожидания ответа (- w ) Размер информационной части посылаемой датаграммы (- l ) Непрерывная работа p i n g (- t ) Применение p i n g для увеличения скорости передачи данных Диагностика Интернета: программа t r a c e r o u t e (t r a c e r t . e x e ) В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
68
69 69 70 70 70
3
Ключи программы t r a c e r t
72
Диагностика Интернета: обнаружение циклов
73
Кодовые таблицы
74
ВВЕДЕНИЕ В HTML:
76
Понятие о разметке
76
Введение
76
Первые формальные определения
76
Создание HTML-документов
77
Структура HTML-документа
79
Заглавие HTML-документа
80
Текст HTML-документа и его кодировка
81
Абзац
82
Логическая структура документа
83
Простейшая оформительская разметка
85
Выделения Шрифтовое оформление Размер шрифта Цвет шрифта Создание документов со связями
85 85 86 87 88
Связь – это контейнер
88
Готовимся создавать связи между документами
88
Разметка связей
89
Вторая связь и внешние связи
90
ВВЕДЕНИЕ В ТЕОРИЮ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ И ИНФОРМАЦИОННОГО ПОИСКА
92
Введение
92
Информационная потребность. Понятие пертинентного документа
93
Информационный шум
93
Информационно-поисковые системы – ИПС
94
Понятие релевантного документа
94
Web-кольца – предметная ИПС
94
Классификационные ИПС
96
Взаимодействие культур при поиске в классификационной ИПС
97
Ссылка и отсылка
97
Словарные ИПС: введение
98
Логические операторы
99
Правое усечение
99
Слова далекие и близкие В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
100
4
Ранжирование результатов поиска Стратегия поиска: использование нескольких источников
101 101
Пример из жизни
101
Еще два элемента стратегии
102
УКАЗАТЕЛЬ РИСУНКОВ
103
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
106
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
5
История создания и развития информационных ресурсов Интернета Введение Появление World Wide Web – "Всемирной Паутины", – кажется революционным, взрывным процессом. До 1993 г. никто не знал о WWW – сейчас Интернет считается основой информационных технологий. И большинство людей считают, что Интернет и Всемирная Паутина – одно и то же. Но это не так. Интернет намного старше Всемирной Паутины, да и сейчас в нем есть много информационных ресурсов и технологий, отличных от WWW. На этом занятии вы познакомитесь с тем, развитие каких технологий привело к возникновению Всемирной Паутины, какие еще информационные ресурсы и технологии существуют в Интернете.
Сороковые годы XX-го века Историю технологий вычислительной техники и информационных технологий, нашедших свое отражение в Интернете, можно прослеживать издалека – по крайней мере из XVI века – от изобретения книгопечатания. Мы, однако, не будем забираться так глубоко, а начнем знакомство с этими технологиями с середины нашего века – с сороковых годов. В середине и второй половине сороковых годов XX-го века произошли три события, которые, в конце концов, положили начало технологиям, лежащим в основе Всемирной Паутины. Это были: •
Создание первых ЭВМ – электронно-вычислительных машин
•
Открытие закона Ципфа
•
Была предложена идея гипертекста
Рис. 1 Технологические корни Интернета
Создание первых ЭВМ – электронно-вычислительных машин В середине сороковых годов появились электронно-вычислительные машины (ЭВМ) в современном понимании этого слова. (См., например, страницы Компьютерного музея [http://www.computer-museum.ru/] .) Программируемые неэлектронные вычислительные машины существовали задолго до этого; так, первой программисткой считается Ада Лавлесс, дочь поэта лорда Байрона – она программировала механическую вычислительную
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
6
машину в середине прошлого века. ЭВМ почти одновременно появились в США, СССР и Германии.
Закон Ципфа Ципф – ученый-филолог – исследовал частоты использования букв и звуков в естественных языках. Он установил, что в 80% случаев употребляется лишь 20% букв (например, в русском языке очень часто употребляются буквы "О", "А", "И", а твердый знак используется чрезвычайно редко). Остальные 80% букв используются только в 20% случаев. То же самое относится и к звукам. Оба правила действуют (с небольшими отклонениями) во всех языках. Современная формулировка закона Ципфа относит "правило 80/20" к любым парам "информационная потребность" – "источник информации": Для удовлетворения 80% любых информационных потребностей достаточно 20% наличных источников информации.
К закону Ципфа мы не раз будем обращаться при изучении ИПС – информационно-поисковых систем. Он позволяет построить эффективные словарные ИПС, а его следствие – закон Бредфорда – позволяет найти редкую и рассеянную информацию.
Идея гипертекста Сейчас с гипертекстом встречается каждый, кто работает с компьютером (с Windows или Unix) – достаточно нажать клавишу < F 1 > , и вы видите на экране окно помощи, а в нем – зеленые (или другого цвета) строчки. Когда курсор мыши попадает на эти строчки, форма курсора меняется, а при щелчке левой кнопкой мыши происходит переход к другому разделу помощи. Но в 1947 г., конечно, ни о Windows, ни даже о компьютерах речь не шла. Ванневар Буш ( [http://www.computer-museum.ru/Gallary_vic/4.htm] ) анализировал возможности улучшения восприятия обычного текста. Он отметил, что тексты содержат как внутренние ссылки (например, "с м . р а з д е л т а к о й - т о г л а в ы т а к о й - т о "), так и внешние (прикнижную или пристатейную библиографию (например, "к а к п о к а з а н о в р а б о т е [ 1 ] "). Буш предложил расширить аппарат внутренних ссылок (например, раскрасив их в различные цвета, соответствующие смыслу ссылки: " ч и т а й в д о л ь к р а с н ы х с с ы л о к – п о л у ч и ш ь у ч е б н и к , в д о л ь с и н и х – с п р а в о ч н и к " и т.п.). Для облегчения работы с такого рода печатными материалами Буш предполагал использовать микрофильмы (фотокопии печатных изданий) и специальное оборудование, которое он назвал "m e m e x ". Но идея ссылочной структуры, отражающей всевозможные ассоциативные связи в текстах, Бушем была сформулирована четко, и Буш даже использовал термин Web (Паутина).
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
7
50-е годы. Развитие ЭВМ Языки программирования и операционные системы Производительность ЭВМ растет. К компьютерам приходят не только инженеры, их создавшие, но и те, для кого эти устройства создавались – математики, решающие прикладные задачи (в первую очередь – для ядерных вооружений и ракетной техники). Но математики думают о математике – о методах решения уравнений – а не о том, как устроена ЭВМ. Возникает потребность в создании средств, "изолирующих" математикавычислителя от архитектуры ЭВМ. И такие средства – языки программирования – появляются в середине 50-х годов. Первым (в 1954 г.) из известных до настоящего времени появился язык F O R T R A N , предназначенный именно для математических расчетов. В 1956 г. появился C O B O L , используемый до настоящего времени в экономических про. (Именно с К О Б О Л ом связана, в основном, проблема 2000-го года – в незапамятные пятидесятые годы компьютеры имели всего по нескольку сотен "ячеек" памяти, и для значения года программы на К О Б О Л е в то время использовали 2 цифры ; - ) В самом конце пятидесятых годов был создан язык A L G O L- 6 0 , ставший родоначальником целого дерева современных языков программирования: P a s c a l , M o d u l a , C , P e r l , A D A . Языки программирования избавляли математиков от необходимости изучать системы команд конкретных ЭВМ, но не избавляли от необходимости знать особенности разнообразных устройств ввода-вывода и хранения информации. Потребность в том, чтобы снять с математиков и это бремя, приводит в самом конце 50-х годов к созданию сложных программных комплексов, получивших название операционные системы. Операционная система – это первая программа, запускающаяся после включения компьютера. Задачи операционной системы (ОС) – изолировать пользователя от особенностей устройств ввода-вывода и управления оперативной памятью. Современные операционные системы, с которыми знакомо большинство обычных пользователей – M S - D O S , W i n d o w s 9 5 / 9 8 , различные варианты U n i x , O S / 2 – решают именно эти задачи (и одновременно многие другие) – вы никогда не задумываетесь над вопросом: "В каком секторе какой дорожки какого цилиндра начинается мой документ Word, и в какой момент времени диск повернется нужным сектором так, чтобы успеть подвинуть считывающую головку для того, чтобы я начал(а) работать с этим документом?". Все подобные вопросы за нас сейчас решает операционная система.
Информационный поиск. Возникновение теории информационнопоисковых систем В 50-е годы компьютеры стали настолько мощными, что стали применяться не только для решения расчетных задач, но стали проникать и в другие области человеческой деятельности. Так, возникла идея, что можно занести каталог любой библиотеки на машинный носитель – и пусть машина ищет! Например, ищет по словам в аннотациях книг.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
8
Не тут-то было. Оказалось, что многие задачи поиска решаются только за чрезвычайно большое время. Приведу цитату из одной статьи: "М а г н и т н а я л е н т а ф и з и ч е с к и и с т и р а е т с я д о з а в е р ш е н и я р е ш е н и я з а д а ч и " (на самом деле эта статья была написана в начале 70-х годов – в 50-х годах магнитные ленты в ЭВМ практически не использовались). Поэтому начинает развиваться теория информационно-поисковых систем ИПС), анализирующая способы построения таких систем и, что для нас важнее, как осуществлять поиск с помощью этих ИПС – какие поисковые задачи осуществимы и могут быть выполнены быстро, а какие требуют для своего осуществления астрономических времен. Развитие этой теории не закончено до сих пор, однако первые практически важные результаты были получены в 60-е и 70-е годы, что позволило уже в те годы перейти к построению реальных ИПС. К элементам этой теории мы еще вернемся.
Обработка текстов В пятидесятые годы появились первые прототипы фотонаборных автоматов, управляемых с помощью команд, нанесенных на перфокарты и перфоленты.
Рис. 2 Принцип работы фотонаборного автомата
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
9
С помощью таких устройств появилась возможность заменить труд наборщиков, работавших со свинцовыми шрифтами. Одна из основных задач наборщика состояла в так называемой "полной выключке" набираемого текста: Машинистка переводит каретку машинки в конце слова; получается "рваное" правое поле
А этот текст сверстан наборщиком - оба поля ровные
Одна из основных задач наборщика состояла в так называемой "полной выключке" набираемого текста. Следующий абзац должен был начинаться с "красной" строки. Последняя строка абзаца "не разгоняется" пробелами.
Одна из основных задач наборщика состояла в так называемой полной выключке" набираемого текста. Следующий абзац должен был начинаться с "красной" строки. Последняя строка абзаца "не разгоняется" пробелами.
Для выключки текста наборщик берет две линейки и закрепляет их справа и слева от поля набора, затем, примерно набрав строку, подбирает пробельные плашки нужного размера и вбивает их между словами или даже между буквами. Понятно, что оказалось нетрудно написать компьютерную программу, рассчитывающую размеры пробелов и выдающую соответствующие команды на перфоленту для фотонаборного автомата. Две оказались незадачи: Абзац должен начинаться с "красной" строки. Последнюю строку абзаца "разгонять" не нужно. Для решения этих "незадач" нужно было уметь сообщать ЭВМ о начале абзаца (начало очередного абзаца – это конец и предыдущего). Но эту-то задачу вот уже несколько сотен лет решают корректоры и технические редакторы – если наборщик не заметил начала абзаца в машинописном тексте и набрал этот текст в одном абзаце, то корректор, проверяя набор, помечает ошибку специальным знаком (одним и тем же во всех издательствах и типографиях мира!), а наборщик, получив гранки с пометками корректора, исправляет набор: Исходный текст Одна из основных задач наборщика состояла в так называемой "полной выключке" набираемого текста. Следующий абзац должен был начинаться с "красной" строки. Последняя строка абзаца "не
Текст набран с ошибкой: корректор сделал пометку Одна из основных задач наборщика состояла в так называемой "полной выключке" набираемого текста. Следующий абзац должен был начинаться с "красной" строки. Последняя строка абзаца "не разгоняется" пробелами.
разгоняется" пробелами.
Этот знак (вместе с другими аналогичными знаками, обозначавшими, например, пропущенные или переставленные буквы) назывался [корректорской] разметкой текста. На устройствах подготовки данных ЭВМ тогда не было знака и других знаков корректорской разметки (да и сейчас нет). Поэтому нужно было придумать способ сообщить компьютеру о том, что начался новый абзац. И такой способ был придуман. Ни один абзац (и ни одна строка) не начинается с единственной точки В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
10
… может быть, разве что с многоточия… Поэтому договорились считать, что строки, начинающиеся с единственной точки, будут считаться знаками (на компьютерном языке – директивами) разметки. Для абзаца использовали директиву .PAR
от английского слова Paragraph – Абзац. Сразу же возникла идея использовать такие строки для передачи дополнительной информации о разметке. Например, о размере абзацного отступа: .PAR -.5
означает "висячий" выступ на полдюйма: "Висячий" выступ, а отличие от втяжки, выступает за левое поле абзаца. Все последующие строки выравниваются по левому полю. Такая дополнительная информация получила название "атрибуты". Научившись размечать абзацы, программисты научились и автоматически разбивать текст на страницы. Затем возникла задача сбора оглавления. Потом взялись за подстрочные примечания (мелким шрифтом в нижней части страницы). Это уже оказалось непросто – такие примечания бывают очень большими (например, в литературоведении встречаются примечания, размер которых превышает страницу!). А если таких примечаний на странице несколько? По типографским правилам, все примечания на странице не могут занимать более ее половины, и существуют сложные процедуры переноса частей примечаний на следующие страницы. В общем, возникло некоторое инженерное направление, получившее название "текстообработка" или "обработка текстов". Поначалу (в 50-е годы) это направление занималось только проблемами, связанными с форматированием текста.
Три технологические ветви Фактически, в 50-е годы сформировались три ветви технологий: • • •
Собственно аппаратура компьютеров Программное обеспечение компьютеров, включающее языки программирования и операционные системы Обработка текстов
Еще одна технологическая ветвь, связанная с поиском информации, только начала зарождаться.
60-е годы XX-го века В 60-е годы развиваются уже все четыре технологические ветви, оказывая друг на друга заметное влияние.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
11
Рис. 3 Зарождение четырех технологических ветвей, на которых "вырос Интернет"
В начале 60-х годов наиболее активно развивается технология создания операционных систем.
Многозадачные и многопользовательские операционные системы К началу 60-х годов компьютеры стали весьма производительными. Настолько производительными, что человек-программист, работающий на компьютере, стал думать гораздо медленнее, чем компьютер – решать его, человека, задачи. Рост производительности компьютеров в то время сопровождался практически пропорциональным ростом их размеров и цены, так что цена миллион долларов за компьютер не удивляла. Но простаивающее оборудование такой стоимости раздражало всех. Поэтому появилась необходимость "научить" компьютеры решать одновременно несколько задач – пока программист думает над одной задачей, пусть решается другая. Или даже задача другого программиста. Но такой подход таил в себе опасности. Главная из них – ошибки в программах. Представим себе университетский компьютер (в США), на котором профессор рассчитывает двигатель баллистической ракеты, а студенты решают свои курсовики. Расчет двигателя мог занимать, например, неделю, а курсовика – несколько минут. Только представьте себе ситуацию, когда в 3 часа дня в пятницу должен завершиться расчет двигателя, а в 14:30 студент-троечник Джим запускает на счет свой курсовик – с ошибками в программе, которые останавливают весь компьютер! Поэтому для многозадачной – когда на одном компьютере решаются одновременно несколько задач – и многопользовательской – когда на одном компьютере одновременно работают несколько пользователей – работы необходимо обеспечить изоляцию программных ошибок. Ошибка в одной из одновременно решаемых задач не должна приводить к прекращению работы других программ, выполняемых на том же компьютере одновременно со сбойной программой. То, что программы пишутся людьми, приводит и к другим проблемам. Всем хочется получить результат побыстрее. Поэтому при многозадачной работе возникает конкуренция – борьба за ресурсы. Важными ресурсами компьютера являются: •
Доля времени центрального процессора, отводимая задаче
•
Объем оперативной памяти, отводимый задаче
•
Объем внешней памяти (сейчас – дисковое пространство), отводимый задаче
Управление этими ресурсами дает и некоторые возможности нейтрализовать сбойные программы – основная причина катастрофических сбоев – неправильная работа с па-
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
12
мятью, когда из-за ошибки происходит обращение к такой области памяти, к которой программа не должна обращаться. Но внешней и оперативной памятью – устройствами компьютера – занимается операционная система. Да и процессор – не что иное, как одно из устройств компьютера. Поэтому решение задач распределения ресурсов между программами, а с этими задачами – и задачи защиты программ друг от друга – было возложено именно на операционную систему.
Рис. 4 Стали появляться
многозадачные и многопользовательские операционные системы (ММОС) В начале 60-х годов никто не знал, какими должны быть ММОС, как их эффективно разрабатывать – ведь операционная система – это тоже программа, причем одна из наиболее сложных. Наиболее преуспела в начале 60-х годов в создании ММОС фирма IBM. В 1963 г. она выпустила серию компьютеров IBM/360 и несколько многозадачных операционных систем к ним – OS/360. В создании OS/360 участвовали несколько тысяч человек. Видоизменяясь, эта ОС просуществовала до настоящего времени – в семидесятых годах она называлась OS/370, сейчас – OS/390. В 1968 г. в СССР было принято решение скопировать компьютеры и операционную систему IBM под названием Единая Система ЭВМ – ЕС ЭВМ. В настоящее время в России, по разным оценкам, еще работают несколько тысяч ЕС ЭВМ, в основном, совместимых с OS/370. На машинах IBM под управлением многозадачных многопользовательских операционных систем этой же фирмы решались самые разные задачи – расчетные, экономические, конструкторские и, конечно, задачи текстообработки и информационно-поисковые.
Обобщенные языки разметки текста Фотонаборные автоматы оказались недостаточно точными для подготовки оригинал-макетов для изданий художественной литературы, однако они стали все шире применяться в промышленности для подготовки документации (прежде всего – в США и Западной Европе). Существуют отрасли промышленности, в которых используется огромный объем документации. Например, в судостроении объем бумажной документации исчисляется тоннами и десятками тонн (на крупные военные корабли, такие как авианосцы и подводные лодки – сотнями тонн). Эту документацию используют различные категории лиц (судостВ.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
13
роители и судосборщики, капитан, механики, артиллеристы и другие военные специалисты, докеры и ремонтники и др.) на протяжении нескольких десятилетий "жизни" корабля. Это значит, что различные части (книги) документации должны быть согласованы друг с другом – что уже непросто обеспечить,– и, что сложнее, должны согласованным образом изменяться. Такое же положение с документацией в авиастроении, фармакологии, нефтехимии, автомобильной промышленности. Поэтому возникла идея хранения всей документации на промышленный объект (судно, самолет, перегонную установку или синтез лекарства и т.п.) в виде одного большого набора данных (файла или совокупности файлов). Такой набор данных включает и типографскую разметку текста для получения управляющих перфолент для фотонаборного автомата. Но гипертекст Ванневара Буша создается также с помощью разметки! Поэтому список директив разметки расширяется – кроме оформительской разметки, предназначенной для внешнего оформления текста при печати, начинает использоваться структурная разметка, описывающая структуру документа или набора документов. В результате можно общие части документов ввести в память ЭВМ единственный раз, указав, в каких документах эти части используются. Что важнее, при внесении изменений все затрагиваемые документы будут изменяться одновременно. Так появляются языки обобщенной разметки документов, сочетающие оба вида разметки. Разделить оба вида разметки непросто. Например, заголовки разделов должны печататься с новой строки и крупным шрифтом (это оформительские требования), но, с другой стороны, заголовок – это часть структуры, которая должна использоваться для оглавления и ссылок из других частей документа – а это уже структурные требования. Трудность создания удобного языка обобщенной разметки документов привела к появлению сразу многих (около двадцати) различных языков разметки. В 60-е годы (да и в первой половине 70-х годов) они конкурируют между собой. Обработка больших текстовых наборов данных, да еще использующих сложные программы отбора по директивам структурной разметки и форматирования по директивам оформительской разметки, требовала больших вычислительных мощностей. Неудивительно, что все языки обобщенной разметки документов в то время были реализованы на больших машинах (mainframes) фирмы IBM.
Вычислительная техника и связь Меж тем в середине 60-х годов был изобретен модем – "Модулятор/демодулятор". Это устройство, сегодня знакомо многим. Оно предназначено для преобразования цифровых, дискретных сигналов, с которыми оперирует аппаратура электронно-вычислительной машины, в аналоговые сигналы, которые могут распространяться по проводам (телефонным и телеграфным) на большие расстояния – это делает модулятор. Образно говоря, модем "свистит в трубку" телефона1. Обратное преобразование – из аналогового сигнала в дискретный – выполняет демодулятор.
1
В 70-е и 80-е годы существовали т.н. "акустические" модемы. Они были выполнены в виде неболь-
шой коробки с микрофоном и динамиком. На коробку клалась трубка телефонного аппарата, и акустический модем действительно свистел в телефон. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
14
Скорости работы модемов поначалу были небольшими – 150, затем 300 бит/сек (сравним это с современными 33600 или 57600 бит/сек!), но уже к концу 60-х годов существовали модемы, работающие со скоростью 9600 бит/с. Конечно, размер такого модема превышал ящик письменного стола. Основное назначение модема в то время – через обычную телефонную сеть подключить к большому компьютеру удаленный терминал, который чаще всего представлял собой телетайп – электрическую пишущую машинку. В конце 60-х годов удаленный терминал – обычное явление в США (корпорации даже используют терминалы, работающие через междугородный и международный телефон). Во второй половине 60-х годов появляются устройства, включающие высокоскоростной модем, рассчитанный на работу со специальным кабелем по так называемой многоточечной схеме, когда к одному кабелю подключено много таких устройств. Фактически такое устройство – интерфейс локальной компьютерной сети (Local Area Network – LAN). За высокую скорость работы приходится расплачиваться – длина кабелей L A N не превышает десятков (в редких случаях – сотен) метров.
ARPAnet – предшественница Интернета В конце 60-х годов Министерство обороны США имеет несколько центров управления противовоздушной обороной. Естественно, эти центры оборудованы вычислительной техникой и каналами связи. Но их взаимодействие ведется через персонал, что приводит к значительному количеству ошибок и задержек. Министерство обороны США ставит перед своим Управлением по перспективным оборонным исследованиям (Defense Advanced Research Projects Agency – DARPA) задачу создания прототипа сети, которая могла бы связать уже не терминал с компьютером и не компьютер с компьютером на расстоянии 100 метров, а многие десятки компьютеров, рассредоточенных по всей территории Северной Америки (включая США и Канаду). Ставится требование, чтобы такая сеть не выходила бы из строя при полном отказе до половины каналов связи и до половины коммутирующих компьютеров – очевидно, на случай войны. В 1969 г. упомянутое Управление, которое к тому времени потеряло одну букву в своем сокращенном названии (оно стало называться ARPA – исчезло слово "оборонным"), создает такой прототип – собственную территориальную компьютерную сеть, получившую название ARPAnet. Диаметр ARPAnet (расстояние между самыми удаленными друг от друга компьютерами) составлял 40 км! Однако создание полномасштабной территориальной сети оказалось ARPA не под силу, и Управление привлекает к работам шестнадцать американских университетов.
Информационные технологии Наименее интенсивно в 60-е годы развивались собственно технологии хранения и поиска информации. Лишь в конце десятилетия на больших ЭВМ фирмы IBM и некоторых других создаются крупные хранилища текстовой информации (рефераты статей; сведения об организациях, предоставляющих гранты; технологическая и физико-химическая информация; библиография; начинают появляться базы законодательных актов и др.).В 1968 крупнейшая библиотека мира – Библиотека Конгресса США, насчитывающая в то время около 80 млн. единиц хранения, – начинает работы по своей автоматизации. Зат-
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
15
раты на эти работы составляли до нескольких сотен миллионов долларов в год, и первые плоды этой работы появились не скоро.
70-е годы – время рождения Интернета Как уже говорилось, ARPA привлекло к работе по созданию территориальной компьютерной сети 16 университетов США. В результате в 1971 г. такая сеть была создана. Она соединяла компьютеры, расположенные в этих университетах и включала ARPAnet как составную часть. Эту сеть и стали называть "Internet". В 1996 г. Интернет отпраздновал четвертьвековой юбилей. Технологии Интернета примерно на 50 лет моложе телевидения и на 100 лет моложе автомобиля. Совсем недавно многие бестрепетно открывали заднюю крышку телевизора и ремонтировали или настраивали его. Автомобиль многие самостоятельно ремонтируют и сейчас. Интернет "ломается" пока значительно чаще, чем телевизор или автомобиль, а средства его "ремонта" значительно сложнее, чем для телевизора или автомобиля; причем зачастую сбой на другом конце Земного шара не дает работать именно вам. Поэтому для Интернета так важны средства простые диагностики, которые мы будем изучать на последующих занятиях.
"Старые" информационные ресурсы Интернета С компьютерами работают люди. И они быстро оценили возможности Сети – возможности общения. Прежде всего, это было профессиональное общение – ведь это были люди, которые создавали Интернет: электроники, программисты. Поэтому довольно быстро был создан инструмент для профессионального общения, с помощью которого можно было поделиться программами, данными, описаниями. Все это – на компьютерном языке – файлы. Поэтому созданный инструмент и стал называться "протокол передачи файлов" (FTP – File Transfer Protocol). Почему "протокол" – отдельный вопрос, к которому мы вернемся на следующих занятиях. Компьютер, на котором работала программа, отдающая или принимающая файлы, стал называться FTP-сервером, а когда файлов стало много – FTPархивом. Поначалу FTP-серверы работали только для зарегистрированных на них пользователей, но уже вскоре они стали предоставлять так называемый "анонимный доступ": достаточно в качестве имени пользователя ввести слово "anonymous" ("анонимный"), а вместо пароля – сочетание своего регистрационного имени и имени своего компьютера (например, что-нибудь вроде john@tiger) – и доступ к FTP-архиву открывался. В результате FTP-архивы – самый старый и самый большой информационный ресурс Интернета. Они работают и сейчас, и сейчас в FTP-архивах можно найти не только программы и описания к ним, но и научные, учебные и любые другие тексты, изображения, звуковые файлы, видео и многое другое. Другой "информационный" ресурс Интернета, возникший в 70-е годы, – электронная почта (E-mail).
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
16
Электронная почта – это неполноценный информационный ресурс. Она конфиденциальна, поскольку имеет отправителя и адресата. Она преходяща, поскольку адресат хранит письма после прочтения лишь некоторое время (если вообще хранит), а затем письма уничтожаются. Но из электронной почты в начале 80-х годов вырастет уже полноценный информационный ресурс – телеконференции.
Рис. 5 Интернет появился
Базы данных с удаленным доступом Прогресс в развитии модемов и удаленных терминалов привел в начале 70-х годов к возникновению баз данных с удаленным доступом. Стало можно, набрав соответствующий телефонный номер, соединиться с большим компьютером где-нибудь в Калифорнии и выполнить поиск в базе данных, содержащей тексты нескольких тысяч статей или описания нескольких тысяч грантодающих организаций. Цены на эти информационные услуги установились не маленькие – ведь надо было окупать многомиллионные (в долларах!) затраты на большие ЭВМ и их устройства хранения данных, а также на коммуникационные процессоры, способные общаться с десятками модемов одновременно. Но, видимо, спрос на такие информационные услуги оказался достаточно велик, и информационным бизнесом занимались, например, такие гиганты, как Локхид. База данных DIALOG, принадлежавшая в то время Локхид, и сейчас является одним из крупнейших в мире хранилищ информации. Она доступна в Интернете: http://www.dialog.com . Цены на услуги DIALOG с семидесятых годов практически не изменились: одна минута работы с базой стоит от $1 до $1.40 (да! от 60 до 100 долларов в час!), а каждый выводимый элемент данных сверх некоторого минимума стоит от 20 центов до доллара (например, благотворительный фонд описывается по пятидесяти с лишним паВ.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
17
раметрам, из которых лишь 4 выводятся без дополнительной оплаты). Другие базы данных придерживаются примерно такой же ценовой политики. К тому же в 70-е и 80-е годы междугородный (международный) телефон был недешев. Все это привело к развитию исследований по методике информационного поиска: как подготовиться к поиску и каких стратегий придерживаться, чтобы потратить на поиск минимальное время и как можно меньше денег. Многие статьи американского журнала Journal of American Society for Information Science ([http://www.asis.org/] ) посвящены этим исследованиям. Многие результаты этих исследований применимы и при поиске информации в Интернете, поэтому нам придется с ними познакомиться.
Развитие других информационных технологий Огромное количество баз данных с удаленным доступом (к концу 70-х годов их насчитывалось около сотни) с разнообразными форматами данных и языками запросов привело к потребности в стандартизации. Многие информационно-поисковые языки (ИПЯ) имели и имеют общие черты, восходящие к пионерским исследовательским проектам 50-х годов. Яркие примеры: • ИПС CDS/ISIS, разработанная в ЮНЕСКО в начале 60-х и работающая до настоящего времени на компьютерах различной архитектуры (от персоналки до больших конфигураций UNIX – в мире установлено 14 тыс. копий CDS/ISIS). • ИПС STAIRS все той же фирмы IBM. Впоследствии ИПЯ STAIRS был стандартизован (стандарт ISO8777).
Структурные языки разметки. В семидесятые годы войны структурных языков разметки подошли к концу. Выжили два языка, которые получили статус международных стандартов – эти стандарты утвердила Международная Организация по Стандартизации (International Standards Organization – Международная Организация по Стандартизации) – наиболее авторитетный международный орган в области стандартизации. Один из них – ODA (Object Document Architecture – Объектная Архитектура Документов) так и остался применяться в промышленности. Другой язык – Structured Generalized Markup Language (SGML) – Язык Обобщенной Структурной Разметки оказал влияние на развитие многих информационных технологий. Несколько позже именно с ним мы встретимся в Интернете; он повлиял на развитие банковских технологий (международная система межбанковских расчетов SWIFT); на SGML основана система передачи коммерческой информации (прежде всего, товаротранспортных накладных) EDIFACT. SGML, однако, обладал (и до сих пор обладает) одним недостатком, который, как это часто бывает, – продолжение его достоинств. Этот недостаток – сложность. Стандарт ISO на SGML – это более 200 страниц сложного математического текста, о смысле которого до сих пор пишутся статьи и идут споры.
История Unix. В начале 70-х годов в США завершились многочисленные исследовательские проекты, связанные с разработкой многозадачных и многопользовательских систем. Участники В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
18
этих проектов стали возвращаться на прежние места работы – профессора в университеты, а инженеры – в свои фирмы. В 1972 году Кеннет Томпсон вернулся в родную Bell Laboratories. Начальство сказало ему: ищи сам работу, полезную для фирмы, иначе через полгода тебя уволят. Через 2 месяца Кен пришел к начальнику и сказал: "Я нашел такую работу". В Bell Laboratories есть патентный отдел, а в нем – машинописное бюро, где 50 машинисток ежедневно по 8 часов печатают заявки на изобретения от имени фирмы Белл. Заявка на изобретение – это формальный текст, состоящий из многих определенным образом отформатированных частей. По американским правилам, например, каждая пятая строка заявки должна иметь номер на левом поле. Подчистки и исправления не допускаются. Томпсон заявил, что он берется создать такую программу для компьютера, которая будет выполнять все оформление заявок, а машинистки будут печатать (вводить в компьютер) лишь содержательную информацию. Чтобы оценить смелость Томпсона, нужно немного познакомиться с компьютером, к которому он в то время имел доступ. Компьютер назывался PDP/8. Он имел 4 килобайта оперативной памяти. Из внешних запоминающих устройств у этого компьютера был только перфоленточный ввод/вывод. И лишь устройство печати PDP/8 имел по тем временам великолепное – телетайп с большими и маленькими буквами. Начальство поверило Кеннету Томпсону. К нему присоединились другие сотрудники Bell Labs, по ходу работ уже через пару месяцев им удалось убедить начальство обеспечить их группу новейшей ЭВМ PDP/11 с диском емкостью 1 Мбайт и оперативной памятью 16 Кбайт... В 1978 г. Фирма Белл создала специальную дочернюю компанию, чтобы продавать ту программу, которая получилась у Томпсона и его команды. А получилось то, что Томпсон и его коллеги умели хорошо делать – получилась многозадачная и многопользовательская операционная система, которую назвали Unix. Конечно, к этому времени всем в Белл стало ясно, что работа делается не только (и не столько) для машбюро – Unix'ом в Белл к тому времени уже во всю пользовались программисты и инженеры – специалисты по телефонии. К тому времени Unix работал, в основном, на компьютерах серии PDP/11, в том числе и на PDP/11-70, оперативная память которой достигала 2 Мбайт. Кроме PDP/11, Unix был перенесен почти на десяток разнообразных аппаратных платформ. Нужно например, сказать, что узловой телефонной станцией ESS5, разработанной в Bell Labs, а производимой Lucent Technologies (дочерней фирмой Белл), также управляет один из вариантов Unix, работающий на специализированной многопроцессорной ЭВМ. Однако первоначальная задача оказала влияние на разработку Unix – в эту ОС были включены самые передовые по тем временам средства форматирования текста ( t r o f f ) и средства поиска в тексте (g r e p ). Фирма Белл, продавая Unix, американским университетам отдавала его бесплатно. Расчет был простой – студенты выучатся, придут в коммерческие фирмы, и заставят свое начальство купить Unix. Так оно, в общем-то, и случилось. ОС Unix жива и здравствует до сих пор. А с начала 80-х годов Unix и Интернет становятся неразлучны. Но об этом чуть позже.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
19
Рис. 6 Развитие Интернета в 80-е годы XX века
Разработчики Unix получают премию им. Тьюринга Забежим немного вперед. В 1983 г. Ассоциация Производителей Вычислительной Техники (Association for Computer Machinery – ACM) наградила двух человек, начинавших в начале 70-х годов разработку Unix – Кеннета Томпсона и Денниса Ричи – ежегодной премией имени известного математика Тьюринга. Лауреаты премии по традиции выступали с лекциями. Лекции были опубликованы в журнале "Communications of the ACM" с фотографиями лауреатов, а позже переведены на русский язык и изданы в сборнике лекций тьюринговских лауреатов (правда, без фотографий). Первой в журнальной публикации идет лекция Ричи. С фотографии на нас смотрит человек в "офисной униформе" – хорошо сидящем пиджаке, – с короткой прической, в очках с тонкой оправой. Лекция его называлась "И с т о р и я р а з р а б о т к и U n i x ". В ней в хронологической последовательности изложена история разработки. Настораживает лишь В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
20
одна фраза: "Я р а б о т а л в о ф и с е Б е л л с 8 у т р а д о 1 7 в е ч е р а , а К е н р а б о т а л в о с н о в н о м н о ч ь ю у с е б я н а ч е р д а к е д а ч и ч е р е з м о д е м ". С фотографии второго лауреата – Кена Томпсона – на нас смотрит сорокалетний хиппи: джинсовый костюм, волосы до плеч, пенсне... Лекция Томпсона имеет академическое название: "Н е к о т о р ы е о с о б е н н о с т и р е а л и з а ц и и я з ы к о в п р о г р а м м и р о в а н и я ", но в ней Томпсон на простых примерах показывает, как может быть устроена программа – "троянский конь" и как может быть устроен сетевой червь – программа, сама себя рассылающая по сети. Обратите внимание: в 1983 г. IBM/PC только входят в обиход. До первого вируса осталось 2 года… Я обратил ваше внимание на этот эпизод истории для того, чтобы отметить успешное сотрудничество двух субкультур – "яппи" Ричи и "хиппи" Томпсона в совместном проекте. Интернет скоро станет местом встречи многих культур, и их взаимодействие не всегда будет столь успешным…
80-е годы. FTP-серверы обретают средства поиска В начале 80-х годов объем информации, накопленной в FTP-архивах с анонимным доступом стал столь велик, что потребовались средства поиска нужной информации. Появилась система A r c h i e (читается "Арки") – аналог алфавитного каталога библиотеки. Если точно знаешь название файла или каталога, в котором этот файл может лежать – тогда найдешь. A r c h i e жива до сих пор, однако сейчас используется лишь немногими – ее вытеснили более совершенные системы поиска файлов. Другой подход был реализован в глобальной ИПС W A I S (читается "Вэйз"). W A I S – сокращение от Wide Area Information System – "Распределенная Информационная Система". W A I S исследует содержимое предоставленных ей файлов и строит так называемые индексы – специальные словари, в которые заносятся все слова из текстовых файлов или описаний файлов других типов. По словам W A I S может строить списки файлов, в которых эти слова встречаются, – и выполнять над этими списками различные операции. W A I S относится к классу словарных информационно-поисковых систем. Этот класс ИПС сейчас часто встречается в Интернете, и его изучению мы посвятим значительное время. На язык запросов WAIS большое влияние оказал ИПЯ STAIRS.
Рождение телеконференций Как уже отмечалось, электронная почта – неполноценный информационный ресурс. Часто необходимо сделать информацию достоянием неопределенного круга лиц – "опубликовать". Анонимные FTP-серверы хорошо справлялись с этой задачей, но совершенно не имели (и не имеют) средств оповещения о том, что появилась новая информация. Электронная почта, напротив, – хорошее средство оповещения. После долгих обсуждений того, что должна представлять из себя технология "публикаций", в 1982 г. появились телеконференции. В настоящее время телеконференции – собирательное название целого ряда технологий. Классические телеконференции используют специальные серверные программы и специальный протокол для работы с такими серверами. Все множество таких конференций В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
21
называется Usenet, а сами конференции зачастую называют просто "news" (а по-русски – "ньюсы", с ударением на последнем "ы") – "новости". Такое название связано с тем, что в телеконференциях обсуждаются самые последние новости – сейчас в телеконференции всего мира пишется около 50 тысяч (!) писем ежедневно. Другая распространенная технология телеконференций – списки рассылки вроде d l i s s t u d e n t s - l i s t @ m a i l . n i c . n w . r u . Списки рассылки работают со всеми обычными программами электронной почты и представляют собой корреспондента – робота. Вы пишете роботу письма, а он эти письма обрабатывает. "Публичные" списки рассылки (
[email protected] – не публичный) понимают два вида писем – обычные и служебные. Служебные письма содержат команды. Две команды понимают все роботы списков рассылки: S u b s c r i b e – подписаться U n s u b s c r i b e – прекратить подписку
После того, как вы отправили роботу списка рассылки команду S u b s c r i b e , он начинает слать в ваш адрес копии всех обычных писем, направленных в его адрес. Команда U n s u b s c r i b e прекращает поток писем от робота на ваш адрес. Телеконференции – исторически второй после FTP-архивов информационный ресурс Интернета. Есть полные архивы телеконференций, так что при необходимости можно изучить историю любого вопроса, в них обсуждавшегося. Есть и специальные информационно-поисковые системы по телеконференциям.
Культурные конфликты в телеконференциях. Flames Телеконференции хорошо структурированы. Они разбиты на группы телеконференций (которые по-английски так и называются – newsgroups), причем каждой группе соответствует определенная тематика. Тематически более узкие группы входят в состав более широких. Но иногда в процессе обсуждения темы, которой и посвящена телеконференция, отдельные личности допускают, мягко говоря, "некорректные" высказывания. Такие высказывания вызывали резкие ответы, особенно в тех случаях, когда высказывания имели вполне определенных адресатов. Резкие ответы оказывались уже оскорбительными для нескольких участников телеконференций – в них могли задеваться национальные вопросы или религиозные чувства. На один резкий ответ писались десятки других. На десятки других – сотни третьих. Тема обсуждения забывалась, оставалась брань. Такое (частое в начале истории телеконференций) явление получило название flame – "пламя". Опасность таких пожаров не сразу, но была осознана работающими в Интернете. Была понята и причина пожаров – культурные различия участников телеконференций. То, что одному кажется невинной шуткой – для другого смертельное оскорбление самых глубоких его/ее чувств. Интернет впервые позволил членам различных культур массово общаться друг с другом, и выявился недостаток опыта межкультурного общения, основными носителями которого до тех пор были дипломаты, деятели культуры и, отчасти, политические деятели. Но выход был найден. Точно так же, как дипломатия использует этикет для сглаживания межкультурных различий, так и в Интернете был выработан сетевой этикет – netiquette.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
22
Правила его просты. Вот некоторые из них: • • • • •
Помни, что в Интернете есть разные люди Все, с кем ты общаешься, имеют национальность, веру, убеждения. И то, и другое и третье могут быть отличными от твоих. Не навязывай никому свои убеждения Постарайся понять, для кого твои высказывания могут быть оскорбительными, и предупредить таких людей Ты, может быть, уже усвоил сетевой этикет, но кто-то, может быть, и нет Если чье-то высказывание кажется тебе оскорбительным, отвечай в наиболее мягкой форме. А если не можешь найти мягкую форму, лучше не отвечай вообще
За последние годы в Интернет пришло много новых людей, и все новые и новые люди начинают использовать Интернет. Большинство из них не знают про этикет. Но ВЫ УЖЕ ЗНАЕТЕ. "К т о п р е д у п р е ж д е н , т о т в о о р у ж е н ". В Интернете присутствуют все культуры и субкультуры, в том числе все религии – как традиционные, так и культы, секты и фанатики. В Интернете можно найти информацию обо всех возможных видах насилия. В Интернете есть информация о самых разнообразных сексуальных ориентациях. Там есть фашизм и терроризм, писатели компьютерных вирусов, хакеры и взломщики программ. В Интернете есть все то, что может человек. В процессе поиска информации мы время от времени сталкиваемся с этими так называемыми маргиналами (или субкультурами). Специалист по поиску информации должен быть психологически готов к таким столкновениям.
Проект BSD Unix Как уже говорилось, фирма Белл продавала ОС Unix коммерческим компаниям, и дарила бесплатно университетам. Но в университетской среде зрело мнение, что необходимо избавиться от монополизма Белл, тем более, что Unix развивалась не так быстро, как этого хотелось сотрудникам университетов. И вот в 1980 г. на факультетах вычислительной техники двух отделений Калифорнийского университета (США) – в Беркли и Сан-Диего Unix была переписана "с нуля". Заодно в Unix были добавлены все необходимые для работы с Интернетом инструменты. С тех пор бесплатная версия Unix – F r e e B S D (BSD – от Berkeley и San Diego) стала основной "рабочей лошадкой" Интернета. Лишь во второй половине 90-х годов Windows NT и Linux потеснили FreeBSD в Интернете.
Unix и Интернет попадают к физикам-ядерщикам В начале 80-х годов Unix и технологии Интернета попадают в руки физиков и инженеров, занимающихся ядерной физикой. В этом нет ничего удивительного: ведь и те, и другие – недавние выпускники тех самых университетов, в вычислительных центрах которых работает бесплатный Unix и есть оплачиваемый правительством США Интернет. Да и объект для приложения Unix и Интернета подходящий – ускорители элементарных частиц, используемые для физических экспериментов, имеют циклопические размеры. Как говорится в одном из отчетов Исследовательской Службы Библиотеки Конгресса США (обязанной объяснять конгрессменам, на что они могут потратить или не потратить деньги американских налогоплательщиков языком, понятным простым политикам): "П р е д л а г а емый к постройке ускоритель по размерам похож на окружную дорогу вокруг Ваш и н г т о н а ".
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
23
На кольце ускорителя (бублик размером с тоннель метро) через каждые 10 метров стоит электромагнит, управляемый компьютером; через каждые 300 метров – экспериментальная установка, на которой используется по меньшей мере один компьютер, а иногда и несколько. Для связи этих компьютеров естественно применять коммуникационные технологии Интернета. И объем оборудования, используемого при постройке ускорителя, никак не меньше, чем оборудование корабля или самолета. Поэтому физики с энтузиазмом восприняли перенос средств работы с S G M L – языком обобщенной разметки документов – на ставшие достаточно мощными Unix-машины.
Персональные компьютеры Во второй половине 70-х годов появилось электронное устройство, которое в те годы рассматривалось специалистами вычислительной техники сначала как устройство промышленной электроники. Речь идет о микропроцессоре – аналоге центрального процессора большого компьютера, но выполненном в виде одной или небольшого количества микросхем. Но уже в 1978 г. фирма Radio Shack, владевшая в США сетью радиомагазинов, предложила сначала в своих магазинах, а затем и в универмагах персональный (домашний) компьютер TRS-80, основой которого был микропроцессор. Возможности этой малютки оценили и профессионалы, и в начале 80-х годов сначала небольшая в то время фирма Apple предложила персональный компьютер, который так и назывался – Apple (а вскоре – Apple II), а затем и гигант IBM вышел на рынок со своим IBM/PC. IBM опубликовала подробное описание устройства своего компьютера, что позволило сотням фирм начать производство аппаратных компонент для него, а программистам – написать сотни тысяч программ для этих компьютеров. Вслед за IBM/PC вскоре последовал IBM/PC-XT, а в 1986 г. – IBM/PC-AT. С 1984 г. на IBM-совместимых компьютерах используется операционная система MS-DOS производства фирмы Microsoft. Эти персональные компьютеры были ориентированы на применение не компьютерными специалистами. В 1983 г. Apple предложила компьютер, который получил название Macintosh. Этот компьютер имел только графический интерфейс, в котором использовались экспериментальные разработки по человеко-машинному взаимодействию, проводившиеся еще с конца 60-х годов в исследовательских центрах фирмы Xerox. Именно на Macintosh стала активно использоваться мышь, изобретенная за 20 лет до него. Появление Macintosh стимулировало разработку аналогичных "оконных" графических интерфейсов для других платформ. В Unix медленно начал развиваться программный комплекс, получивший название X W i n d o w , Microsoft берется за создание своих Windows, временно беря в союзники IBM (OS/2 первых версий). Эти проекты продвигаются медленно, хотя и по разным причинам. Macintosh становится главной графической платформой 80-х годов.
Gopher Итак, физики-ядерщики работают с Unix и Интернетом. Они привыкли к электронной почте и передаче файлов по FTP. Но что-то их во всем этом раздражает. Становится яс-
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
24
но – интерфейс программ для работы с Интернетом слишком неудобен для тех, кто работает с этими программами время от времени. Чтобы получить представление о трудностях физиков-ядерщиков при работе с Интернетом в среде Unix в то время, представьте себе, что вы работаете в MS-DOS (можете даже открыть окно MS-DOS ; - ) :
Рис. 7 Окно сеанса MS-DOS в Windows NT
Попробуйте теперь вспомнить, как скопировать файл:
Рис. 8 Команда копирования файла в MS-DOS
А теперь вспомните, что у команды c o p y есть ключи:
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
25
Рис. 9 Ключи команды копирования файла в MS-DOS
Вы не подозревали? Просто в большинстве случаев ключи команды c o p y не используются. Существует и другая, более мощная команда копирования (она может копировать целые каталоги) – x c o p y . Попробуйте самостоятельно выяснить, сколько ключей у команды xcopy. Команда f t p в Unix имеет около 70 (семидесяти!) ключей! И не менее половины из них приходится использовать. В Windows 95/98 также есть команда. Попробуйте выяснить, сколько у нее ключей и подкоманд. Запомнить все ключи и подкоманды непрофессионалу невозможно. Необходим более простой интерфейс. И такой интерфейс появился в виде программы:
Рис. 10 Интерфейс G o p h e r
Теперь достаточно набрать номер, соответствующий требуемому ресурсу, и нажать. Ресурс, если это текстовый файл, появится прямо на экране. Если это двоичный файл, то по протоколу FTP он будет перекачан на диск вашего компьютера. Обратите внимание на названия ресурсов в верхней части правого столбца – там стоят ссылки на другие G o p h e r 'ы – пункт меню может вести к другому меню. Но это уже гипертекст. Здесь нет простого текста, который бы не являлся ссылкой – в G o p h e r есть только ссылки. Так что G o p h e r – это неполноценный гипертекст.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
26
Тем G o p h e r и оправдывает свое название (в переводе с английского – "суслик" – набивает щеки информацией и так и сидит, ничего полезного с этой информацией не делая ;-). Однако G o p h e r широко использовался вплоть до середины 90-х годов. Например, в Национальном Научном Фонде США несколько тысяч страниц документов, начиная с телефонного справочника и кончая отчетами по исследовательским проектам, были доступны через G o p h e r .
Проект "World Wide Web" – "Всемирная Паутина" Когда G o p h e r успешно заработал, Итак, физикам-ядерщикам пришла пора задуматься о решении другой задачи, также связанной со сложными для них информационными технологиями. Дело в том, что, хотя на используемых ими Unix-машинах и был доступен язык обобщенной разметки документов S G M L , на котором готовилась документация на некоторые исследовательские установки, но изучать S G M L физикам было недосуг. К тому же программные средства подготовки S G M L- текстов дороги – их цена составляет десятки тысяч долларов. Еще одной причиной, заставлявшей физиков-ядерщиков думать об отказе от S G M L , была интернационализация ядерной физики. Ускорители уникальны. На них работают ученые всего мира: в США, СССР, Швейцарии – из этих стран и из Бразилии, Вьетнама и Китая… Ученый года два готовит свою экспериментальную установку у себя в стране, затем пересылает ее описание в тот научный центр, в котором будет ставиться эксперимент – там изготавливают всю установку или ее значительную часть. Недостающие узлы и детали ученый привозит с собой. Эксперимент идет несколько месяцев (а иногда всего несколько минут), затем этот же и другие ученые со всего света обрабатывают результаты. Если все пользуются "правильно" подготовленной документацией, то всем нужен S G M L . Но в СССР, не говоря о Вьетнаме, программы для работы с S G M L просто некуда ставить – нет таких компьютеров. Поэтому в международном ядерном институте ЦЕРН, расположенном в Швейцарии, была сформулирована задача: на строгой базе S G M L необходимо придумать более простой язык разметки, который: • • •
•
было бы легко выучить позволял бы готовить простые документы без специальных средств S G M L – в обычном текстовом редакторе обеспечивал бы ссылки на документы, находящиеся на других компьютерах – примерно так же, как это сделано в G o p h e r 'е (выбрал ссылку и нажал). Это позволило бы создавать сложную документацию совместно ученым разных стран позволял бы для чтения документов, размеченных с помощью этого языка, использовать бесплатные программы чтения S G M L -документов – b r o w s e r s (броузеры)
Для решения этой задачи был начат проект, получивший название "World Wide Web" – Всемирная Паутина.
1989 год. Язык гипертекстовой разметки HTML В 1989 г. основная задача проекта WWW (World Wide Web) была решена. Простой язык гипертекстовой разметки документов был создан и получил название HyperText Markup В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
27
Language – Язык ГиперТекстовой Разметки, – сокращенно H T M L . Кроме языка разметки, был разработан протокол передачи информации, подготовленной с использованием этого языка – HyperText Transfer Protocol (H T T P ). Основным разработчиком того и другого стал студент-выпускник Стэнфордского университета Тим Бернерс-Ли. Описание языка было очень коротким – три страницы. Язык содержал около двух десятков простых директив разметки (вроде обозначения абзаца) – изучение языка и использование директив в простом текстовом редакторе не представляли труда. Но для просмотра подготовленных H T M L -страниц, как стали называть размеченные с помощью H T M L документы, по-прежнему использовались S G M L -броузеры. Стала понятной необходимость создания специализированного, более простого броузера для H T M L .
1990 г. Lynx и HTML 2 В 1990 г. такой броузер появился. Его назвали L y n x (англ. "рысь"). Он был разработан, конечно, для Unix – WWW пока жил только в Unix-мире. Несмотря на то, что для персональных компьютеров к 1990 г. графический дисплей стал стандартным, на машинах Unix стандартным был черно-белый алфавитно-цифровой дисплей, а графические дисплеи использовались только для работ вроде автоматизированного проектирования (САПР) и были весьма дорогими. Поэтому L y n x работал на алфавитно-цифровом дисплее. L y n x жив до сих пор. Его огромное достоинство – в отсутствии графики, что позволяет приделать к нему синтезатор речи и заставить компьютер "читать" Всемирную Паутину, например, для слепых или для одновременно занятых другим делом людей (например, для биржевых брокеров).
Впоследствии L y n x был перенесен на многие платформы, в том числе, например, в M S D O S . Вот как выглядит HTML-страница в L y n x :
Рис. 11 Внешний вид несложной HTML-страницы в L y n x
Обратите внимание, что изображения отсутствуют. На их месте стоит имя файла изображения. В L y n x оно является ссылкой – файл можно скачать и посмотреть отдельно (и даже на отдельном графическом дисплее). Конечно, L y n x не может передать все современные особенности форматирования, которыми обладает HTML. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
28
Следует обратить внимание на то, что за год существования Всемирной Паутины на некоторых серверах накопилось довольно много HTML-страниц. Понадобились поисковые средства. Они появились, но поиск требует, по крайней мере, передачи запроса на сервер. В результате произошло усложнение HTML, и в 1990 г. появился HTML 2, позволявший отобразить форму – документ с "окошками", в которые можно было бы вводить запрос. L y n x может отображать формы. Вот как он отображает страницу смены пароля:
Рис. 12 HTML-страница с формой смены пароля в L y n x
Обратите внимание, что в начале черной линии, означающей первое поле ввода, виден белый курсор – именно туда будут вводиться символы, которые будет печатать пользователь С введением форм в язык HTML было заодно введено много мелких усовершенствований и уточнений. В результате описание HTML 2 в начале 90-х годов достигло размера в 60 страниц, а описание окончательной версии HTML 2 (1995 г.) составляет 78 страниц. Немало, хотя и написано простым и понятным языком.
1993 г. Mosaic и "Великий взрыв" Всемирной Паутины Так и развивалась Всемирная Паутина (WWW) – не торопясь. Постепенно ее стали использовать не только физики и специалисты по Интернету, но и инженеры и ученые других специальностей. Но широкому кругу пользователей аббревиатура WWW по-прежнему была незнакома. В 1993 г. в одном из университетов США была выполнена дипломная работа – создание графического броузера Всемирной Паутины, способного отображать изображения в том же окне, что и текст. Так был создан M o s a i c [http://www.mosaic.org/] . Конечно, M o s a i c был создан для Unix. Но по университетским традициям исходный текст программного кода M o s a i c был опубликован. 1993 год замечателен еще одним фактом компьютерной истории. В этом году появилась версия 3.1 M i c r o s o f t W i n d o w s . Это была первая устойчивая версия Windows, которая "не падала" от каждой мало-мальски сложной программы. В том году Microsoft продал около 40 млн. копий Windows. И M o s a i c был быстро перенесен на Windows – Всемирная Паутина внезапно стала доступна (пока потенциально) миллионам пользователей. Этот факт быстро оценили две категории пользователей Интернета:
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
29
Коммерческие компании. Для них Всемирная Паутина виделась огромной рекламной сетью с аудиторией, сравнимой с аудиториями крупнейших телевизионных компаний Частные лица, горящие желанием выплеснуть на публику какую-то информацию (выучить HTML несложно, а приятель с Unix-машиной – WWW-сервер в то время требовал Unix – найдется!) И эти пользователи бросились наполнять Всемирную Паутину кто чем вздумает. И произошел взрыв: в начале 1993 г. существовало около 2000 WWW-серверов, в конце того же года – несколько десятков тысяч. Конечно, такое количество информации потребовало создания поисковых средств, и они стали появляться как грибы после дождя: в сентябре 1993 г. в Интернете существовало 2 поисковые системы, в октябре – 10, в декабре – 40. К концу января 1994 г. было уже 120 информационно-поисковых систем, причем среди них осталось только две из тех, что возникли в октябре 1993 г. – остальные сошли с дистанции. В настоящее время в Интернете существует несколько сотен универсальных информационно-поисковых систем, охватывающих разнообразную тематику, и более 2000 тематических. Изучить все их невозможно. К счастью, все универсальные ИПС распадаются на три класса; причем ИПС, принадлежащие каждому классу, в значительной степени похожи друг на друга по принципам своей работы.
1994 г. – год торжества Netscape Студент, создавший Mosaic, окончил университет и ушел работать в маленькую (12 человек) программистскую фирму, создавшую и поддерживающую не очень популярную программу электронной почты под названием Mozilla. Начав работать, он внес в Mosaic два изменения, основанные на наблюдениях за поведением пользователей Всемирной Паутины в медленном тогда Интернете (самый быстрый модем имел скорость 19200 Кбит/с, трансатлантический канал связи работал со скоростью всего 2 Мбит/с): • •
Тяжело ждать загрузки страницы. Если пользователь дождался загрузки страницы, то с большой вероятностью он захочет посмотреть на эту страницу снова – либо потому, что на ней есть полезная информация, либо потому, что пользователь щелкнул мышью по какой-то ссылке, а ссылка привела его не туда, куда он хотел – необходимо возвращаться.
На каждое из этих наблюдений было придумано остроумное улучшение броузера: •
Оказалось, что HTML устроен так, что в большинстве случаев нет необходимости ждать, пока HTML-страница полностью перекачается с сервера на компьютер пользователя – достаточно иметь ее начало, которое может заполнить окно броузера.
•
Нужно просто запомнить перекачанную HTML-страницу на диске компьютера пользователя, и, когда пользователь захочет посмотреть ее еще раз, не выкачивать эту страницу по медленным каналам из Интернета снова, а загрузить ее с локального жесткого диска (такой подход на программистском жаргоне называется кэшированием).
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
30
Рис. 13 Вторая половина XX века
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
31
И получился новый отличный WWW-броузер, который назвали Netscape Navigator (по новому имени фирмы – Netscape Communications). В отличие от бесплатного Mosaic'а Navigator стал коммерческой программой. Ведь уже много фирм создавали свои (пока еще только рекламные) серверы-сайты во Всемирной Паутине, и грех было не взять с них деньги за полезный инструмент, тем более что Netscape оценил свою программу недорого – около $40. Следуя традициям, некоммерческим пользователям (сотрудникам университетов, студентам и школьникам) Netscape Navigator предлагался бесплатно. Надо сказать, что Netscape была не единственная фирма, пытавшаяся создать эффективный WWW-броузер. Но ей это удалось лучше всех. К концу 1994 г. Netscape Navigator занимал по разным оценкам от 70% до 80% рынка броузеров. Сама фирма Netscape стала заниматься еще и WWW-серверами, ее штат к концу 1994 г. составлял около 1200 чел. (В самом конце 90-х годов прошлого века фирма Netscape была куплена компанией America On-Line за 4 миллиарда долл.)
1995 г. Microsoft Internet Explorer Крупнейшая компания – разработчик программного обеспечения – Microsoft не могла остаться в стороне от того огромного рынка, на котором доминировала Netscape. И появился Microsoft Internet Explorer (MSIE). Поначалу это был уродец, который зависал, "валился", и не мог показать те нестандартные расширения HTML, которые придумала Netscape. Microsoft понимала, что покупать слабый продукт никто не будет. Поэтому она избрала другие пути продвижения своего броузера. MSIE стал полностью бесплатным. Microsoft стала включать Internet Explorer в состав операционных систем (Windows 95/98, Windows NT). Но время шло, и сейчас MSIE ничуть не хуже, а в некоторых отношениях и лучше Netscape Navigator.
1995 -1997. Битва за HTML HTML обладает врожденными недостатками. Он был создан для подготовки текстовой документации, и предполагалось, что изображения будут использоваться в HTML только во вспомогательных целях. Но в коммерческом мире изображения – главное. Реклама построена на привлечении взгляда к определенным элементам именно изображения, и лишь затем потребитель рекламы должен прочитать текст. HTML 2 не позволял точно позиционировать текст и изображение друг относительно друга на экране (еще хуже положение было с печатью HTML-страниц). Фирма Netscape еще в 1994 г. предложила использовать так называемые "расширения" HTML – элементы разметки, отсутствовавшие в стандарте. Многие из этих расширений (прежде всего, "кадры" – "frames") были нацелены на улучшение позиционирования. Естественно, что расширения, предлагаемые Netscape, лучше всего были реализованы в Netscape Navigator. Microsoft подхватила этот почин. Он позволял применить стандартный прием деления рынка – сделать так, чтобы твой клиент не смог воспользоваться продуктом конкурента – ведь фирменные расширения HTML конкурент реализовывать не станет. Расширения HTML, предложенные Microsoft, не были реализованы в Netscape Navigator. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
32
Пострадали пользователи. Всемирная паутина чуть было не раскололась на две части – приверженцев Netscape Navigator и сторонников MS Internet Explorer (остальные броузеры в расчет можно не принимать – все они занимали менее 5% рынка). Такой раскол привел бы обе фирмы к потерям, и они сели за стол переговоров. Переговоры длились долго (и, фактически, не закончились и по сей день). В январе 1997 г. был достигнут промежуточный компромисс – утверждена Рекомендация ([http://www.w3.org/ ]) по HTML 3.2. Рекомендация имеет объем около 100 страниц. Фактически она описывает все те расширения HTML 2, которые поддерживаются всеми броузерами, т.е. это стандарт, который действительно соблюдается.
1998 г. Каскадируемые таблицы стилей и HTML 4 Тем временем Microsoft предложила новую идею: отделить структурную разметку от оформительской – так, как это можно сделать в Microsoft Word с использованием таблиц стилей. Из-за разнообразия компьютеров, операционных систем и оконных интерфейсов оказалось, что механизм таблиц стилей должен быть устроен сложнее – например из-за того, что на компьютере пользователя может быть не установлен требуемый шрифт. Поэтому таблицы стилей как бы сложили в стопку – механизм таблиц стилей можно настроить так, чтобы он отбирал из стопки стилей только те, которые применимы в данной ситуации. Отсюда и название – каскадируемые таблицы стилей (Cascaded Style Sheets – CSS). Таблицы стилей и многие новые элементы оформления, а также необходимость поддерживать мультимедийные данные, которые все чаше стали встраивать в HTML-страницы, зафиксированы в Рекомендации по HTML 4 [http://www.w3.org/] . Объем этой Рекомендации – более 300 (!) страниц. Создавать тексты в стандарте HTML 4 с помощью простого текстового редактора практически невозможно. Необходимо сказать, что пока эта Рекомендация не выполнена в полном объеме ни одним броузером.
1999 г. XML, DOM, RDF HTML оказался более или менее пригоден для форматирования статического текста. Но теперь хочется демонстрировать динамические объекты, да еще и дать возможность этим объектам взаимодействовать с пользователем. Для этого необходимы более мощные, чем HTML, средства. Так появляется язык XML (eXtended Markup Language), позволяющий создавать пользовательские средства разметки. Необходимость динамически изменять документ и позволить документу взаимодействовать с броузером приводит к созданию строгих описаний документа и броузера – Document Object Model (DOM). И, наконец, миллиарды документов, имеющихся в Интернете, требуют более эффективных механизмов их поиска, чем те, которые могут предоставить современные ИПС. Создание таких механизмов оказывается возможным только при организованном взаимодействии авторов документов и владельцев поисковых средств. Поэтому разрабатывается Среда для Описания Ресурсов – Resource Definition Framework (RDF).
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
33
Если XML уже находит свое практическое применение (а MSIE 5 уже поддерживает XML), то DOM и RDF только начинают свою жизнь.
Другие технологии Интернета Мы рассмотрели становление базовых информационных технологий Интернета, связанных с представлением текста. Кроме этих технологий, конечно, в Интернете развиваются и многие другие информационные технологии, например: • • •
Интернет-телефония – синхронная передача голоса ICQ – "машинописный" разговор Электронные платежи
Отдельного упоминания заслуживает проблема безопасности информации в Интернете. Но нельзя объять необъятное, и в данном курсе мы не будем касаться этих вопросов.
Заключение Ваше знакомство с историей создания и развития информационных ресурсов Интернета завершено. Поневоле оно было беглым, но я надеюсь, что вы осознали те технологические связи, которые породили Всемирную Паутину. Эти знания не применимы непосредственно, но они облегчают вхождение в информационный мир Интернета.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
34
Технологии Интернета Введение Как уже говорилось, Интернет – технология сравнительно молодая, особенно если сравнивать с другими "высокими" технологиями, применяющимися в быту. Так, например, телевидение перевалило за полувековой рубеж; автомобилю более ста лет. Тем не менее совсем недавно многие без страха открывали заднюю крышку телевизора и настраивали его (до недавних пор я это иногда делал с маленьким "Электроника ВЛ-100", которому в исполнилось более 20 лет). Под автомобиль многие залезают и сейчас. В силу своей молодости Интернет "ломается" гораздо чаще, чем телевизор или автомобиль. Поэтому для эффективной работы с Интернетом приходится "залезать под Интернет" или "открывать его заднюю крышку" и, если не чинить, то, по крайней мере, разбираться, что следует сказать тому "механику", который возьмется "починить Интернет" для вас. Положение с Интернетом усугубляется еще и тем, что "сломаться" может на другом конце Земного шара, а перестать работать – именно у Вас. Так что придется нам изучить несколько технических подробностей работы Интернета. Конечно, мы не станем вдаваться в тонкости и погружаться в глубины – все-таки наша цель – это научиться эффективно искать информацию. Технические детали оставим для тех, для кого сетевые технологии являются профессией.
Наивный взгляд Что такое Интернет с технической точки зрения? Попросту говоря, это компьютеры, связанные между собой каналами связи. Для такой связи в компьютерах должны существовать специальные устройства, которые можно было бы подключить к кабелю – сетевые интерфейсы. Сетевыми интерфейсами могут быть самые разнообразные устройства. Среди таких устройств наиболее известны сетевые карты Ethernet и модемы для обычных коммутируемых телефонных линий. Однако есть и менее распространенные сетевые интерфейсы, например, сетевые карты Ungerman-Bass или модемы для спутниковых каналов связи. Точно так же, как разнообразны сетевые интерфейсы, разнообразны и кабели, которые могут быть, например, медными или волоконно-оптическими. Впрочем, говорить о кабеле иногда можно только условно – компьютеры могут быть соединены, например, по радиорелейной линии или через спутниковый канал связи. Конкретный вид кабеля вместе с подсоединенными к нему сетевыми интерфейсами называется кабельной системой. Несмотря на огромное разнообразие кабельных систем, все они обладают двумя существенными, с точки зрения создания такой глобальной сети, как Интернет, недостатками: •
длина кабельной системы ограничена: например, длина коаксиального кабеля Ethernet не превышает, для самого лучшего кабеля, 500 м, хотя есть и очень длинные кабельные системы (волоконно-оптические достигают 4 тыс. км; спутниковые каналы связи могут достигать другой стороны Земли и даже Луны) В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
35 •
любая кабельная система содержит ограниченное число сетевых интерфейсов (обычно их число не превышает двух десятков, а для модемного или спутникового канала кабельная система и вовсе соединяет только два компьютера)
Рис. 14 Пример кабельной системы: три компьютера
Отсюда вывод: Нельзя построить глобальную сеть с помощью о д н о й – е д и н с т в е н н о й кабельной системы.
Интернет должен состоять из нескольких кабельных систем. Побороли ограничения кабельных систем просто: в некоторые компьютеры вставили два или более сетевых интерфейса. Программное обеспечение компьютера с несколькими сетевыми интерфейсами должно принимать решение о том, в какую кабельную систему следует направить прибывшую через тот или иной сетевой интерфейс информацию – выбрать для информации маршрут. Отсюда название для таких компьютеров – маршрутизаторы (англ. router). Маршрутизаторами могут быть обычные персоналки (есть даже ПО маршрутизатора для MSDOS, называемое K A 9 Q , и работающее на IBM/PC-AT/286 ; - ) , но чаще это Unix-машины или специализированные компьютеры, не имеющие даже ни дисплея. ни клавиатуры. Основная функция маршрутизатора – быстрая маршрутизация, поэтому специализированные маршрутизаторы недешевы – их стоимость может достигать десятков и сотен тысяч долларов.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
36
Рис. 15 Маршрутизаторы – основа работы Интернета
Организационное строение Интернета Понятно, что у дорогостоящих маршрутизаторов, так же, как и у кабелей, спутниковых и других каналов связи, должен быть хозяин. Из-за того, что не существует единой кабельной системы Интернета, трудно себе представить единую организацию, будь она частная, правительственная, международная или общественная, которая была бы единым хозяином всех кабельных систем и всех маршрутизаторов Интернета. И действительно, такой организации нет. Интернет состоит из отдельных совокупностей кабельных систем и маршрутизаторов, имеющих четко определенные точки связи (интерфейсы) с другими такими совокупностями. На техническом языке такая четко определенная совокупность кабельных систем и маршрутизаторов (не вполне строго) называется автономной системой. Одной или несколькими автономными системами управляет одна организация, называемая провайдером услуг Интернета, или в просторечии "Интернет-провайдером". Во всем мире действует несколько тысяч Интернет-провайдеров. Таким образом, организационно Интернет – это большой кооператив. Управление автономной системой требует больших денег. Как уже говорилось, маршрутизатор может стоить тысячи долларов. Прокладка в центре Санкт-Петербурга одного километра волоконно-оптического кабеля стоит около 10 000 долларов. Поэтому провайдерство – это всегда коммерческая деятельность. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
37
Так называемые "некоммерческие" провайдеры существуют за счет других финансовых источников: государственных средств, благотворительных грантов и др.
Рис. 16 Автономные системы и интерфейсы между ними
Раз Интернет-провайдеры – коммерческие организации, то они должны взаимодействовать друг с другом именно как коммерческие организации, т.е. заключая между собой коммерческие договоры. Но предметом коммерческого договора может быть только товар или услуга. Товар, которым торгуют и/или обмениваются друг с другом провайдеры – это информация, точнее, объем передаваемой информации в единицу времени (т.н. трафик). Провайдеры, чьи автономные системы могут соприкасаться, могут по каким-то причинам и не заключить между собой соглашений о передаче трафика (например, провайдер 5 на рисунке 16 не имеет соглашений с провайдерами 2 и 3). В результате информация в Интернете не всегда распространяется наиболее коротким и быстрым путем – на путь передачи информации влияют многочисленные коммерческие соглашения, заключенные между провайдерами услуг Интернета.
Проблема стандартизации Существующее организационное строение Интернета в виде "кооператива" вызывает удивление: как при такой организации кабели одного провайдера вообще удается воткнуть в компьютеры другого? Ведь для этого необходимы стандарты, а их принятие (и, главное, использование) без единоначалия представляется делом почти невозможным. Формально в Интернет есть "верховный орган". Это Общество Интернет (The Internet Society). В него может вступить любой житель Земли и любая организация может стать В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
38
его коллективным членом. Для личного членства достаточно заплатить вступительный взнос (сто долларов) и регулярно платить ежегодные членские взносы (по сто долларов в год). Каждый член Общества Интернет обладает тремя привилегиями: • • •
Участвовать в ежегодной Конференции Общества Избирать руководящий орган Общества – "Совет Интернета" (Internet Board) Быть избранным в Internet Board
Уже возможность реализации первой привилегии вызывает сомнения – конференции происходят в разных концах света (например, в 1997 г. – в столице Малайзии Куала-Лумпуре), а организационный взнос для участия в конференции составляет обычно несколько тысяч долларов. Соответственно и реализация второй и третьей привилегий становится невозможной, тем более что Совет Интернета состоит всего из двух десятков членов, в число которых, как правило, избираются люди ранга вице-президентов таких компаний как Microsoft и Netscape. Понятно, что такой Совет Интернета – политический орган и не может заниматься подготовкой и утверждением технических стандартов. Для этого при Совете Интернета есть Рабочая Группа по Инженерным Проблемам Интернета (Internet Engineering Task Force – IETF). Если Совет и Общество Интернета во Всемирной Паутине почти никто не упоминает, то аббревиатура IETF встречается там достаточно часто. Именно IETF отвечает за процедуру стандартизации в Интернете. Разработка этой процедуры была одной из первых задач IETF, и выработанная около двух десятилетий назад, эта процедура весьма проста и демократична.
Процедура стандартизации в Интернете Создание стандарта в Интернете происходит следующим образом. Всякий (!) желающий создать стандарт пишет по электронной почте определенным образом оформленное письмо в адрес IETF. Вот пример: Network Working Group Request for Comments: 1866 Category: Standards Track
T. Berners-Lee MIT/W3C D. Connolly November 1995
Hypertext Markup Language – 2.0 Status of this Memo This document specifies an Internet standards track protocol for the Internet community, and requests discussion and suggestions for improvements. Please refer to the current edition of the "Internet Official Protocol Standards" (STD 1) for the standardization state and status of this protocol. Distribution of this memo is unlimited. Abstract The Hypertext Markup Language (HTML) is a simple markup language used to create hypertext documents that are platform independent. HTML documents are SGML documents with generic semantics that are В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
39 appropriate for representing information from a wide range of domains. HTML markup can represent hypertext news, mail, documentation, and hypermedia; menus of options; database query results; simple structured documents with in-lined graphics; and hypertext views of existing bodies of information. HTML has been in use by the World Wide Web (WWW) global information initiative since 1990. This specification roughly corresponds to the capabilities of HTML in common use prior to June 1994. HTML is an application of ISO Standard 8879:1986 Information Processing Text and Office Systems; Standard Generalized Markup Language (SGML). The "text/html" Internet Media Type (RFC 1590) and MIME Content Type (RFC 1521) is defined by this specification. Table of Contents 1. 1.1 1.2 2. 3. 3.1 3.2 3.3 3.4 4.
Introduction ........................................... 2 Scope .................................................. 3 Conformance ............................................ 3 Terms .................................................. 6 HTML as an Application of SGML .........................10 SGML Documents .........................................10 HTML Lexical Syntax ................................... 12 HTML Public Text Identifiers .......................... 17 Example HTML Document ................................. 17 HTML as an Internet Media Type ........................ 18
Далее идет собственно текст предлагаемого стандарта, а завершается проект стандарта списком литературы: 11. References [URI] Berners-Lee, T., "Universal Resource Identifiers in WWW: A Unifying Syntax for the Expression of Names and Addresses of Objects on the Network as used in the World- Wide Web", RFC 1630, CERN, June 1994.
[URL] Berners-Lee, T., Masinter, L., and M. McCahill, "Uniform Resource Locators (URL)", RFC 1738, CERN, Xerox PARC, University of Minnesota, December 1994.
[HTTP] Berners-Lee, T., Fielding, R., and H. Frystyk Nielsen, "Hypertext Transfer Protocol – HTTP/1.0", Work in Progress, MIT, UC Irvine, CERN, March 1995.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
40 [MIME] Borenstein, N., and N. Freed. "MIME (Multipurpose Internet Mail Extensions) Part One: Mechanisms for Specifying and Describing the Format of Internet Message Bodies", RFC 1521, Bellcore, Innosoft, September 1993.
[RELURL] Fielding, R., "Relative Uniform Resource Locators", RFC 1808, June 1995
Получив такое письмо, IETF присваивает ему порядковый номер и выставляет его в определенном месте Интернета на всеобщее обозрение под заголовком Request For Comment (требуются замечания). Если в течении шести месяцев замечаний не последовало, стандарт считается принятым. (Если замечания все же были, начинает действовать достаточно сложная процедура согласования мнений, но в большинстве случаев согласование происходит до написания проекта стандарта.) Такого рода стандарт так и называется – RFC (по первым буквам от Request For Comment). Рядом с аббревиатурой RFC указывается номер, присвоенный IETF (см., например, вторую строку в приведенном примере – там стоит номер 1866!). Такого "общественного согласия" хватает для очень строгих стандартов. Например, в соответствии с RFC, каждая сетевая карта должна иметь номер из двенадцати шестнадцатиричных цифр, причем первая пара цифр должна обозначать номер фирмы – изготовителя карты в соответствии со списком, ведущимся IETF. И этот стандарт соблюдают такие гиганты, как 3Com, IBM, Hewlett-Packard, Intel. Конечно, не всегда RFC соблюдаются строго. В 1986 г. Андрей Чернов, работавший тогда в Институте Атомной Энергии им. Курчатова, написал RFC 1422 о кодировании русского алфавита в Интернете. В качестве кодовой таблицы он предложил KOI8. Никто не возражал, о подключении персоналок к Интернету никто еще не думал. В результате получилось то, что получилось – в русском Интернете используются 5 (пять!) разных кодовых таблиц (KOI8-R, MS-DOS CP866, Windows-1251, Mac – для компьютеров Macintosh – и ISO8859-5) – появление последней кодировки связано с тем, что KOI8-R не удовлетворяет требованиям, позволяющим сочетать закодированный этим способом текст с текстами на других европейских языках. Еще менее строго соблюдается RFC, описывающий сетевой этикет. И, все же, силы общественного согласия хватает для обеспечения работоспособности Интернета. IETF разработало и следующий уровень стандартизации в Интернете – Internet Standard (Стандарт Интернета). Стандартизация на этом уровне требует красивого печатного оформления и утверждения голосованием Совета Интернета. Немногие документы удостоились такой чести: Вид стандарта Количество стандартов данного вида Интернета Internet Standard RFC
около 60 около 3000
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
41
Забавно, что среди Стандартов Интернета (с большой буквы) есть и такой: "Процедура стандартизации в Интернете". На нескольких занятиях мы будем изучать то, что написано в различных RFC. Конечно, мы не будем досконально изучать сами RFC – оставим это занятие инженерам. Но теперь ясно, в какой документ смотреть, чтобы разрешить тот или иной спор – в RFC ([http://www.rfc-editor.org/] ).
Понятие о сетевых протоколах. Протоколы физического уровня Рассмотрим сначала простейшую кабельную систему, связывающую три компьютера (см. Рис. 14).Эту систему можно изобразить в виде канала с водой; каждый компьютер – это человечек с шестом в руке (сетевым интерфейсом).
Рис. 17 Кабельная система
Если, например, компьютеру №1 необходимо передать информацию компьютеру №2, то первый компьютер-человечек начинает болтать палкой в воде ("драйвер дает команду сетевой карте, а та возбуждает электромагнитные волны в кабеле"), а компьютер №2 (и №3, только последний игнорирует эту волну) воспринимает волну как носитель информации.
Рис. 18 Передача информации от компьютера №1 к компьютеру №2
Возможна, однако, ситуация, когда что-то захотят передать одновременно два компьютера (например, №1 и №3). В этом случае в "канале" компьютера №2 возникает волновая "каша":
Рис. 19 Столкновение несущей
Понятно, что для того, чтобы разобраться, что происходит в этом случае, компьютер №2 "должен что-то предпринять". Возможны различные варианты, например, такие: •
Не делать ничего. Не получив ответа, компьютеры, начавшие передачу, сами разберутся, что им следует делать.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
42 •
•
Сильно стукнуть палкой по воде ("замолчите все!") и предоставить компьютерам №1 и №3 выждать случайный промежуток времени, а затем возобновить передачу – кому первому повезет, с тем и будем работать. Сильно стукнуть палкой по воде ("замолчите все!"), а затем стукнуть палкой один раз, что будет означать: "первым буду слушать компьютер №1".
Но эти действия должны понимать (и в аналогичных случаях применять) все соседи-компьютеры – необходим полный свод строгих правил на все подобные случаи. Такой свод правил называется протокол. Протокол (или протоколы) возникает тогда, когда возможны различного рода недоразумения, и эти недоразумения следует предусмотреть и предписать способы и правила действий. В обычной жизни мы, например, иногда слышим о дипломатическом протоколе. Вот пример ситуации, с которой помогает справляться дипломатический протокол. Представим себе кабинет министра иностранных дел. К министру приходит посол. В какое из пяти кресел министр должен усадить посла? (Рис. 20) А если кабинет у министра немного другой?
Рис. 20 Кабинеты министра
Дипломатический протокол дает однозначный ответ на этот вопрос. В первом случае посла следует усадить в кресло №4, а во втором – в кресло №2, следуя правилу: "гостя сажают лицом к окну и ближе к себе" Почему лицом к окну, – спрóсите вы. Ответ придет из средних веков, когда гость должен был видеть двор и движение охраны в нем – нет ли подготовки к его пленению и не появились ли враги. Точно так же, как и в дипломатическом протоколе есть исторические элементы, так и в протоколах Интернета есть моменты, обусловленные технологией вчерашнего дня, кажущиеся сегодня странными и/или даже неуместными. Но, пока новое RFC не отменило существующий протокол, этот протокол продолжает действовать.
Протоколы сетевого уровня Итак, прежде всего должны существовать протоколы, обеспечивающие надежное распознавание [электромагнитных] волн, распространяющихся в кабельных системах. Эти протоколы называют протоколами физического уровня, поскольку они имеют дело с физическими явлениями. Нас, однако, интересует не физика, а передача информации. Программы, работающие в компьютерах, должны подготавливать какие-то фрагменты информации для того, чтобы сетевой интерфейс превратил эти фрагменты информации в волны (конечно, действуя в соответствии с протоколами физического уровня). В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
43
Протоколы, которые описывают, как должны быть устроены такие информационные фрагменты и как должен действовать компьютер, получив (или не получив вовремя) такой фрагмент информации, называются протоколами сетевого уровня. Единица информации, передаваемая на данном уровне
Название уровня Сетевой Network Физический Physical
Кадр Волна (условно)
|Заголовок|-------|Хвост| ||
~~~~~~~~
~~~
~~~
Фрагмент информации, с которым имеют дело протоколы сетевого уровня, называется кадр. Кадр должен быть приспособлен к наилучшему преобразованию его в волны, следовательно протоколы сетевого уровня ориентированы на конкретную кабельную систему (или несколько кабельных систем). Кадр состоит из информационной части (| - - - - - - - | ),заголовка и так называемого "хвоста". Информационная часть кадра несет полезную информацию. Заголовок используется для передачи служебной информации – как минимум, заголовок должен содержать номер сетевого интерфейса, которому предназначен кадр ("Куда"); как правило, в заголовке указывается и номер сетевого интерфейса, который отправляет данный кадр ("Откуда"), и некоторая управляющая информация (например, что данный кадр является ответом на другой, посланный ранее).
Обнаружение ошибок передачи "Хвост" предназначен для так называемой контрольной суммы. Смысл контрольной суммы легче всего продемонстрировать на примере Международного Стандартного Книжного Номера (ISBN), который сейчас наносится на любую книгу (на обратной стороне титульного листа). Например, книга Джейсона Менджера "JavaScript: Основы программирования", изданная в 1997 г. издательством BHV (Киев), имеет два ISBN: 0-07-882234-3 и 5-7315-0010-Х Каждый имеет по 10 цифр (тире не считаем). Последняя цифра – это и есть контрольная сумма ("хвост"), добавляемая в ISBN для того, чтобы выполнялось следующее правило: Умножим первую цифру ISBN на 10; умножим вторую цифру ISBN на 9; умножим третью цифру ISBN на 8; умножим четвертую цифру ISBN на 7; умножим пятую цифру ISBN на 6; умножим шестую цифру ISBN на 5; умножим седьмую цифру ISBN на 4; умножим восьмую цифру ISBN на 3; умножим девятую цифру ISBN на 2; все сложим и добавим десятую цифру (если на десятом месте стоит X, то это означает "10").
Остаток должен делиться на 11. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
44
Таким образом всегда можно проверить, правильный ли ISBN используется, и даже определить, в какой цифре ISBN допущена ошибка (номер ошибочной цифры равен остатку от деления). Контрольные суммы, добавляемые в "хвост" кадра, устроены гораздо сложнее и учитывают виды ошибок, которые могут возникать в конкретных кабельных системах. Например, контрольные суммы, добавляемые в кадр при работе через модем, определяются протоколом V.42. К счастью, обычному пользователю никогда не приходится заниматься анализом целостности кадра – за него это делает программное обеспечение (драйверы).
Размер кадра. MTU Что приходится учитывать обычному пользователю, так это тот факт, что кадр всегда имеет ограниченный и притом весьма небольшой размер. Размер информационной части кадра измеряется в символах (байтах) и называется Maximum Transfer Unit – MTU. Для наиболее распространенной кабельной системы локальных сетей Ethernet MTU составляет 1500 байтов, а для модемного соединения – всего 576 байтов, хотя может быть изменен. Повышение MTU модемного соединения при хорошем соединении может значительно повысить скорость передачи данных. Для настройки MTU Windows'95/98 имеются специальные бесплатные программы.
Межсетевой уровень протоколов. Протокол IP. Только что рассмотренный сетевой уровень протоколов ограничен одной кабельной системой. Интернет же, как мы знаем, состоит из многих кабельных систем, соединенных маршрутизаторами. Для передачи информации из одной кабельной системы в другую – а только так и можно передать информацию на другой конец Земного шара – существует протокол более высокого уровня – межсетевого (по-английски – Internet) – Internet Protocol, сокращенно IP. Название уровня
Единица информации, передаваемая на данном уровне
Межсетевой Датаграмма Internet Сетевой Network
Кадр
Физический Волна Physical (условно)
|Заголовок|-----------| |Заголовок|-------|Хвост| ||
~~~~~~~~
~~~
~~~
Единица информации, передаваемая на межсетевом уровне, называется датаграммой. Размер датаграммы может достигать 65 536 байтов, и поэтому датаграмма часто не помещается в один кадр. Протоколы межсетевого и сетевого уровня, взаимодействуя, разрезают датаграмму на последовательность кадров, которые один за другим передаются в сетевой интерфейс. При приеме датаграммы происходит обратный процесс. Если маршрутизатор соединен с кабельными системами, имеющими разные MTU, при передаче датаграммы может происходить ее переразрезание.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
45
Рис. 21 Разрезание датаграммы на кадры
Датаграмма, так же как и кадр – это просто последовательность символов (байтов). Так же, как и в кадре, в заголовке датаграммы записывается адресная информация – куда и откуда отправлена датаграмма. Но, в отличие от кадра, эти адреса уже не ограничены одной кабельной системой, а должны описывать пункты назначения во всем Интернете. Поэтому нам придется заняться этими адресами более подробно.
Нумерация сетевых интерфейсов Поскольку адреса отправления и назначения датаграммы записаны в ее заголовке, изучим его повнимательнее. Заголовок датаграммы – это просто последовательность символов, которую, конечно, можно просто вытянуть в строчку. Однако мне удобнее записывать заголовок датаграммы группами по 4 символа (для каждого символа я отведу клеточку). В соответствии с протоколом под адреса отведены два ряда заголовка – четвертый и пятый: начало заголовка
ОТ КУ Д К У Д
А А конец заголовка
Рис. 22 Стандартный заголовок датаграммы протокола IP версии 4 составляет 24 байта
Как это – всего по четыре символа на адрес? Да мы на конверте больше пишем! Давайте разбираться. Сначала разберемся с тем, что же следует адресовать. В Интернете адрес присваивается сетевому интерфейсу, поскольку именно из сетевого интерфейса информация в виде датаграммы отправляется гулять по кабельным системам и маршрутизаторам, а на другом сетевом интерфейсе путь датаграммы заканчивается. Но если адрес сетевого интерфейса записывать четырьмя символами, то с пониманием так записанного адреса в разных странах возникнут проблемы. Например, сочетание "НВСХ" означает совершенно разные символы в кириллице (русском алфавите) и латинице (западных алфавитах). Поэтому договорились записывать Интернет-адрес не символами, а их кодами. Каждый символ представляется одним байтом, в котором помещаются значения от 0 до 2 5 5 . Таким образом, Интернет-адрес – это четыре числа, каждое из которых лежит в диапазоне [ 0 – 2 5 5 ] . Чтобы при записи эти числа не сливались между собой (что значит 1 2 3 4 5 ? Это 1 2 3 4 5 или 1 2 3 4 5 или . . . ?), договорились между этими числами ставить точки (1 1 . 1 . 1 . 1 , например). Таким образом, ИнтернетВ.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
46
адреса изменяются от 0 . 0 . 0 . 0 до 2 5 5 . 2 5 5 . 2 5 5 . 2 5 5 . Из-за такой записи их часто называют номерами, а поскольку эти "номера" используются в протоколе межсетевого уровня (Internet Protocol, сокращенно IP), то за адресами сетевых интерфейсов закрепилось название "IP-номера". Теперь легко сосчитать, сколько же может быть IP-номеров: 2 5 6 4 = 4 2 9 4 9 6 7 2 9 6 – четыре миллиарда! Не так уж и мало! На самом деле не так уж и много. Целые большие группы IP-номеров, например, используются для служебных целей. Кроме того существует необходимость обеспечить уникальность IP-номеров для всех сетевых интерфейсов Интернета. Для этого необходимо существование центрального органа для всего Интернета. Немыслимая вещь! Но, тем не менее, такой орган существует. Он называется "The Internet Corporation for Assigned Names and Numbers – "Корпорация Интернет по распределению имен и номеров" ([http://www.icann.org] ). Эта некоммерческая организация выделяет большие блоки IP-номеров региональным организациям, управляющим распределением IP-номеров. В Европе такой организацией является RIPE NCC – Réseaux IP Européens Network Coordination Center ([http://www.ripe.net] ), расположенный в Париже. Региональные организации выделяют меньшие блоки IP-номеров для национальных организаций. В России это Российский научно-исследовательский институт развития общественных сетей – РОСНИИРОС (www.ripn.net – http://www.ripn.net). Любой желающий получить IP-номер для своего сетевого интерфейса может обратиться в РОСНИИРОС, заполнить анкету и получить один или несколько IP-номеров. Правда, через два года придется отчитаться – использовался ли номер,– а если не использовался, то РОСНИИРОС его отберет и два года не даст нового. Понятно, что такой способ распределения IP-номеров (блоками) приводит к их быстрому исчерпанию. Тем более, что иногда один сетевой интерфейс должен иметь несколько адресов ("дом на углу Садовой и переулка Крылова"), а есть еще и странные устройства вроде замков в дверях здания компании Петерстар или СВЧ-печей, управляемых через Интернет, есть страна Финляндия, в которой один IP-номер приходится на 7 жителей! Уже несколько лет общественность Интернета понимает, что 4 миллиарда IP-номеров близки к исчерпанию. Обсуждается новая (шестая) версия протокола IP, в которой заголовок датаграммы будет удлинен до 32 байтов, а адреса будут вдвое длиннее. Для того, чтобы маршрутизатор (а именно он "читает" заголовки датаграмм) мог определить, с какой версией заголовка он имеет дело, половина самого первого байта заголовка отведена для хранения номера версии (в половину байта помещаются числа от 0 до 16; текущая версия IP-протокола имеет номер 4). начало заголовка
ОТ КУ Д ОТ КУ Д К У Д К У Д
А А А А конец заголовка
Рис. 23 Заголовок датаграммы IPv6 – будущей версии IP-протокола имеет длину 32 байта
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
47
Адресов шестой версии IP-протокола будет примерно по 30 штук на каждый квадратный метр земной поверхности – на какое-то время хватит…
Сетки Как же маршрутизаторы справляются с существующими четырьмя миллиардами IP-номеров? Ведь они должны по номеру сетевого интерфейса – получателя датаграммы – определить, в какой свой сетевой интерфейс отправить эту датаграмму. Это значит, что маршрутизатор должен хранить таблицу из четырех миллиардов строк – понятно, что такую таблицу невозможно быстро обработать (тем более это было невозможно в конце 70-х годов, когда создавались современные версии протоколов Интернета). Для облегчения задач маршрутизации IP-номера разбиты на группы, называемые сетками. Сетки бывают разного размера. Самые большие сетки – сетки класса A . В IP-номерах сетки класса A первое число IP-номера лежит в интервале от 1 до 1 2 7 и является номером сетки; остальные три числа IP-номера нумеруют собственно сетевые интерфейсы. Таким образом, в Интернете существует всего 127 сеток класса A , но в каждой такой сетке может быть до 1 6 7 7 7 2 1 5 сетевых интерфейсов. Сетки класса B – поменьше, в них не более 6 5 5 3 5 сетевых интерфейсов. Первое число в IP-номере, принадлежащем сетке класса B , лежит в интервале от 1 2 8 до 1 9 1 , а для номера сетки используется это число совместно со следующим. Для нумерации собственно сетевых интерфейсов в сетке класса B используются два последних числа IP-номера. Сетки класса C – самые маленькие. В них входят не более по 2 5 4 IP-номера. Первое число в IP-номере сетки класса C лежит в интервале от 1 9 2 до 2 2 3 ; это число и два последующих образуют номер сетки, а последнее число в таком IP-номере – это номер сетевого интерфейса. Таким образом, сеток класса C больше всего. Маршрутизаторы никогда не работают с отдельными IP-номерами. Они работают только с сетками IP-номеров, [правильно] считая, что IP-номера никогда не распределяются поодиночке, а только сетками. К тому же обычно в таблице маршрутизации создается последняя запись (т.н. "шлюз по умолчанию"), определяющая, в какой сетевой интерфейс маршрутизатора следует направить датаграмму, следующую в сетку, для которой в таблице данного маршрутизатора нет явного указания.
Время жизни датаграммы Рассмотрим одну из ситуаций, которые иногда могут встретиться в Интернете, на примере гипотетической сети, состоящей из 8 компьютеров:
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
48
Рис. 24 "Маленький Интернет"
С левой персоналки на Cray отправилась датаграмма. Маршрутизатор №1 должен решить, по какому пути предпочтительнее отправить эту датаграмму. На самом деле все решает администратор маршрутизатора, формируя таблицу маршрутизации и указывая в ней предпочтительный путь. Предположим, что в нашем случае это будет путь к маршрутизатору №2, а от него – к маршрутизатору №3. В момент, когда датаграмма достигает маршрутизатора №3, кабель, ведущий от этого маршрутизатора к Cray Supercomputer, рвется:
Рис. 25 Авария на другом конце Земного шара
Что должен делать маршрутизатор №3? В соответствии с IP-протоколом он "должен предпринять наилучшие действия, ведущие к доставке датаграммы по адресу назначения". Что это могут быть за действия? Отправить датаграмму назад – явно не лучший вариант: раз она пришла оттуда, значит, путь, ведущий через текущий маршрутизатор, был лучшим. Прямой путь отрезан. Значит, остается единственный вариант – отправить
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
49
датаграмму на маршрутизатор №4 в надежде, что там, может быть, найдется кружной, обходной, но все же ведущий к цели путь:
Рис. 26 Авария может вызвать "закольцовывание" маршрута
В свою очередь, маршрутизатор №4 сконфигурирован так, что он "знает" только два пути до Cray Supercomputer: через маршрутизатор №3 (наилучший) и №1 (похуже). В результате датаграмма начинает летать по кольцу. А в это время левый персональный компьютер продолжает слать все новые и новые датаграммы на Cray, не подозревая, что с кабелем на другом конце света что-то не так. В результате маршрутизаторы №№1-4 оказываются перегружены работой по перекидыванию датаграмм, которые не могут быть доставлены на Cray, и компьютеры №5 и №6, у которых со связью все в порядке, не могут связаться друг с другом. Чтобы избежать подобной перегрузки фрагментов Интернета, в заголовке датаграммы присутствует байт, называемый время жизни (Time To Live – T T L ). 4 TTL ОТ КУ Д К У Д
начало заголовка
А А конец заголовка
Рис. 27 Размещение номера версии IP-протокола и байта T T L в заголовке датаграммы
В байте помещается код со значениями от 0 до 2 5 5 – именно эти значения может принимать TT L . При отправке датаграммы программное обеспечение поддержки IP-протокола устанавливает некоторое значение TT L (обычно число 3 0 ), а каждый маршрутизатор, через который проходит датаграмма, уменьшает TT L на единицу. Когда значение TT L станет равным нулю ("жизней не осталось"), очередной маршрутизатор датаграмму выкидывает – доставить не удалось. Таким образом, в кольцах в самых худших случаях летает немногим больше 256 датаграмм. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
50
Но возникает другой вопрос – а хватит ли 30 маршрутизаторов, чтобы добраться до другого конца Земного шара, например, до Австралии или Тайваня? Опыт показывает, что, как правило, хватает. Кроме того, имеются специальные (бесплатные) программы, позволяющие увеличить значение TTL, используемое по умолчанию. Кроме ограниченного времени жизни датаграммы, в Интернете предусмотрены и другие средства борьбы с перегрузками, возникающими из-за отключения отдельных участков. В частности, маршрутизаторы общаются со своими соседями, сообщая о недоступности тех или иных IP-сеток. В результате при повреждении кабеля, ведущего к Cray Supercomputer, через одну минуту ("а вдруг соединение восстановится?") маршрутизатор №3 сообщит о недоступности Cray Supercomputer своим соседям – маршрутизаторам №2 и №4, а еще через минуту они сообщат об этом маршрутизатору №1. В результате левая персоналка при попытке послать датаграмму на Cray Supercomputer будет получать сообщение о его недоступности, и прекратит посылки датаграмм.
Протоколы транспортного уровня Датаграмму можно сравнить с простым письмом – опустил в почтовый ящик, а почта постарается доставить письмо по назначению. Дошло ли письмо, мы никогда не узнаем. Но если мы хотим гарантию доставки письма, то мы используем "почтовый протокол более высокого уровня". Так же, как и для обычного письма, мы пишем на конверте адрес, но вместо того, чтобы кинуть письмо в ящик, идем в почтовое отделение и говорим: "С уведомлением о вручении, пожалуйста!". Сотрудник почты заполняет специальную форму, которую приклеивает к письму. Адресат, получив письмо, отрывает эту форму, расписывается в ней, а почта доставляет эту форму – квитанцию уведомления – обратно к отправителю. Так и в Интернете существует так называемый транспортный уровень протоколов, на котором есть Transmission Control Protocol – TCP, обеспечивающий гарантированную доставку информации. Единица информации, с которой имеет дело TCP, называется пакет. Название уровня Транспортный Transport
Единица информации, передаваемая на данном уровне Пакет
Межсетевой Датаграмма Internet Сетевой Network
Кадр
Физический Волна Physical (условно)
|Заголовок|-----------|
|Заголовок|-----------| |Заголовок|-------|Хвост| ||
~~~~~~~~
~~~
~~~
Строго говоря, пакет может иметь произвольный размер. При необходимости программное обеспечение разрезает пакет на меньшие части, помещаемые в отдельные датаграмВ.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
51
мы аналогично нарезанию датаграмм на кадры. Однако, как правило, применяется другой подход: размер пакета выбирается достаточно малым, чтобы полученная из одного пакета единственная датаграмма помещалась в один-единственный кадр. Этот подход называется инкапсуляцией. В отличие от почты, части адреса "Куда" и "Кому" в протоколах Интернета разделены. Как мы знаем, "Куда" пишется в заголовке датаграммы, но пакеты T C P предназначены не просто сетевому интерфейсу, но определенной программе, работающей на компьютере, содержащем сетевой интерфейс назначения. На этом компьютере может работать несколько программ одновременно (например, WWW-сервер, почтовый сервер и FTPсервер). Для того, чтобы различить программу-получателя пакета, в заголовке пакета присутствует поле "Кому" – "Порт назначения". Аналогично почтовому конверту, заголовок T C P пакета имеет и поле "От кого" – "Порт источника". Порт источника
Порт назначения
начало заголовка
конец заголовка Рис. 28 Размер заголовка T C P -пакета составляет 20 байтов
Из таблицы видно, что порт описывается двумя байтами, т.е. может принимать значения от 0 до 2 5 6 2 – 1 = 6 5 5 3 5 . Каждому значению порта (говорят "каждому порту") соответствует та или иная программа на компьютере, подключенном к Интернету. Первые 1 0 2 4 порта жестко закреплены за определенными программами (например, порт 2 1 – F T P , порт 8 0 – W W W , порт 2 1 0 – Z 3 9 . 5 0 ), остальные порты могут использоваться программами произвольно. Протокол T C P предназначен для передачи не только и не столько одного-единственного пакета, сколько для передачи потока пакетов. Для этого в протоколе T C P предусмотрена организация сеанса между интерфейсом-отправителем и интерфейсом-получателем. В начале сеанса по инициативе интерфейса-отправителя оба этих интерфейса обмениваются короткими пакетами, подтверждающими установление соединения и способ нумерации последующих пакетов (чтобы можно было бы правильно восстановить поток пакетов на приемном конце). На каждый отправляемый пакет интерфейс-получатель должен посылать пакет – квитанцию с уведомлением о получении. Если такое подтверждение не приходит в течение определенного промежутка времени, то пакет считается пропавшим, и отправитель начинает повторные пересылки пакета. После передачи всех необходимых пакетов потока интерфейс-отправитель посылает специальный пакет с уведомлением о разрыве соединения и, получив на него подтверждение, считает, что сеанс окончен. Вся процедура примерно соответствует телефонному звонку (набор номера – установление соединения) с разговором и разъединением. Если в процессе разговора получать подтверждение, что каждое сказанное слово услышано, то разговор будет идти слишком медленно. Так и в протоколе T C P предусмотрена возможность получать (и посылать) подтверждения приема пакетов не на каждый пакет, а на группу пакетов, что позволяет получить очень высокие скорости передачи данных в случае малого числа ошибок канала.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
52
Протоколы T C P и I P в ходе совместной работы должны решать непростые задачи: датаграммы могут передаваться разными путями и, следовательно, датаграммы, на которые мог быть разбит какой-то пакет потока (сеанса) могут поступать к интерфейсу-получателю не в том порядке, в котором они были отправлены; более того, датаграмма, принадлежащая пакету, отправленному позже, может придти ранее датаграммы, принадлежащей более раннему пакету. Программы-драйверы, реализующие пару протоколов T C P / I P , должны уметь разбираться во всех таких ситуациях, правильно собирая пакеты и восстанавливая правильную последовательность пакетов в сеансе. Два протокола – T C P и I P – составляют техническую основу функционирования Интернета, поэтому Интернет часто определяют так:
Интернет – это совокупность компьютерных сетей, функционирующих на основе протоколов T C P / I P
Протоколы приложений Когда мы отправляем письма, наша цель – отнюдь не надписать конверт. Письмо отправляется ради того, что лежит внутри конверта – сообщения. Как написано сообщение, знают только два лица – отправитель и получатель. Точно так же и в Интернете существуют протоколы самого высокого уровня – протоколы уровня приложения. Единица информации, передаваемая на этом уровне, называется сообщением. Формат и размер сообщения определяются приложениями – парой программ, работающих на компьютерах, между которыми установлено соединение. Название уровня
Единица информации, передаваемая на данном уровне
Приложения Application Сообщение Транспортный Transport
Пакет
Межсетевой Датаграмма Internet Сетевой Network
Кадр
Физический Волна Physical (условно)
|------------------------|
|Заголовок|-----------|
|Заголовок|-----------| |Заголовок|-------|Хвост| ||
~~~~~~~~
~~~
~~~
Рис. 29 Пятиуровневая модель протоколов Интернета
Во многих случаях, однако, протоколы уровня приложения используют схожие форматы сообщений. Что важно, некоторые служебные части сообщений иногда появляются у нас В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
53
на экране, сопровождаемые не всегда понятными комментариями. Чтобы быть готовыми к таким ситуациям, давайте познакомимся с этими форматами. В протоколах уровня приложений обычно одну из сторон (взаимодействующих программ) называют клиентом, а другую – сервером. Клиент посылает серверу сообщениякоманды, а в ответ на каждую команду получает сообщение-ответ. Формат команды следующий: : : ...
или < I n s > ).
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
67
Рис. 38 Программа D O S K E Y запомнит ваши действия в сеансе MS-DOS Windows 95/98/ME
Теперь можно перейти к изучению программы p i n g . Простейший способ запуска программы p i n g – это указать ей единственный параметр – доменное имя или IP- номер:
Рис. 39 Программе p i n g в качестве параметра можно указать IP-номер любого сетевого интерфейса
Именно так и следует проверять работоспособность DNS провайдера в случае каких-то подозрений – указав программе p i n g ее IP-номер. По умолчанию p i n g формирует датаграмму размером 32 байта (+24 байта заголовка, итого 56 байтов), и отправляет ее по указанному адресу. В заголовке датаграммы p i n g выставляет команду, требующую вернуть обратно подтверждение о прибытии этой датаграммы (с помощью специального диагностического протокола I C M P ). Из времени прибытия ответа вычитает время отправления датаграммы и делит результат пополам, проделывая это 4 раза. Процесс отправки такой датаграммы и получения ответа напоминает игру в настольный теннис (пинг-понг), отсюда и название программы. Сам процесс имеет также жаргонное название "пингование". Результаты работы выводятся в следующем виде: Pinging 195.19.194.66 with 32 bytes of data: 195.19.194.66 Что пингуем 32 bytes of data Каков размер датаграммы
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
68 Reply from 195.19.194.66: bytes=32 time=140ms TTL=254 Reply from 195.19.194.66: Ответ от bytes=32 Размер датаграммы time=140ms Время ответа (в тысячных долях секунды – миллисекундах) TTL=254 Время жизни (Time To Live) датаграммы в момент ее прихода в пункт назначения ...
Не всегда время ответа бывает такое небольшое:
Рис. 40 Пингуем тайваньский сервер
До Тайваня датаграммы летят долго – около 1 секунды, а иногда настолько долго, что p i n g считает, что ответа уже никогда не будет, отмечая этот факт строкой Request timed out
(Точные слова, которые выводит в той или иной версии операционной системы, могут несколько различаться – например, в русских Windows p i n g выводит результаты своей работы по-русски).
Ключи программы ping Кроме адреса компьютера, связь с которым подлежит проверке, при запуске p i n g можно использовать так называемые ключи. Наиболее важные из них: - w < ч и с л о > – установить время ожидания ответа равным < ч и с л о > миллисекунд [строчная буква W] -l
– установить размер информационной части посылаемой датаграммы равным < ч и с л о > байтов [строчная буква L]
-t
– работать не 4 раза, а непрерывно
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
69
Время ожидания ответа (- w ) Вспомним (Рис. 40), что пингование тайваньского сервера не всегда давало ответ (стандартное время ожидания ответа составляет около 1 секунды). Увеличение времени ожидания до 6 секунд (6000 миллисекунд) улучшает ситуацию:
Рис. 41 Ответ тайваньского сервера при увеличенном времени ожидания
Таким образом можно попробовать отличить ситуацию полного отсутствия связи от медленного или перегруженного канала. Если время ответа превышает 2 секунды, работа с Всемирной Паутиной становится крайне ненадежной. Другие протоколы предъявляют еще более жесткие требования (f t p – 1 секунда, многие игры – не более 200 мсек).
Размер информационной части посылаемой датаграммы (- l ) По умолчанию размер информационной части посылаемой датаграммы равен 32 байта (символа). Реальные датаграммы имеют больший размер, так что имеет смысл оценивать время отклика для больших датаграмм. Датаграмма размером 10000 байтов обрабатывается гораздо медленнее, чем датаграмма стандартного размера (она, конечно, была фрагментирована при разрезании на кадры; реальные датаграммы редко имеют размер, превышающий 1500 байтов). Для того, чтобы получить ответ для датаграммы такого размера, пришлось увеличить время ожидания ответа:
Рис. 42 Время ожидания ответа для датаграммы размером 10000 байтов
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
70
Непрерывная работа p i n g (- t ) Наконец, можно заставить p i n g работать не четыре раза, а непрерывно. Для прекращения его работы в таком режиме следует нажать сочетание клавиш :
Рис. 43 Непрерывный режим работы p i n g
Применение p i n g для увеличения скорости передачи данных Поскольку p i n g для обратной передачи информации использует специальный диагностический протокол I C M P , иногда пингование сервера увеличивает скорость передачи данных с этого сервера. В случае перегрузки какого-либо маршрутизатора по пути от сервера к клиентскому компьютеру этот маршрутизатор начинает понижать приоритет TCP-соединения. ICMP-пакет, проходящий через маршрутизатор, и имеющий те же адреса отправителя и получателя, что и TCP-соединение, "заставляет" маршрутизатор "забыть" о приоритете TCP-соединения, т.е., фактически, вернуть этот приоритет к его начальному значению. Этим приемом следует пользоваться с осторожностью, т.к. все-таки создает на сеть дополнительную нагрузку. Необходимо устанавливать небольшой размер информационной части (я обычно использую 0 ) и повышать время ожидания ответа (скажем, до 3 сек). С другой стороны, при сильной перегрузке Интернета необходимо запускать p i n g в непрерывном режиме, поскольку понижение приоритета соединения может происходить весьма быстро. Существуют ситуации, когда никакие ухищрения с p i n g не помогают – сервер может быть защищен брандмауэром. Попробуйте, например, послать p i n g на сервер компании Microsoft: p i n g w w w. m i c r o s o f t. c o m
Ответом всегда будет таймаут.
Диагностика Интернета: программа t r a c e r o u t e (t r a c e r t . e x e ) Кроме программы p i n g , во всех операционных системах имеется и другая диагностическая программа, называемая в Unix "t r a c e r o u t e ", а в Windows – "t r a c e r t . e x e " (от trace route – проследить маршрут). В Windows она, как и p i n g , работает в окне сеанса MS-DOS, и, как и p i n g , может запускаться с единственным параметром – доменным именем или IP-номером сервера, путь к которому хочется проследить: В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
71
Рис. 44 Запускаем программу t r a c e r t . e x e
Программа t r a c e r t формирует TCP-пакет с небольшим объемом данных, который отправляет на порт 3 2 7 6 7 (в надежде, что ни одна программа сервера не использует этот порт, – чтобы не помешать работе сервера). Время жизни в соответствующей датаграмме ставится равным 1, и в результате эта датаграмма "умирает" на первом же маршрутизаторе. Однако в датаграмме устанавливается команда, требующая ответа – сообщения о ее "смерти". Так удается определить IP-номер и доменное имя первого маршрутизатора (точнее, того его сетевого интерфейса, который находится ближе всего к компьютеру, на котором была запущена программа ), а также время пролета датаграммы до первого маршрутизатора. Затем в датаграмме ставится время жизни 2, и она "умирает" на втором маршрутизаторе по пути, ведущем к серверу с именем, указанным параметром программе . И так далее… пока не доберемся до цели. На самом деле t r a c e r t с каждым значением времени жизни делает три попытки, сообщая время пролета датаграммы в каждой попытке. Вслед за тремя значениями времен пролета датаграммы t r a c e r t сообщает доменное имя маршрутизатора и его IP-номер (в квадратных скобках). Точный формат вывода результата работы может несколько отличаться в различных операционных системах или в различных версиях операционных систем. Запуская t r a c e r t , можно многое узнать о том, как устроен Интернет. Посмотрим путь к известному питерскому провайдеру :
Рис. 45 Маршрут из сети РОКСОН в сеть ВебПлас
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
72
Начало имени первого маршрутизатора (v o - g w . . . ) расшифровывается так: VassileOstrovsky GateWay – Василеостровский шлюз РОКСОН (n w . r u ). S P I I R A S – это СПИИРАН – Санкт-Петербургский Институт информатики Российской Академии Наук.
Дальше не все поддается расшифровке, но L E R G O – это Ленэнерго. Доменное имя маршрутизатора №8 программе t r a c e r t установить не удалось – его нет в DNS. Девятый маршрутизатор (m 9 - i x . r u n n e t . r u ) принадлежит Российской университетской сети R U N n e t и находится уже в Москве, на телефонной станции в южной части Москвы. Там же находится и маршрутизатор сети w p l u s . n e t (m 9 - i x . w p l u s . n e t ). i x в именах маршрутизаторов обозначает Exchange – точку обмена трафиком между провайдерами. Далее маршрут пролегает по сети компании ВебПлас. Оказывается, путь из Петербурга в Петербург лежит через Москву! Это не исключение. Вот еще пример: путь к серверу петербургского отделения Института "Открытое Общество" (Фонд Сороса). Не так давно путь на некоторые серверы московской компании DEMOS пролегал через американский штат Флорида.
Рис. 46 Маршрут из сети РОКСОН в сеть ИОО
Ключи программы t r a c e r t У программы t r a c e r t есть ключи. Наиболее важные из них: - w < ч и с л о > – установить время ожидания ответа равным < ч и с л о > миллисекунд [строчная буква W] -h
– проследить маршрут не далее маршрутизаторов
-d
– отказаться от определения доменных имен маршрутизаторов
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
73
Первый ключ аналогичен такому же ключу программы p i n g , и позволяет получить ответ в тех ситуациях, когда время ответа велико (превышает 1 секунду). В случаях, когда t r a c e r t не удается дождаться ответа, вместо времени ответа t r a c e r t выводит звездочку:
Рис. 47 Таймаут при работе t r a c e r t
Отказ от определения доменных имен (- d ) уменьшает нагрузку на сеть (две звездочки на втором маршрутизаторе связаны с ухудшением качества модемного подключения моего компьютера):
Рис. 48 Отказ от определения доменных имен маршрутизаторов ускоряет работу
tracert
Диагностика Интернета: обнаружение циклов Программа t r a c e r t позволяет диагностировать встречающуюся ошибку в конфигурировании маршрутизаторов – циклы, когда датаграмма летает между портами одних и тех же маршрутизаторов. Симптомом такой ошибки служит недоступность сервера, о существовании которого заведомо известно. Запустив t r a c e r t на такой сервер, мы можем получить одну из трех ситуаций: •
•
сообщение типа H o s t u n r e a c h a b l e или N e t u n r e a c h a b l e , означающие действительную недоступность сервера, диагностированную другим, более близким к нам маршрутизатором нормальное завершение маршрута
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
74 •
имена и IP-номера маршрутизаторов начинают повторяться (с некоторого места в маршруте)
В первом случае, если маршрутизатор, который сообщает о недоступности нужного вам сервера, находится далеко, остается только ждать, когда соединение восстановится (пару лет назад ошибка в сети Microsoft отрезала на две недели четверть Северной Америки). Если близко – звоните провайдеру – хозяину маршрутизатора, за которым "ничего не видно", и выясняйте, что случилось и когда починят. Второй случай означает, что компьютер и операционная система требуемого сервера работают, но нужное программное обеспечение (WWW- или FTP- или почтовый или какойнибудь другой серверы) не работает. Остается только ждать. (Конечно, если вы знаете, как добраться до администратора сервера, имеет смысл это сделать.) Третий случай – это и есть цикл. Если такой цикл появился близко к вам (скажем, в сети вашего провайдера) – можно снять телефонную трубку и сообщить об этом провайдеру, назвав IP-номера, на которых наблюдается цикл (иначе вам могут не поверить). Если цикл далеко (я однажды наблюдал цикл в сети Министерства юстиции США) – остается только ждать, пока соответствующие администраторы исправят ошибку.
Кодовые таблицы Для передачи символьной информации компьютер использует числа. Каждый символ имеет свое числовое представление – код. Вообще говоря, соответствие между символом (имеющим графическое представление – "глиф") и его кодом произвольно, достаточно лишь, чтобы существовало какое-нибудь соглашение, которого придерживались бы все разработчики программного обеспечения. Для латинских символов такое соглашение было достигнуто давно. Им стала кодовая таблица ASCII (American Standard Code for Information Interchange): ! 034 " 035 # 037 % 038 & 039 ' 040 ( 041 ) 042 * 043 + 044 , 045 - 046 . 047 / 048 0 049 1 050 2 051 3 052 4 053 5 054 6 055 7 056 8 057 9 058 : 059 ; 060 < 061 = 062 > 063 ? 064 @ 065 A 066 B 067 C 068 D 069 E 070 F 071 G 072 H 073 I 074 J 075 K 076 L 077 M 078 N 079 O 080 P 081 Q 082 R 083 S 084 T 085 U 086 V 087 W 088 X 089 Y 090 Z 091 [ 092 \ 093 ] 094 ^ 095 _ 096 ` 097 a 098 b 099 c 100 d 101 e 102 f 103 g 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w 120 x 121 y 122 z 123 { 124 | 125 } 126 ~ 032
033
Рис. 49 Кодовая таблица A S C I I
А вот что касается кириллицы – символов алфавита русского и некоторых других языков – то ей повезло меньше. Для кириллицы существует несколько кодовых таблиц. Одна из них используется операционными системами Microsoft Windows: 168
Ё 184 ё 192 А 193 Б 194 В 195 Г 196 Д 197 Е 198 Ж 199 З 200 И 201 Й 202 К 203 Л
204
М 205 Н 206 О 207 П 208 Р 209 С 210 Т 211 У 212 Ф 213 Х 210 Ц 215 Ч 216 Ш 217 Щ
218
Ъ 219 Ы 220 Ь 221 Э 222 Ю 223 Я 224 а 225 б 226 в 227 г 228 д 229 е 230 ж 231 з
232
и 233 й 234 к 235 л 236 м 237 н 238 о 239 п 240 р 241 с 242 т 243 у 244 ф 245 х
246
ц 247 ч 248 ш 249 щ 250 ъ 251 ы 252 ь 253 э 254 ю 255 я Рис. 50 Кодовая таблица w i n d o w s - 1 2 5 1
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
75
Другая – Unix: 163
ё 174 б 179 Ё 192 ю 193 а 195 ц 196 д 197 е 198 ф 199 г 200 х 201 и 202 й 203 к
204
л 205 м 206 н 207 о 208 п 209 я 210 р 211 с 212 т 213 у 210 ж 215 в 216 ь 217 ы
218
з 219 ш 220 э 221 щ 222 ч 223 ъ 224 Ю 225 А 226 Б 227 Ц 228 Д 229 Е 230 Ф 231 Г
232
Х 233 И 234 Й 235 К 236 Л 237 М 238 Н 239 О 240 П 241 Я 242 Р 243 С 244 Т 245 У
246
Ж 247 В 248 Ь 249 Ы 250 З 251 Ш 252 Э 253 Щ 254 Ч 255 Ъ Рис. 51 Кодовая таблица k o i 8 - r
В кодовых таблицах Windows (в обозначениях, введенных Microsoft, и принятых в Интернете, "w i n d o w s - 1 2 5 1 ") и Unix ("k o i 8 - r " от "Код Обмена Информацией 8-битный") используются почти одни и те же кодовые значения, но обозначают они совершенно разные символы. Поэтому многие программы просмотра Интернета позволяют выбрать кодировку, а "умные" WWW-серверы читают текущую кодировку броузера и выдают документ уже в нужной кодировке. Зачастую, однако, создатель и/или читатель страницы должен заботиться о правильной кодировке сам.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
76
Введение в HTML Понятие о разметке Введение Всемирная паутина состоит из так называемых HTML-документов – текстовых документов, размеченных с помощью языка HTML. Этот язык создает в документе структуру, различным образом выделяя разные составляющие документа, и внося в документ новые компоненты, иногда невидимые простым глазом, но важные для поиска. Поэтому знакомство с (а лучше сказать, знание) HTML необходимо для эффективного поиска документов во Всемирной Паутине. Овладение HTML в совершенстве – задача непростая, требующая значительного времени и усилий. В рамках настоящего курса вы получите представление лишь об основных средствах HTML.
Первые формальные определения HTML-документ – это обычный текстовый документ, в который внесена разметка. HTML-документ состоит из элементов, которые выделяются разметкой. Каждый элемент имеет имя, и может иметь так называемые атрибуты, которые определяют его свойства (например, цвет или размер) Элементы HTML бывают двух и только двух типов: простые элементы, которые существуют сами по себе элементы-контейнеры, которые могут включать размечаемый текст или другие элементы (как простые, так и контейнеры) Разметка осуществляется с помощью ярлыков. Ярлык заключен в угловые скобки ("< ", "> "), и не виден при просмотре HTMLдокумента. Непосредственно за открывающей угловой скобкой (без пробелов!) следует имя ярлыка, а за именем через пробел – атрибуты. Например,
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
77
определяет ярлык с именем b o d y и 8-ю атрибутами (o n L o a d , o n U n l o a d , B A C K G R O U N D , B G C O L O R , T E X T , L I N K , V L I N K и A L I N K ). Простой элемент размечается единственным ярлыком, имя которого совпадает с именем элемента Например, изображение в HTML-документе определяется элементом I M G и размечается с помощью ярлыка < I M G … > , с атрибутами которого мы познакомимся позже. Элемент-контейнер размечается двумя ярлыками – открывающим и закрывающим. Между этими ярлыками помещается содержимое контейнера (например, текст абзаца). Имя открывающего ярлыка элемента-контейнера совпадает с именем этого элемента, а имя закрывающего ярлыка начинается с косой черты ("/ "), за которой следует имя элемента Например, фрагмент текста, набранный моноширинным шрифтом – это элемент-контейнер с именем TT : < TT > м о н о ш и р и н н ы м ш р и ф т о м < / TT >
Создание HTML-документов Теперь мы начнем создавать простые HTML-документы. Это можно делать многими различными способами: • • • •
•
Набрать текст в Microsoft Word и сохранить его как HTML С помощью Netscape Composer С помощью Microsoft FrontPage С помощью других специализированных редакторов HTML (например, этот текст первоначально был написан в редакторе под названием A r a c h n o f i l i a , что означает "л ю б о в ь к п а у к а м ") С помощью обычных текстовых редакторов (например, "Б л о к н о т ", Te x t P a d или < F 4 > в FA R M a n a g e r )
Первые три способа позволяют быстро и не задумываясь получать HTML-документы приличного качества, но совершенно скрывают от нас внутреннюю структуру HTML-документов. Наша же с вами задача – изучить эту структуру с тем, чтобы пользоваться этими знаниями при поиске документов. Так что обратимся к последнему из перечисленных способов – работе в простейшем текстовом редакторе. Для сохранения своей работы создайте какой-нибудь каталог (например, C : \ W W W ). Откройте "Б л о к н о т ": (" П у с к " - > " П р о г р а м м ы " - > " С т а н д а р т н ы е " - > " Б л о к н о т " ), наберите какой-нибудь текст и сохраните его в созданном рабочем каталоге под именем, например, t e x t . h t m l .
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
78
Чтобы это сделать, не забудьте выбрать тип файла "в с е ф а й л ы ", иначе, если вы оставите в качестве типа файлов "т е к с т о в ы е ф а й л ы ( * . t x t ) ", то файл будет сохранен под именем t e x t . t x t или даже t e x t . h t m l . t x t (разные версии Windows поступают слегка по-разному).
Рис. 52 Набираем произвольный текст в "Блокноте"
Рис. 53 Сохраняем текст
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
79
Рис. 54 Для создания HTML-документа в "Блокноте" необходимо указать режим сохранения "Все типы файлов"
После этого можно открыть новое окно броузера (Microsoft Internet Explorer или Netscape Navigator), нажав и в строке А д р е с (L o c a t i o n ) набрать c : \ w w w \ t e s t . h t m l (с обратными косыми!). Броузер сам преобразует набранный вами путь к файлу в U R L (со схемой f i l e : / / и прямыми косыми):
Рис. 55 Обычный текстовый файл тоже можно рассматривать через броузер
Вместо "Блокнота" можно использовать любой другой текстовый редактор, работающий в Windows-кодировке. Именно так – в текстовом редакторе – необходимо изучать, как устроен HTML.
Структура HTML-документа Итак, начнем изучение формальной структуры HTML-документа. HTML-документ – это элемент-контейнер с именем и заканчивается ярлыком < / H T M L > :
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
80 ... здесь все остальное ...
В этом контейнере лежат два других элемента, которые, в свою очередь, также являются контейнерами: H E A D и B O D Y (строго говоря, вместо B O D Y может быть другой контейнер – F R A M E S E T , – но это уже для мастеров):
Контейнер H E A D называется заголовком документа и предназначен для размещения в нем служебной информации о документе; в контейнере B O D Y – теле документа – размещается видимая часть документа – текст и ссылки на изображения. В заголовке документа должен присутствовать еще один контейнер – заглавие – T I T L E : <TITLE>This is my first document
Все остальное в HTML-документе, строго говоря, не обязательно. Обратите внимание на то, что собственно текст заглавия я написал по-английски. Попробуйте создать приведенный выше документ, сохранить его и просмотреть в броузере. Окно броузера будет пустым, но заглавие документа появится. Где?
Заглавие HTML-документа Заглавие HTML-документа очень важно. Оно используется многими поисковыми системами; кроме того, оно появляется во многих местах броузера: на верхней рамке окна броузера, в истории ваших путешествий по Интернету, в закладках и др. Многие из этих мест имеют ограниченную длину (как правило, не более 60 символов). Из этого следует, что заглавие (элемент T I T L E ) должно быть коротким и информационно емким. Вдобавок следует представить себе читателя вашей HTML-страницы, находящегося за компьютером Macintosh или работающим с операционной системой Unix – кодировка кириллицы на рамке окна или в меню истории путешествий по Интернету не во власти пользователя, так что текст заглавия, написанный на русском языке, будет выглядеть в этих операционных системах тарабарщиной. Поэтому заглавие документа должно содержать латинскую часть – так, как это написано в предыдущем фрагменте занятия:
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
81 <TITLE> This is my first document – Это мой первый документ
Вдобавок, заглавие должно давать представление о документе "в целом", вне той структуры веб-сайта, в которой первоначально существует созданный вами HTML-документ. Ведь любой человек на любом конце Земного шара может поставить ссылку на ваш документ из своего контекста! Так что написать хорошее заглавие для HTML-страницы – непростая задача!
Текст HTML-документа и его кодировка Напишем что-нибудь в теле нашего HTML-документа: <TITLE>This is my first document – Это мой первый документ Первая строчка!
Если только вам особенно повезло, вы увидите в броузере документ именно в таком виде, в котором хотели:
Рис. 56 Желаемый вид HTML-документа
Чаще всего, однако, нас ждет иное:
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
82
Рис. 57 HTML-документ в несвойственной ему кодировке
Избавиться от такой тарабарщины можно выбором кодировки (в Netscape Navigator так: V i e w - > C h a r a c t e r s e t - > C y r i l l i c ( W i n d o w s - 1 2 5 1 ) ). Но можно (с помощью служебного, невидимого элемента < M E TA > , помещенного в контейнер H E A D ) указать броузеру, какую кодировку следует использовать: <TITLE>This is my first document - Это мой первый документ <META HTTP-EQUIV="Content-Type" CONTENT="text/html, charset=windows-1251"> Первая строчка!
Абзац Перевод строки в языке разметки HTML ничем не отличается от обычного пробела. Более того, несколько пробелов или переводов строки подряд соединяются в один-единственный пробел: <TITLE>This is my first document – Это мой первый документ <META HTTP-EQUIV="Content-Type" CONTENT="text/html, charset=windows-1251"> Первый абзац!
Второй абзац?
дает следующий текст
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
83
Рис. 58 Перевод строки в HTML-тексте не создает абзац при отображении этого текста в броузере
а вовсе не то, что, возможно, подразумевалось! Абзац – это элемент логической структуры текста, и для него есть соответствующий элемент HTML (этот элемент – контейнер, поскольку он содержит текст абзаца; следовательно, этот элемент должен иметь открывающий и закрывающий ярлыки): <TITLE>This is my first document – Это мой первый документ <META HTTP-EQUIV="Content-Type" CONTENT="text/html, charset=windows-1251"> Первый абзац!
Второй абзац!
порождает именно два абзаца:
Рис. 59 Два абзаца
Абзац в HTML прижат к левому краю и отделен от предыдущего абзаца более широким межстрочным интервалом. Красной строки (абзацного отступа) в HTML нет. Поскольку начало очередного абзаца означает, что предыдущий абзац закончен, то закрывающий ярлык элемента "абзац" (< / P > ) обычно опускают (и HTML это разрешает):
Логическая структура документа Кроме абзацев, в документе могут быть заголовки частей документа и другие логические элементы. Мы не будем изучать все возможности, которые предоставляет HTML, а лишь
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
84
познакомимся с некоторыми из них. Русский перевод текущего стандарта HTML, который описывает все возможности этого языка, можно найти на сервере www.citforum.ru . HTML допускает использование заголовков шести уровней (часть, раздел, глава, пункт, подпункт, подподпункт). Для разметки заголовков используются элементы-контейнеры: Заголовок части Заголовок раздела Заголовок главы Заголовок пункта Заголовок подпункта Заголовок подподпункта Заголовки разных уровней форматируются по-разному – это делает броузер независимо от пользователя:
Рис. 60 Логические заголовки разного
Рис. 61 Логические заголовки разного
уровня в Netscape Navigator
уровня в Microsoft Internet Explorer
Логическая структура документа может также содержать выделенный текст (текст, значение которого более важно для автора): <EM>выделенный текст и "сильно выделенный текст": <STRONG>сильно выделенный текст а также и другие структурные элементы: списки, цитаты, определения и др. Много примеров структурной HTML-разметки можно увидеть, сохраняя тексты страниц с серверов Всемирной Паутины и изучая эти тексты. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
85
Простейшая оформительская разметка Зачастую стандартные приемы оформления HTML-документа, связанные с его логической структурой, не удовлетворяют дизайнера. На этот случай HTML допускает использование так называемой "оформительской" разметки.
Выделения Простейшая оформительская разметка позволяет задать полужирный или наклонный шрифт (но броузер может проигнорировать одновременное задание полужирности и наклонности шрифта): полужирный наклонный полужирный и наклонный наклонный и полужирный Обратите внимание, что возможны два способа задания одновременной полужирности и наклонности шрифта, но при использовании любого из них один контейнер всегда вложен в другой (наклонный в полужирный или наоборот). Это общее правило HTML – не бывает пересекающихся контейнеров. Кроме наклонности и полужирности возможно задание индексов: <SUP>верхнийиндекс <SUB>нижнийиндекс
Рис. 62 P u < S U P > 2 3 7 < / S U P > , р а с т в о р е н н ы й в H < S U B > 2 < / S U B > O ,
Шрифтовое оформление В HTML существует элемент-контейнер, позволяющий задать размер цвет шрифта независимо от логической или оформительской разметки – < F O N T > . . . < / F O N T > . Элемент < F O N T > имеет несколько атрибутов; важнейшие из них: S I Z E и C O L O R , задающие, соответственно, размер и цвет шрифта.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
86
Размер шрифта Атрибут S I Z E может иметь значения двух типов – абсолютного и относительного. Абсолютное значение атрибута – это число от 1 до 7 :
Рис. 63 Абсолютные размеры шрифта в броузере
Относительное значение атрибута – это также число от 1 до 7 , но со знаком + или - :
Рис. 64 Применение положительных относительных размеров шрифта
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
87
Рис. 65 Применение отрицательных относительных размеров шрифта
Если разметка, указывающая на необходимость относительного изменения размера шрифта, используется внутри контейнера < F O N T > , то размер все равно отсчитывается от стандартного размера (обратите внимание, что внутренний ярлык < / F O N T > "закрывает" элемент с указанием относительного размера шрифта, а внешний – абсолютного:
Рис. 66 Смешивание абсолютных и относительных размеров шрифта
Цвет шрифта Цвет шрифта задается значением атрибута C O L O R элемента F O N T .
Рис. 67 Цвет можно задавать названием цвета (на английском языке), или кодом цвета в цветовой схеме (красный-зеленый-синий)
Задание цветов в виде их названий имеет одно принципиальное неудобство – не все броузеры "понимают" все названия цветов. Вдобавок есть еще непринципиальное неудобство – необходимо помнить эти (английские!) названия (а откуда знать, что этот зеленовато-синеватый цвет называется t e a l или коричневатый – m a r o o n ). Итак, правильнее пользоваться кодами цветов. Коды цветов записываются после знака и состоят из 6 шестнадцатиричных цифр. Первая пара этих цифр относится к интенсивности к р а с н о г о цвета, вторая – з е л е н о г о , а третья – с и н е г о . Шестнадцатиричная цифра – это 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , A , B , C , D , E или F . 0 – самая маленькая цифра (ноль), F – самая большая (пятнадцать ; - ) . Вместо заглавных В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
88
латинских букв можно употреблять строчные (a b c d e f ). Пара шестнадцатиричных цифр обозначает числа от 0 (0 0 ) до 2 5 5 (F F ). Чем больше соответствующее число, тем ярче цвет ("# 0 0 0 0 0 0 " – нет никакого цвета, т.е. черный; "# F F F F F F " – все цвета самые яркие, т.е. цвет – белый). Атрибут C O L O R элемента F O N T можно употреблять совместно с атрибутом S I Z E :
Рис. 68 Пример совместного употребления атрибутов C O L O R и S I Z E элемента F O N T
Создание документов со связями Связь – это контейнер Обсудим сначала свойства, которыми обладает связь между документами. •
•
•
Связь между документами имеет направление – она ведет от одного документа (источника связи) к другому документу ("цели"). Говорят, что документ-источник указывает на документ-цель. Необязательно наличие обратной связи, т.е. если некоторый документ указывает на другой документ, то связь второго документа с первым может отсутствовать. Связь должна быть видима читателю документа, т.е. связь должна включать какой-либо фрагмент текста или изображение.
Последнее свойство связи требует, чтобы элемент разметки, с помощью которого создается связь, был бы контейнером (он должен содержать текст и/или изображение).
Готовимся создавать связи между документами Для изучения разметки связей между документами нам потребуются два HTML-документа. Создадим их и положим в какой-нибудь каталог на жестком диске вашей машины: Первый документ – его мы сохраним под именем 1 . h t m l : <TITLE>The first document Это документ #1 В первом же абзаце первого документа я намерен поместить связь со вторым документом.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
89
Рис. 69 Первый документ для организации связи
Второй документ (чтобы сразу отличить его от первого документа, я окрасил текст второго документа в голубоватый цвет) мы сохраним под именем 2 . h t m l : <TITLE>The second document Это документ #2 В первом же абзаце второго документа я намерен поместить связь с первым документом.
Рис. 70 Второй документ для организации связи
Разметка связей Разметка связей выполняется с помощью ярлыка (элемента-контейнера) с именем "A ", который следует внести в первый документ: <TITLE>The first document Это документ #1 В первом же абзаце первого документа я намерен поместить связь со вторым документом. В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
90
При просмотре такого документа текст, заключенный в контейнер , будет иметь синий цвет и будет подчеркнут. При наведении мыши на такой текст курсор меняет форму – вместо стрелки он превращается в руку.
Рис. 71 Первый документ с внесенной в него связью
При щелчке левой кнопкой мыши в момент, когда курсор имеет форму руки, связь активизируется и текущий документ ("первый") заменяется на тот, на который указывает связь ("второй").
Вторая связь и внешние связи Связь второго документа с первым оформляется аналогично: <TITLE>The second document Это документ #2 В первом же абзаце второго документа я намерен поместить связь с первым документом.
Рис. 72 Связь из второго документа с первым "уже пройдена" и поэтому имеет другой цвет
Ничто не мешает включить в документ и "внешние" связи; однако для внешних связей следует указывать полный U R L , включающий и протокол (в приведенном ниже примере ссылка на Microsoft – действующая ; - ) :
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
91 <TITLE>The second document Это документ #2 В первом же абзаце второго документа я намерен поместить связь с первым документом.
А второй абзац указывает на Microsoft ;-)
Рис. 73 Внешняя ссылка
Вот собственно и все о связях. На такой простой вещи и держится вся "Всемирная Паутина".
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
92
Введение в теорию информационно-поисковых систем и информационного поиска Введение Поиск информации – задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ. Сначала эти средства совершенствовались в каталогах и информационных отделах крупных библиотек. В 70-е годы XX века появились базы данных, доступ к которым сначала обеспечивался через модемное подключение, а затем по протоколу telnet через Интернет. Стоимость работы с такими базами данных весьма велика. Например, одна минута работы с базой данных DIALOG (www.dialog.com ) может стоить доллар, а вывод на экран одного элемента найденной записи (из, например, 70) – 20 центов. Такая высокая стоимость поиска информации потребовала создания эффективных приемов поиска. Исследования по методам поиска информации публикуются в научных журналах. В нашей стране – в журнале "Научная и техническая информация" (НТИ), в США – в Journal of American Society of Information Systems (JASIS). Все найденные за много лет средства и приемы поиска информации доступны и эффективны и при поиске информации в Интернет. Библиотеки используют, в основном, три вида каталогов: алфавитные, систематические и предметные. Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем разнообразии, также попадают в один из этих классов. Поэтому, прежде чем знакомиться с этими ИПС, посмотрим, как устроены абстрактные алфавитные (словарные), систематические и предметные ИПС. А для этого придется познакомиться еще и с некоторыми терминами из теории информационного поиска. Наша экскурсия в теорию окажется полезной при встрече с очередной ИПС (а в Интернет их несколько сотен) – в этих ИПС вы станете узнавать знакомые черты.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
93
Информационная потребность. Понятие пертинентного документа Итак, АВТОР создает ДОКУМЕНТ. А у нас (у вас) возникает ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ. Информационная потребность
Рис. 74 Информационная потребность существует только в мыслях пользователя
Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов – подходит или не подходит. В теории информационного поиска вместо слова "подходит" используют термин "ПЕРТИНЕНТНЫЙ ДОКУМЕНТ", а вместо "не подходит" – "НЕ ПЕРТИНЕНТНЫЙ". Слово "пертинентный" происходит от английского "pertinent", что значит " относящийся к делу, подходящий по сути". Субъективно понимаемая цель информационного поиска – найти все пертинентные и только пертинентные документы (мы хотим найти "только то, что хотим, и ничего больше") Эта цель – недостижима.
Информационный шум Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами (конечно, если цель нашего поиска – редактор для Quake, а попался документ с кулинарным рецептом, то он явно непертинентен, но принять решение о пертинентности документа так просто удается далеко не всегда). Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются – "ШУМ". Слишком большой шум затрудняет выделение пертинентных документов, слишком малый – не дает уверенности в том, что найдено достаточное количество пертинентных документов (раз мы видим только пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на глаза, тоже не окажутся пертинентные). Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов – удовлетворительно.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
94
Информационно-поисковые системы – ИПС Когда документов много, используется информационно-поисковая система (ИПС). Для общения с ИПС информационная потребность должна быть выражена средствами, которые эта ИПС "понимает" – должен быть сформулирован ЗАПРОС:
Информационная потребность
Запрос
Ответ
Рис. 75 Запрос к ИПС и ответ ИПС
Понятие релевантного документа Запрос редко может точно выразить информационную потребность. Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется РЕЛЕВАНТНОСТЬЮ. Релевантный документ может оказаться непертинентным и наоборот. Известна (американская) ИПС, которая на запрос, состоящий из единственного слова "Russia" (Россия), выдает список документов, в первом из которых этого слова нет вообще, но зато есть слово "Gagarin". Этот документ нерелевантен, но пертинентен для массовой американской аудитории. В случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова "кошка", почти в любой ИПС даст массу релевантных, но непертинентных документов.
Web-кольца – предметная ИПС Предметная ИПС устроена наиболее просто. Формируется список "предметов", о которых говорится в документах. Предметом может быть что-нибудь вещественное, например, яблоко, но может быть и нечто невещественное, например, индийская музыка. С названием предмета связываются списки соответствующих ресурсов Интернет.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
95
Это особенно удобно, если полный перечень предметов невелик – предметная ИПС представляет собой "полки", на которых лежат ссылки на ресурсы, относящиеся к названию полки ("предмету"): Предметная -------------| |------| |------| |------| |------| |------| |------| |------| |-------
ИПС Абажуры Бублики Индийская музыка Куклы Музыка Программирование на языке Perl Яблоки Яблони
Так оно и было некоторое время назад. Web-мастера, занимающиеся одним предметом, начали ставить на своих серверах ссылки на серверы коллег, создавая кольцевые ссылочные структуры:
Рис. 76 Кольцевая ссылочная структура
В июне 1995 г. появился сервер W e b R i n g [http://www.webring.org] , объединивший несколько колец. В настоящее время на этом сервере "присутствуют" более 46 тыс. колец, которые в общей сложности включают более полумиллиона серверов, т.е. средний размер кольца – около 12 серверов. Есть, однако, и кольца-гиганты, содержащие тысячи серверов. Участники таких колец используют не только двусторонние ссылки (как показано на рисунке), но и ссылки "через сервер" и случайные ссылки, генерируемые программным образом. В 2000 г. W e b R i n g был приобретен информационным гигантом Yahoo и стал составной частью портала Yahoo, сохранив свой прежний адрес и приобретя новый: webring.yahoo.com
Понятно, что найти нужный предмет интереса при большом количестве предметов непросто. W e b R i n g обзавелся собственными вспомогательными ИПС – классификационной и словарной, помогающими найти название предмета.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
96
Классификационные ИПС В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. При такой организации ИПС есть не очень много (обычно менее двух десятков) "больших полок", каждая из которых разделена на несколько меньших, каждая из которых, в свою очередь, вновь разделена на еще более мелкие...
Разработчики классификатора Систематизаторы
Классификатор Наука
Информационная потребность
Бизнес
Искусство Поисковик
Развлечения
Запрос
Рис. 77 Классификационная ИПС – продукт взаимодействия многих культур
Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС – систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора (рубрикам) эти документы соответствуют. Классический пример классификационной ИПС – Y a h o o (www.yahoo.com ). Едва появившись, быстро завоевала признание качественной проработкой классификатора. Сейчас в Yahoo работают более 100 систематизаторов. Классификационные ИПС обладают рядом специфических недостатков. Уже разработка классификатора связана с оценкой относительной важности различных областей человеческой деятельности. Например, сравнивая классификаторы многих ИПС Интернета (таВ.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
97
ких, как Yahoo, Lycos, Look Smart), замечаем, что во многих из них нет раздела "Наука". Любая оценка является социальным действием; она связана с обществом, культурой, социальной группой, к которым принадлежит человек, выносящий оценку. Поэтому уже классификаторы, созданные разными коллективами в разных странах, могут иметь весьма различную степень полезности при поиске информации – все зависит от того, кто и что ищет. Но в создании классификационных ИПС участвуют еще и коллективы систематизаторов, также выносящих свои оценки о соответствии документов разделам классификатора.
Взаимодействие культур при поиске в классификационной ИПС Таким образом, при поиске информации с помощью классификационных ИПС возникает необходимость взаимодействия с другими культурами – культурами авторов, создателей классификаторов и систематизаторов. Это непростая задача. Существует профессия, решающая эту задачу – переводчики. Хороший переводчик переводит не только слова, но и то, что называется "культурные реалии". В случае информационного поиска соответствующий профессионал называется "ИНФОРМАЦИОННЫЙ БРОКЕР". Он владеет когнитологическими методиками, знает, как устроены классификаторы и как их интерпретируют систематизаторы. Эти знания позволяют информационному брокеру в беседе с вами изучить вашу информационную потребность и превратить ее в запрос. В библиотеках такие "информационные брокеры" работают в информационных и библиографических отделах. Информационные брокеры Интернет у нас в стране уже встречаются, хотя пока еще редко. Библиографы, понимая, что читатели не всегда глубоко изучают классификации, положенные в основу систематических каталогов, выработали два приема, облегчающие жизнь читателям. Эти приемы носят название "ОТСЫЛКА" и "ССЫЛКА", и оба они применяются создателями классификационных ИПС Интернета. Эти приемы используются в ситуации, когда документ может быть отнесен к одному из нескольких разделов классификатора, а лицо, осуществляющее поиск (поисковик), может не знать, к какому именно разделу.
Ссылка и отсылка Отсылка используется тогда, когда создатели классификатора и систематизаторы в состоянии принять четкое решение об отнесении документа к одному из разделов классификатора, а поисковик с определенной вероятностью в поисках этого документа придет в другой раздел. Тогда в этом другом разделе помещается отсылка ("См.") в тот раздел классификатора, в котором действительно размещена информация о документах данного типа. Например, информация о картах стран может быть размещена в разделах "Наука • География • Страна", "Экономика • География • Страна" или "Справочники • Карты • Страна". Принимается решение, что карты стран помещаются во второй раздел: "Экономика • География • Страна"; тогда в остальные два раздела помещаются отсылки в него. Этот прием активно используется в ИПС Yahoo (отсылка обозначается в ней знаком @ ). Ссылка ("См. также") используется в менее однозначной ситуации, когда даже создатели классификатора и систематизаторы не в состоянии принять четкого решения об отнесе-
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
98
нии документов к определенному разделу классификатора. В ИПС Интернет ссылка принимает разнообразные формы ("Relevant servers", "Похожие документы" и т.п.). Классификационных ИПС в Интернет много. Большие классификационные ИПС (американская Yahoo, европейская EuroSeeek, российские Aport.Ru и List.Ru) используют вспомогательные словарные ИПС по собственным рубрикам (аналоги библиотечных алфавитных указателей). Другие классификационные ИПС просто существуют совместно с ИПС словарного типа (Excite, Lycos, Aport.Ru, AltaVista).
Словарные ИПС: введение Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС – создать словарь из слов, встречающихся в документах Интернета, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов. К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в конце 40-х годов нашего века. К тому же наиболее употребительные слова – это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словарь одной из самых крупных словарных ИПС Интернета – AltaVista – имеет объем всего лишь несколько Гбайт. Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро – без последовательного просмотра. А наличие списков документов, в которых встречается искомое слово, позволяет ИПС выполнять операции с этими списками – их слияние, пересечение или вычитание (для наглядности списки документов изображены в виде овалов): Документы со словом
Документы со словом
"стул"
"стол"
Документы со словом
"стол", но без слова
"стул"
Документы со словами "стол" и "стул"
Документы со словами "стол" или "стул"
Рис. 78 Логические операции с множествами документов, выполняемые словарными ИПС
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
99
Логические операторы Вместо того, чтобы говорить "С п и с о к д о к у м е н т о в с о д е р ж а щ и х с л о в о ' стол' и л и д о к у м е н т о в , с о д е р ж а щ и х с л о в о ' стул' ", употребляются сокращенные выражения, приведенные на предыдущем рисунке. Дальнейшее сокращение эти выражения находят в языке запросов словарных ИПС: вместо "Н а й т и с п и с о к д о к у м е н т о в с о д е р ж а щ и х с л о в о ' стол' и л и д о к у м е н т о в , с о д е р ж а щ и х с л о в о ' стул' ", большинству словарных ИПС достаточно написать что-то вроде стол ИЛИ стул
Союз И Л И в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА, связывающего множества искомых документов. Словарные ИПС используют три логических оператора: И Л И , И и И - Н Е ("но без"); как правило, эти операторы обозначаются одним из следующих способов: Оператор
Полное обозначение
Сокращенное обозначение
Обозначение при простом поиске (кроме российской ИПС Rambler)
ИЛИ
OR
|
пробел
И
AND
&
+ (знак "плюс")
И-НЕ
AND NOT
! или &! или !&
- (знак минус)
Эти операторы имеют приоритет (прежде всего выполняется И - Н Е , затем – И , и лишь потом – И Л И ), поэтому для составления сложных запросов могут использоваться скобки (исключение составляют лишь ИПС Go.Com и Google, которые вместо скобок применяют другие обозначения). Как правило, словарные ИПС Интернета предоставляют пользователям два интерфейса – режим "сложного запроса" ("advanced search"), в котором доступны все логические операторы, и режим простого поиска, в котором, как правило, невозможно использование скобок, и, следовательно, можно использовать не все сочетания операторов.
Правое усечение Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом падежей слова "с т о л " и наших знаний о логических операторах, запрос к словарной ИПС мог бы выглядеть так: стол ИЛИ стола ИЛИ столу ИЛИ столе ИЛИ столом
Хорошо, что это только одно слово, но писать такое уже довольно тоскливо. Западные ИПС, ориентированные на английский язык, предлагают простое решение: вместо слова можно написать его начало, заменив изменяемую часть звездочкой: стол*
Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что она обозначает правое усечение. Называть обозначение "с т о л * " язык не поворачивается, поэтому для таких частей логических выражений запросов используется название ТЕРМИН. Запрос стол* В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
100
отыщет и документы со словами "столовая", "столешница", "столоначальник" и даже "столб". Такое явление – искусственная синонимия – может сильно мешать при поиске, однако его проявление зачастую невозможно предусмотреть заранее. От чего пытались убежать, переходя от использования классификационных к применению словарных ИПС – от изучения других культур – к тому вернулись с другой стороны: язык, на котором написаны искомые документы (а, следовательно, и культуру авторов этих документов) все равно приходится изучать. Для устранения искусственной синонимии необходимо читать найденные документы, которые образуют информационный шум, определять в них те термины, которые являются порожденными нами искусственными синонимами, и устранять их, модифицируя запрос: стол* И-НЕ (столова* ИЛИ столеш* ИЛИ столон* ИЛИ столб* ...)
Заметим, что в новом запросе нельзя написать "столов*" вместо "столова*" – пропадет родительный падеж множественного числа слова "стол"; точно также нельзя написать "столе*" вместо "столеш*" – пропадет предложный падеж слова "стол". Таким образом, язык искомых документов необходимо знать не просто хорошо ; - ) Две российские ИПС (Апорт и Яндекс) "знают" русскую грамматику (точнее, морфологию русского языка) и в словаре хранят только так называемую "нормальную форму" слова (для существительного – именительный падеж единственного числа). Эти системы допускают написание запроса на естественном языке, нормализуя термины запроса, тем самым существенно упрощая поиск в русском Интернете.
Слова далекие и близкие Описанные возможности словарных ИПС, хотя и достаточно мощные, зачастую оказываются совершенно недостаточными для поиска даже очень простой информации. Попробуем решить следующую задачу: отыскать сведения о продаже металлических стульев: металлическ* И стул*
Но этому запросу отвечает прейскурант торговой фирмы, продающей плетеный (вторая строка прейскуранта) и (178 строка прейскуранта). Оператор отыскивает документы, в которых искомые слова встречаются в любом месте! Для устранения этого недостатка некоторые ИПС хранят не просто список документов, в которых встречается слово, но и номер этого слова в конкретном документе. Это позволяет в языке запросов такой ИПС использовать оператор Р Я Д О М , что решает поставленную задачу: металлическ* РЯДОМ стул*
Многие ИПС не позволяют написать такой запрос – они не разрешают использовать термины с правым усечением совместно с оператором Р Я Д О М , (только слова), но это ограничение постепенно снимается, – следите за информацией на конкретных ИПС. Оператор Р Я Д О М в различных ИПС обозначается по-разному (он имеется в AltaVista, Lycos, Апорт и Яндекс и во всех этих ИПС используются разные обозначения). Более того, в разных ИПС он может иметь и несколько различный смысл. Так, AltaVista считает, что Р Я Д О М – это не более чем через 10 слов в любом порядке, в то время как другие ИПС позволяют указывать требуемое расстояние между словами (ровно столькото или не более чем столько-то). Lycos позволяет указывать расстояние и требуемый В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
101
порядок слов. Апорт позволяет указывать расстояние между словами в словах; Яндекс – в словах и абзацах (с возможностью указать порядок следования слов).
Ранжирование результатов поиска Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки совершенно невозможно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Многие ИПС предоставляют такую возможность ранжирования результатов поиска. Методы ранжирования в разных ИПС различны. Так, AltaVista позволяет (в режиме сложного поиска) указать перечень терминов, которые повышают ранг найденного документа (т.е. перемещают его в начало списка), что для AltaVista особенно актуально, так как эта ИПС показывает только первые 200 найденных документов. Яндекс позволяет указать вес каждого из терминов, участвующих в запросе, что позволяет весьма точно настраивать порядок следования найденных документов.
Стратегия поиска: использование нескольких источников Дать общий рецепт эффективной стратегии поиска информации в Интернете, пожалуй, невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени. Попробую их изложить. Начну с примера. Если вам необходимо узнать, где растет древовидная черника, то вряд ли вы пойдете в алфавитный каталог библиотеки. Может быть, вы найдете нужную литературу с помощью систематического каталога. С несколько большей вероятностью – с помощью предметного. Но, скорее всего, ни один из библиотечных каталогов вам не поможет. Зайдите, однако, в информационно-библиографический отдел крупной библиотеки, и дежурный библиограф достанет библиографический указатель по кустарничкам или какую-то похожую книжицу, из которой вы и найдете ответ на свой вопрос. Подобную стратегию можно с успехом применять и в Интернет. В ИПС общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос. Целью использования универсальной ИПС общего назначения может быть поиск специализированной ИПС, посвященной тематике вашего поиска. Такая ИПС может быть распознана по наличию слов "и н ф о р м а ц и я (i n f o r m a t i o n )", "у к а з а т е л ь (d i r e c t o r y )" и т.п. в найденных в универсальной ИПС документах. Но часто специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.
Пример из жизни Иногда приходится разыскивать несколько информационных систем со все более узкой тематикой. Однажды ко мне обратились с просьбой срочно найти информацию о продаже судов-сухогрузов (по-английски – b u l k e r ). Запрос в AltaVista (простой поиск) В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
102 +bulker* +sale*
дал нулевой результат; запрос +ship* +sale*
дал тысячи ссылок на страницы, посвященные продажам катеров и яхт (впрочем, попалась и одна баржа). Внимательное изучение нескольких первых страниц списка результатов поиска показало, что в найденных текстах часто присутствует слово "m a r i n e (м о р с к о й )". И тут я вспомнил, что есть в английском языке слово "maritime", означающее "все морское". Запрос +maritime +information*
уже среди первых десяти ссылок содержал ссылку на расположенную на www.GeoCities.com информационную систему по морской тематике. Но и в ней информации о продаже сухогрузов не было. Зато была информация об отправке сухогрузов из портов мира, включающая сведения о владельцах судов. Многие из фирм – владельцев судов имели в своем названии слова "ship brokers (торговцы судами)". Этого английского выражения я не знал. Однако запрос в AltaVista +ship* +broker*
дал мне огромный список страниц, среди которых была одна с уже знакомым адресом – www.GeoCities.com. Оказывается, существует специализированная ИПС по торговцам судами! Второй найденный с помощью такой ИПС торговец содержал Web-сервер, на котором нашелся подходящий сухогруз.
Еще два элемента стратегии Приведенный пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите совершенно не в тех терминах, которые используют авторы искомых документов (вспомним о культурных различиях!). Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
103
Указатель рисунков Рис. 1 Технологические корни Интернета .................................................................................. 5 Рис. 2 Принцип работы фотонаборного автомата .................................................................... 8 Рис. 3 Зарождение четырех технологических ветвей, на которых "вырос Интернет" ....... 11 Рис. 4 Стали появляться многозадачные и многопользовательские операционные системы (ММОС) ..................................................................................................................... 12 Рис. 5 Интернет появился............................................................................................................ 16 Рис. 6 Развитие Интернета в 80-е годы XX века........................................................................ 19 Рис. 7 Окно сеанса MS-DOS в Windows NT............................................................................... 24 Рис. 8 Команда копирования файла в MS-DOS ....................................................................... 24 Рис. 9 Ключи команды копирования файла в MS-DOS .......................................................... 25 Рис. 10 Интерфейс G o p h e r ......................................................................................................... 25 Рис. 11 Внешний вид несложной HTML-страницы в Ly n x ................................................... 27 Рис. 12 HTML-страница с формой смены пароля в Ly n x ..................................................... 28 Рис. 13 Вторая половина XX века ............................................................................................... 30 Рис. 14 Пример кабельной системы: три компьютера ........................................................... 35 Рис. 15 Маршрутизаторы – основа работы Интернета .......................................................... 36 Рис. 16 Автономные системы и интерфейсы между ними .................................................... 37 Рис. 17 Кабельная система........................................................................................................... 41 Рис. 18 Передача информации от компьютера №1 к компьютеру №2 ............................... 41 Рис. 19 Столкновение несущей ................................................................................................... 41 Рис. 20 Кабинеты министра ........................................................................................................ 42 Рис. 21 Разрезание датаграммы на кадры................................................................................. 45 Рис. 22 Стандартный заголовок датаграммы протокола IP версии 4 составляет 24 байта45 Рис. 23 Заголовок датаграммы IPv6 – будущей версии IP-протокола имеет длину 32 байта .......................................................................................................................................... 46 Рис. 24 "Маленький Интернет" ................................................................................................... 48 Рис. 25 Авария на другом конце Земного шара....................................................................... 48 Рис. 26 Авария может вызвать "закольцовывание" маршрута .............................................. 49 Рис. 27 Размещение номера версии IP-протокола и байта TT L в заголовке датаграммы49 Рис. 28 Размер заголовка T C P -пакета составляет 20 байтов.................................................. 51 Рис. 29 Пятиуровневая модель протоколов Интернета.......................................................... 52 Рис. 30 Коды ответов веб-сервера, попадающие на экран пользователя ............................ 54 Рис. 31 Классификация кодов ответов на команды протоколов приложений Интернета55 Рис. 32 Пример ответа сервера с кодом 500: запрошенная для выполнения на сервере программа отсутствует ........................................................................................................... 56 В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
104
Рис. 33 Все имена компьютеров (сетевых интерфейсов) разделены на большие группы – домены; компьютеры в разных доменах могут иметь одинаковые имена.................... 57 Рис. 34 Свойства "Сетевого окружения".................................................................................... 61 Рис. 35 Настройка параметров протокола TCP/IP и IP-номера DNS ................................... 61 Рис. 36 Обращения DNS друг к другу за именем сетевого интерфейса тайваньского компьютера .............................................................................................................................. 63 Рис. 37 Окно сеанса MS-DOS в Windows NT ............................................................................. 66 Рис. 38 Программа D O S K E Y запомнит ваши действия в сеансе MS-DOS Windows 95/98/ME .................................................................................................................................... 67 Рис. 39 Программе p i n g в качестве параметра можно указать IP-номер любого сетевого интерфейса ............................................................................................................................... 67 Рис. 40 Пингуем тайваньский сервер......................................................................................... 68 Рис. 41 Ответ тайваньского сервера при увеличенном времени ожидания ........................ 69 Рис. 42 Время ожидания ответа для датаграммы размером 10000 байтов.......................... 69 Рис. 43 Непрерывный режим работы p i n g ............................................................................. 70 Рис. 44 Запускаем программу t r a c e r t . e x e ............................................................................. 71 Рис. 45 Маршрут из сети РОКСОН в сеть ВебПлас ................................................................. 71 Рис. 46 Маршрут из сети РОКСОН в сеть ИОО ....................................................................... 72 Рис. 47 Таймаут при работе t r a c e r t ......................................................................................... 73 Рис. 48 Отказ от определения доменных имен маршрутизаторов ускоряет работу t r a c e r t ....................................................................................................................................... 73 Рис. 49 Кодовая таблица A S C I I ................................................................................................. 74 Рис. 50 Кодовая таблица w i n d o w s - 1 2 5 1 ............................................................................... 74 Рис. 51 Кодовая таблица k o i 8 - r ................................................................................................ 75 Рис. 52 Набираем произвольный текст в "Блокноте".............................................................. 78 Рис. 53 Сохраняем текст............................................................................................................... 78 Рис. 54 Для создания HTML-документа в "Блокноте" необходимо указать режим сохранения "Все типы файлов".............................................................................................. 79 Рис. 55 Обычный текстовый файл тоже можно рассматривать через броузер .................. 79 Рис. 56 Желаемый вид HTML-документа................................................................................. 81 Рис. 57 HTML-документ в несвойственной ему кодировке .................................................... 82 Рис. 58 Перевод строки в HTML-тексте не создает абзац при отображении этого текста в броузере .................................................................................................................................... 83 Рис. 59 Два абзаца ......................................................................................................................... 83 Рис. 60 Логические заголовки разного уровня в Netscape Navigator.................................... 84 Рис. 61 Логические заголовки разного уровня в Microsoft Internet Explorer ....................... 84 Рис. 62 P u < S U P > 2 3 7 < / S U P > , р а с т в о р е н н ы й в H < S U B > 2 < / S U B > O , ................................... 85 Рис. 63 Абсолютные размеры шрифта в броузере .................................................................. 86 Рис. 64 Применение положительных относительных размеров шрифта ........................... 86 В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
105
Рис. 65 Применение отрицательных относительных размеров шрифта............................ 87 Рис. 66 Смешивание абсолютных и относительных размеров шрифта .............................. 87 Рис. 67 Цвет можно задавать названием цвета (на английском языке), или кодом цвета в цветовой схеме (красный-зеленый-синий) ......................................................................... 87 Рис. 68 Пример совместного употребления атрибутов C O L O R и S I Z E элемента F O N T .. 88 Рис. 69 Первый документ для организации связи................................................................... 89 Рис. 70 Второй документ для организации связи.................................................................... 89 Рис. 71 Первый документ с внесенной в него связью .............................................................. 90 Рис. 72 Связь из второго документа с первым "уже пройдена" и поэтому имеет другой цвет ............................................................................................................................................ 90 Рис. 73 Внешняя ссылка ............................................................................................................... 91 Рис. 74 Информационная потребность существует только в мыслях пользователя ......... 93 Рис. 75 Запрос к ИПС и ответ ИПС ........................................................................................... 94 Рис. 76 Кольцевая ссылочная структура ................................................................................... 95 Рис. 77 Классификационная ИПС – продукт взаимодействия многих культур................. 96 Рис. 78 Логические операции с множествами документов, выполняемые словарными ИПС ........................................................................................................................................... 98
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
106
Предметный указатель 3
F
3Com............................................................ 40
File Transfer Protocol....................... см. FTP flames .......................................................... 21 frames (HTML) ........................................... 31 FreeBSD........................... см. Unix/FreeBSD FTP ..........15, 20, 21, 24, 25, 51, 55, 58, 64, 69 FTP-архив ..................................15, 16, 20, 21 FTP-протокол .................................. см. FTP FTP-сервер .............. 15, 20, 55, 58, 62, 64, 74 анонимный....................................... 15, 20
A ACM ..... см. Ассоциация производителей вычислительной техники AltaVista.........................65, 98, 100, 101, 102 America On-Line ........................................ 31 Apple ........................................................... 23 Archie .......................................................... 20 ARPA ..................................................... 14, 15 ASCII ........................................................... 74 Association for Computer Machinery.... см. Ассоциация производителей вычислительной техники
B Bell Laboratories ................................... 18, 22 Berners-Lee, Tim......................................... 27 bulker......................................................... 101
C Cascaded Style Sheets . см. каскадируемые таблицы стилей CDS/ISIS ...................................................... 17 CP866........................................................... 40 CSS см. каскадируемые таблицы стилей
D DIALOG ................................................ 17, 92 DNS ........................................... 56, 60, 61, 62 домен....................................................... 56 доменные имена .......58, 64, 67, 71, 72, 73 ошибки записи................................ 63, 64 домены верхнего уровня ...................... 58 географические .................................... 58 тематические ........................................ 59 сервер имен ................................ 60, 62, 63 DOM ............................................................ 32
E EDIFACT ..................................................... 17 E-mail .......................................................... 16 Ethernet ................................................. 34, 44 EuroSeeek.................................................... 98
G GeoCities................................................... 102 Go.Com ....................................................... 99 Google ......................................................... 99 Gopher .................................................. 25, 26
H Hewlett-Packard................................... 40, 55 HTML26, 27, 28, 29, 31, 32, 53, 62, 65, 76, 77, 79, 80, 81, 82, 83, 84, 85, 88 / H T M L ..................................................... 79 B .............................................................. 85 B O D Y ................................................. 76, 80 E M ............................................................ 84 F O N T ................................................. 85, 87 C O L O R .......................................... 87, 88 коды цвета ........................................ 87 S I Z E ..........................................86, 87, 88 F R A M E S E T ............................................. 80 H 1 ............................................................ 84 H 2 ............................................................ 84 H 3 ............................................................ 84 H 4 ............................................................ 84 H 5 ............................................................ 84 H 6 ............................................................ 84 H E A D ....................................................... 80 H T M L ................................................. 79, 80 I .............................................................. 85 I M G .......................................................... 77 P .............................................................. 82 S T R O N G ................................................. 84 S U B .......................................................... 85 S U P .......................................................... 85
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
1
HTML (продолжение) T I T L E ................................................ 80, 81 TT ............................................................. 77 связи между документами. 88, 89, 90, 91 внешние связи ...................................... 90 разметка................................................ 89 элемент ................................................... 76 контейнер ... 76, 77, 79, 80, 82, 83, 84, 85, 87, 88, 89, 90 простой элемент ............................. 76, 77 ярлык................................................. 76, 77 HTML 2 ................................................. 28, 32 HTML 3.2 .................................................... 32 HTML 4 ....................................................... 32 HTML-форма ............................................. 28 HTTP ............................................... 27, 55, 64 HyperText Markup Language ................... 26 HyperText Transfer Protocol ..................... 27
I IBM .................................12, 13, 14, 17, 23, 40 IBM/360 ....................................................... 12 IBM/PC .................................................. 20, 23 IBM/PC-AT............................................ 23, 35 IBM/PC-XT .................................................. 23 ICANN ........................................................ 46 ICMP...................................................... 67, 70 ICQ............................................................... 33 IETF ... см. Internet Engineering Task Force Intel.............................................................. 40 International Standards Organization ... см. ISO Internet Board ....................................... 38, 40 Internet Engineering Task Force ......... 38, 40 Internet Society ..................................... 37, 38 Internet Standard........................................ 40 IP сетки ....................................................... 47 класс A .................................................... 47 класс B ..................................................... 47 класс C..................................................... 47 IP-номер 46, 47, 58, 60, 61, 62, 67, 70, 71, 74 ISBN....................................................... 43, 44 ISO ............................................................... 17 ISO8777........................................................ 17 ISO8859-5 .................................................... 40
J Journal of American Society for Information Science .......................... 17, 92
K KOI8-R .................................................. 40, 75
L LAN............................................................. 14 List, российская поисковая система ...... 98 Lycos ..............................................97, 98, 100 Lynx....................................................... 27, 28
M Macintosh.............................................. 23, 40 marine ....................................................... 102 maritime.................................................... 102 Microsoft 23, 28, 31, 32, 38, 55, 56, 58, 59, 60, 70, 74, 75, 79, 84, 90, 91 FrontPage ................................................ 77 Internet Explorer....................31, 32, 79, 84 Windows ... 6, 23, 24, 25, 28, 60, 61, 68, 70, 74, 75, 78, 79 Windows 95/98 ..................7, 25, 31, 44, 61 Windows 95/98/ME .......................... 66, 67 Проводник............................................ 66 сеанс MS-DOS...................................... 66 D O S K E Y , программа ....................... 66 Windows NT .................... 22, 24, 31, 56, 66 Word.................................................. 32, 77 Mosaic ..............................................28, 29, 30 MS-DOS................................ 23, 24, 25, 27, 35 MSIE ......... см. Microsoft Internet Explorer MTU ..................................... см. кадр/MTU
N netiquette .................................................... 22 Netscape.....................................29, 30, 31, 38 Composer ................................................ 77 Navigator ......................... 30, 31, 79, 82, 84 newsgroups................................................. 21
O ODA ............................................................ 17 OS/2 ............................................................. 23
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
2
P
V
ping.......................................66, 67, 68, 70, 73 p i n g . e x e ................................................. 66 ключ – l .................................................... 69 ключ – t ................................................... 70 ключ – w .................................................. 69 ключи ...................................................... 68
V.42.............................................................. 44
R Radio Shack................................................. 23 RDF .............................................................. 32 Request For Comment..................... см. RFC RFC ........................................................ 40, 42 RIPE NCC.................................................... 46 Ritchie, Dennis ............................................ 19 router ........................ см. маршрутизатор
S SGML......................................... 17, 23, 26, 27 ship broker ................................................ 102 STAIRS .................................................. 17, 20 Structured Generalized Markup Language .................................................................. 17 SWIFT .......................................................... 17
T TCP ................................ см. протокол TCP TCP/IP ......................................................... 52 TCP-пакет ................................. 50, 51, 52, 71 заголовок .......................................... 50, 51 инкапсуляция в датаграмму................ 51 порт ............................................. 51, 65, 71 t e l n e t .......................................................... 92 Thomson, Kenneth ............................... 18, 19 traceroute .................................................... 70 t r a c e r t . e x e .......................... 70, 71, 72, 73 ключи ...................................................... 72 TRS-80, персональный компьютер ......... 23 TTL............. см. датаграмма/время жизни
U Unix 6, 7, 17, 18, 19, 22, 23, 24, 25, 26, 27, 28, 29, 35, 70, 75, 80 FreeBSD ................................................... 22 URL.............................................................. 64 Usenet.......................................................... 21
W WAIS ........................................................... 20 WebRing. см. информационно-поисковые системы / предметные ИПС / Webкольца Windows-1251 ..................... 40, 74, 75, 82, 83 World Wide Web см. Всемирная Паутина WWW .5, 26, 27, 28, 29, 30, 51, 64, 66, 74, 75. см. также Всемирная Паутина
X Xerox ........................................................... 23 XML............................................................. 32 XWindow .................................................... 23
Y Yahoo .........................................95, 96, 97, 98 Yandex см. Яндекс, российская поисковая система
А Австралия ............................................ 49, 59 Австрия ...................................................... 59 автономная система ........................... 36, 37 Апорт, российская поисковая система 98, 100, 101 Ассоциация производителей вычислительной техники..................... 19
Б Бернерс-Ли, Тим ....................................... 27 Библиотека Конгресса США............. 14, 22 Исследовательская Служба ................. 22 брокер биржевой...................................... 27 брокер информационный....................... 97 броузер ..26, 27, 28, 29, 30, 31, 32, 55, 65, 75, 79, 80, 81, 82, 83, 84, 85, 86, 87 Буш, Ванневар ....................................... 6, 13
В Вашингтон (столица США)..................... 23 взаимодействие культур.......................... 20 вирус компьютерный............................... 22 Всемирная Паутина.................................... 5
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
3
Г гипертекст .......................................... 5, 6, 13 глиф............................................................. 74
Д датаграмма. 44, 45, 48, 49, 50, 51, 52, 67, 68, 69, 71, 73 время жизни .............................. 47, 49, 50 заголовок .................................... 44, 45, 46 Доменная система имен .............. см. DNS драйвер ................................................. 44, 55
Е Единая Система ЭВМ ............................... 12 ЕС ЭВМ ........... см. Единая Система ЭВМ
И Интернет 5, 11, 14, 15, 16, 17, 20, 21, 22, 24, 28, 29, 32, 33, 34, 35, 36, 37, 38, 40, 42, 44, 45, 46, 47, 48, 49, 50, 51, 52, 55, 56, 59, 60, 61, 62, 66, 70, 71, 73, 75, 80, 92, 94, 96, 97, 98, 99, 100, 101 информационная потребность6, 93, 94, 97 информационно-поисковые системы ....8, 14, 16, 20, 92, 94 запрос...................................................... 94 индексы ................................................... 20 классификационные ИПС . 92, 95, 96, 97 классификатор................................ 96, 97 рубрика ................................. 96, 97, 98 отсылка ................................................. 97 систематизаторы ...................... 96, 97, 98 ссылка................................................... 97 предметные ИПС ...................... 92, 94, 95 Web-кольца..................................... 94, 95 словарные ИПС ............20, 92, 95, 98, 101 искусственная синонимия.................. 100 логические операторы.......................... 99 И 99, 102 ИЛИ .......................................... 99, 100 И-НЕ ......................................... 99, 100 приоритет.......................................... 99 РЯДОМ ........................................... 100 логические операции с множествами документов ................................. 98, 99 правое усечение.................... 99, 100, 102
информационно-поисковые системы (продолжение словарные ИПС (продолжение) ранжирование результатов поиска .... 101 вес термина..................................... 101 режим сложного запроса ..................... 99 язык запросов термин ....................... 99, 100, 101, 102 стратегия поиска................................. 101 информационный поиск............... 7, 92, 93 цель субъективная ................................ 93 информационный шум ................... 93, 100 ИПС ...... см. Информационно-поисковые системы
К кабель ................ 14, 34, 36, 37, 41, 48, 49, 50 волоконно-оптический .................. 34, 36 коаксиальный ........................................ 34 кабельная система 34, 35, 36, 41, 42, 43, 44, 45 кадр ................................ 43, 44, 45, 50, 52, 69 MTU................................................... 43, 44 заголовок ................................................ 43 хвост ........................................................ 43 кадры (HTML) ........................................... 31 канал связи спутниковый ........................ 34 каскадируемые таблицы стилей ............ 32 клиент......................................................... 53 компьютерный музей ............................ 5, 6 контрольная сумма ............................ 43, 44 копирование файла.................................. 24 культ ........................................................... 22 культура ........ 20, 21, 22, 96, 97, 98, 100, 102 кэширование ............................................. 29
Л линия радиорелейная.............................. 34 локальная компьютерная сеть................ 14 Локхид ........................................................ 17
М маргиналы ................................................. 22 маршрут.................. 35, 49, 70, 71, 72, 73, 74 маршрутизатор35, 36, 44, 45, 46, 47, 48, 49, 50, 70, 71, 72, 73, 74
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
4
маршрутизация таблица ................................................... 48 шлюз........................................................ 47 микропроцессор ....................................... 23 модем ..... 13, 16, 20, 29, 34, 35, 44, 61, 73, 92 мышь........................................................... 23
Н Научная и техническая информация, журнал .................................................... 92 Национальный Научный Фонд США .... 26 нормальная форма слова....................... 100 ньюсы.......................................................... 21
О операционные системы7, 10, 11, 12, 18, 23, 31, 32, 56, 60, 66, 68, 70, 71, 74, 80 Острова Вануату ........................................ 59
П падеж именительный............................. 100 пертинентный документ............ 93, 94, 101 провайдер услуг Интернета .............. 36, 37 протокол..................................................... 41 протокол IP .........................44, 45, 46, 51, 52 протокол TCP ................................ 50, 51, 52 квитанция ............................................... 51 сеанс .................................................. 51, 52 протокол дипломатический ................... 42 протокол передачи файлов.......... см. FTP протоколы сетевые ............................. 41, 42 межсетевого уровня ............ 44, 46, 50, 52 сетевого уровня...............42, 43, 44, 50, 52 транспортного уровня .................... 50, 52 уровень приложений............................ 52 сообщение ............................................ 52 код ответа ....................... 53, 54, 55, 56 код ответа 1хх................................... 55 код ответа 2хх................................... 55 код ответа 3хх................................... 55 код ответа 4хх................................... 55 код ответа 5хх............................. 55, 56 команда ............................................. 53 ответ.................................................. 53 поля заголовка .................................. 53 физического уровня.41, 42, 43, 44, 50, 52
Р Рабочая Группа по Инженерным Проблемам Интернета........ см. Internet Engineering Task Force разметка текста ........................................... 9 директивы ........................................ 10, 13 атрибуты директив............................... 10 обобщенные языки ............................... 12 оформительская разметка............. 13, 85 структурная разметка .................... 13, 84 языки обобщенной разметки документов ......................................... 13 релевантность............................................ 94 релевантный документ ............................ 94 религия....................................................... 22 Ричи, Деннис ............................................. 19 РОСНИИРОС ..... см. Российский научноисследовательский институт развития общественных сетей Российский научно-исследовательский институт развития общественных сетей ................................................................. 46 Россия ................................................... 59, 94
С САПР .......................................................... 27 секта ............................................................ 22 сервер ......................................................... 53 сетевой интерфейс 34, 35, 36, 41, 42, 43, 44, 45, 46, 47, 51, 56, 57, 60, 63, 67, 71 нумерация.............................................. 45 сетки ....................................... см. IP-сетки синонимия искусственная..................... см. информационно-поисковые системы/словарные ИПС/искусственная синонимия синтезатор речи ........................................ 27 систематический каталог ........................ 96 списки рассылки....................................... 21 СССР ........................................................... 59 Стандарт Интернета см. Internet Standard стандартизация..............................37, 38, 40 сухогруз .................................................... 101 существительное ..................................... 100
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета
5
Т
Ш
таблицы стилей......................................... 32 Тайвань ..........................49, 60, 62, 63, 68, 69 телеконференции ......................... 16, 20, 21 Томпсон, Кеннет ................................. 18, 19 трафик ........................................................ 37
шрифт ................. 9, 10, 13, 32, 77, 85, 86, 87 наклонный.............................................. 85 полужирный.......................................... 85
У Украина ...................................................... 59 универсальный локатор ресурса см. URL университет 11, 14, 15, 18, 22, 27, 28, 29, 31, 62, 72 ускоритель элементарных частиц.... 22, 23
Э электронная почта 16, 20, 21, 24, 29, 51, 62, 74 этикет ......................................................... 22 сетевой .............................................. 22, 40
Ю ЮНЕСКО ................................................... 17
Ф
Я
фанатики .................................................... 22 Финляндия ................................................. 46 фотонаборный автомат..............................8
Яndex . см. Яндекс, российская поисковая система ядерная физика..............................22, 24, 26 язык обобщенной структурной разметки ................................................................. 17 языки обобщенной разметки документов ........................................................... 13, 23 языки программирования ........................ 7 Яндекс, российская поисковая система ........................................................100, 101 яппи ............................................................ 20
Х хакеры ......................................................... 22 хиппи .......................................................... 20
Ц ЦЕРН........................................................... 26 Ципф....................................................... 6, 98 закон ................................................ 5, 6, 98
В.А.Капустин. Основы профессиональной работы с информационными ресурсами Интернета