Министерство образования Российской Федерации Ростовский государственный университет Кафедра теоретической и вычислительной физики
Г. М. Чечин, Е. В. Положенцев, С. В. Нижникова
"Поиск информации в сети Internet" Методические указания к курсу "Компьютерные методы в современном естествознании." Методические указания для студентов дневного отделения физического факультета РГУ
Ростов-на-Дону 2001 г.
Печатается по решению учебно-методической комиссии физического факультета РГУ протокол № 4 от 17.04.2001. Авторы: Чечин Г.М. Положенцев Е. В. Нижникова С.В.
— доцент КТВФ, — ст. преподаватель КТВФ, — студентка 5 курса КТВФ.
Г. М. Чечин, Е. В. Положенцев, С. В. Нижникова "Поиск информации в сети Internet" Методические указания к курсу "Компьютерные методы в современном естествознании." Ростов-на-Дону: РГУ, 2001 г. Данный выпуск методических указаний ориентирован на начинающего пользователя и предназначен для повышения эффективности поиска необходимых сведений в информационном океане сети Internet. Даны краткое описание основных понятий этой сети и сравнительная характеристика нескольких наиболее популярных поисковых систем (Yahoo, Alta Vista, Rambler, Яndex). Рассмотрены приемы простого и расширенного поиска информации, наиболее характерные затруднения и некоторые "ловушки для новичков". В приложении дан достаточно обширный список адресов сети Internet, содержащих информацию по различным аспектам физического образования и научной работы в области физики. Предназначено для студентов младших курсов физического факультета.
2
1. Общее представление о глобальной сети Internet 1. 1. Протоколы передачи данных Internet является глобальной сетью, объединяющей множество разнородных локальных компьютерных сетей. Процесс передачи данных по сети в упрощенном виде можно представить следующим образом. Для передачи данные разбиваются на порции, которые снабжаются необходимой управляющей информацией (заголовком). Данные вместе с управляющей информацией образуют пакет. Управляющая информация состоит из адреса компьютера-получателя, порядкового номера пакета и другой информации. На компьютере-получателе пакеты собираются в нужном порядке независимо от того, в какой последовательности они поступили. Таким образом, данные являются аналогом письма, а управляющая информация служит в качестве адреса на конверте. Формат и объем пакетов, а также порядок их передачи и сборки на компьютере-получателе в Internet определяется набором протоколов TCP/IP (Transmission Control Protocol/Internet Protocol — протокол управления передачей/межсетевой протокол). Протокол TCP отвечает за организацию сеанса связи между двумя компьютерами в сети, а IP — за маршрутизацию, т. е. за то, чтобы пакет был доставлен по нужному адресу. Примерами TCP протоколов являются http (hypertext transfer protocol (протокол передачи гипертекста)), ftp (file transfer protocol (протокол передачи файлов)) и т. д., с которых начинаются адреса узлов Internet (Web-узлов), т. е. компьютеров, подключенных к этой сети, а также адреса отдельных документов, хранящихся на Web-узлах. Чтобы при передаче данных не возникало накладок, каждый компьютер в Internet, должен иметь свой IP-адрес. Причем адрес этот должен быть уникальным. IP-адрес представляет собой последовательность из четырех чисел, разделенных точками. Каждое из этих чисел занимает один байт памяти машины и, следовательно, может принимать значения от 0 до 255 (например, 147.120.3.28 и т. д.). Крайнее левое число является номером сети самого верхнего ранга. Два следующих числа обозначают участки сетей более низкого ранга, а самое последнее из них определяет конкретный сетевой компьютер, или хост (host). В общем случае под термином "хост" понимается любое устройство, использующее TCP/IP для общения с другим оборудованием.
3
1.2. Система доменных имен Поскольку длинные последовательности цифр трудно запоминаются, в качестве альтернативы цифровым IP-адресам были предложены условные названия—так называемые доменные имена (domain host name). Например, сервер физического факультета, установленный в ауд. 122 (2001 г.), имеет доменное имя: phys.rnd.runnet.ru. Здесь первый сегмент (phys) указывает на физический факультет, второй сегмент (rnd) указывает на город (сокращение от Rostov-on-Don), третий сегмент (runnet) определяет название подсети Internet (напомним, что Internet — это сеть сетей!) и четвертый сегмент (ru) указывает на страну (Russia). Таким образом, доменное имя представляет собой набор разделенных точками символьных последовательностей. Число составляющих доменного имени может быть разным. Однако если в IP-адресе старшая часть находится слева, то в доменных именах она размещена справа. Эта последняя часть доменного имени называется идентификатором или доменом первого уровня. Как было видно из приведенного выше примера, этот домен может указывать на страну, но для адресов на территории США домен верхнего уровня обычно определяет тип организации, которой принадлежит данный Web-узел. Например, • gov — для компьютеров правительственных структур; • edu — для учебных заведений; • org — для определения учреждений и частных компаний, которые не принадлежат к указанным выше категориям, но и не являются коммерческими. Заметим, что адреса почти всех американских научных обществ имеют этот идентификатор (например, www.aps.org -- адрес сервера Американского физического общества(American Physical Society, APS); •com — для коммерческих организаций (фирм и компаний). Если домен верхнего уровня указывает на страну, то он представляет собой специфический для каждой страны двухбуквенный идентификатор. Например, для России — ru, для Великобритании — uk, для Германии — de, для Италии — it и т. д. Левее идентификатора, т. е. домена верхнего уровня, указаны домены нижнего уровня, называемые также поддоменами, которые последовательно уточняют местоположение данного компьютера (хоста). Это легко понять из приведенного выше адреса физического факультета. Очевидно, пользователю легче работать с доменными именами, поскольку они имеют постоянную структуру, позволяющую легко понять, какой организации принадлежит адрес и в какой стране эта организация находится. Следует помнить, что вводимое вами доменное имя преобразуется в понятный компьютеру цифровой IP-адрес. "Занимается" этим специальная служба — 4
Domain Name System (DNS — система доменных имен). Она имеет базу данных, в которой для каждого символического доменного имени компьютера содержится соответствующий ему IP- адрес. Именно благодаря работе DNS можно не запоминать IP-адрес, а использовать более наглядное доменное имя. 1.3. URL-адреса URL-адрес представляет собой непосредственный указатель информационных ресурсов в Internet. Как уже говорилось, каждый подключенный к Internet компьютер имеет свой уникальный адрес, представленный или комбинацией цифр (IP-адрес), или определенным сочетанием символов (доменное имя). Однако этой информации недостаточно, чтобы найти на компьютере конкретный документ, который хранится в виде файла в определенном каталоге. Как известно, для получения доступа к нужному файлу необходимо указать путь к нему. Однако при обращении через сеть этого опять-таки мало — требуется указать, какой протокол должен применяться для доступа к информации. Все перечисленные элементы (протокол, описывающий метод доступа, адрес компьютера, путь к файлу и его имя) содержатся в уникальном адресе каждого информационного ресурса, называемом URL (Universal Resource Locator — универсальный указатель ресурсов). URL также называют адресом ресурса или просто адресом. Полный, т. е. содержащий все элементы, URL выглядит следующим образом: Протокол://адрес_сервера/путь/имя_файла Протокол, определяющий метод доступа, это первая часть адреса, которая отделяется от остальной его части двоеточием и двумя наклонными чертами(://). Адрес_сервера — это доменное имя компьютера, на котором размещены данные. Путь — последовательность имен каталогов и подкаталогов, в последнем из которых содержится нужный файл. Имена каталогов разделяются наклонной чертой(/). Имя_файла — имя конечного файла (документа), который мы ищем. Оно должно иметь определенное расширение. Имена Web-страниц имеют расширение html, имена файлов, в которых хранятся научные статьи,— расширение pdf, а имена мультимедиа-документов — расширение gif, jpeg (графика), wav, au (звук), avi (видео) и т. д. Полный URL-адрес является очень длинным. Его непосредственный набор крайне не удобен и, более того, сопряжен с ошибками. Поэтому в наиболее обширной и важной Internet-службе, называемой Всемирной Паутиной (WWW — World Wide Web), используется аппарат гиперссылок. Под термином гиперссылка 5
подразумевается слово или несколько слов, выделенных из общего текста другим цветом, а иногда подчеркиванием. На самом же деле, это лишь одна, видимая часть гиперссылки, называемая указателем. Вторая ее часть называется адресом ссылки. Когда мы щелкаем на указателе левой кнопкой мыши, происходит считывание адреса ссылки и мы переходим на новую Web-страницу, имеющую именно этот адрес. Гиперссылками могут быть не только слова, но и любые символы и картинки. Если данный элемент является гиперссылкой, указатель мыши при подведении к нему принимает вид кулачка с вытянутым указательным пальцем, а внизу на экране, в строке состояния Web-страницы высвечивается URL-адрес, соответствующий этой ссылке. Например, адрес американского университета Brigham Young University (BYU) имеет вид: http://www.byu.edu. По этому адресу мы попадаем на home page этого университета, что переводится обычно как домашняя (начальная, исходная, заглавная) страница. Именно с нее удобно начинать свое виртуальное путешествие по Web-узлу любой организации, будь то маленькая университетская лаборатория, могучая компьютерная фирма или государственное учреждение. В этом путешествии мы с помощью гиперссылок переходим от одного документа к другому, который может находиться на другом компьютере и в другой части мира. Если имя файла в URL явно не указано, то по умолчанию загружается файл с домашней страницы. Адреса электронной почты отличаются от стандартных URL-адресов: они состоят из двух частей, разделенных @. Справа от этого символа указывается доменное имя компьютера, на котором располагается почтовое отделение абонента, а слева от него размещается условное имя абонента. Обычно таковым является комбинация символов, взятых из фамилии и имени. Например, профессор BYU Harold Stokes имеет e-mail-адрес вида
[email protected]. Здесь стоящее после символа @ имя landau есть имя компьютера проф. Стоукса, данное в честь нашего знаменитого физика А. Д. Ландау. 1.4. Броузеры Броузер (от англ. слова browse — просматривать) представляет собой специальную программу для просмотра информационных богатств сети Internet, прежде всего, для путешествия по WWW-страницам Всемирной паутины, которая в настоящее время является основным ресурсом этой сети. Существует большое число разных броузеров, среди которых наибольшей популярностью пользуются Netscape Navigator (NN) фирмы Netscape Communications (он входит в состав пакета Netscape Communicator) и Internet Explorer (IE) фирмы Microsoft. Заметим, что по преобладающему количеству параметров вышеуказанные два броузера практически одинаковы. В нашей стране почти повсюду Internet Explorer установлен в руссифицированной версии. При запуске броузера открывается окно, напоминающее окна операционной системы Windows, с набором кнопок, смысл которых обычно интуитивно поня6
тен. В верхней строке отображается название текущего документа, а в строке озаглавленной Location (Адрес), его URL-адрес. Под заголовком располагается строка меню. Первые три ее кнопки — Fail (Файл), Edit (Правка) и View (Вид) — не только по имени, но в основном и по перечню входящих в них команд совпадают с соответствующими меню системы Windows. В частности, кнопка File (Файл) позволяет перенести рассматриваемый документ на различные носители информации (на жесткий диск, на гибкие диски или просто распечатать его на бумаге). В поле ввода адреса можно набрать URL-адрес интересующей нас Webстраницы. За процессом загрузки этой страницы можно следить с помощью строки состояния — самой нижней строки в окне броузера, предназначенной для индикации тех действий, которые в данный момент выполняет броузер (сообщение о ходе загрузки данных, о ее скорости и т. д.). Чтобы загрузить следующую Web-страницу можно ввести в поле адреса новый URL или указателем мыши выбрать интересующую нас гиперссылку в текущей Web-странице и щелкнуть на ней мышью. Таким образом, работу с броузером можно представить как перемещение по паутине ссылок на различные Webстраницы. Все найденные нами страницы будут оставаться доступными до тех пор, пока не будет закрыт броузер, и мы можем вернуться к любой из них, воспользовавшись командой Go (Переход). Открыв эту команду, мы увидим список названий уже загруженных Web-страниц. Чтобы вернуться на нужную страницу, можно подвести указатель мыши к ее адресу в этом списке и щелкнуть левой кнопкой мыши. Для облегчения такого перемещения можно воспользоваться кнопками Back (Назад) и Forward (Вперед) на панели инструментов, но при этом Webстраницы будут перелистываться по одной. При сохранении Web-страницы с помощью команды Save as (Сохранить как) в меню File (Файл) на жесткий диск можно записать только текст без рисунков. Если же мы хотим сохранить Web-страницу с рисунками, то в том же меню File (Файл) нужно выбрать команду Edit Page (Редактировать), а уже после этого выбрать команду Save File as (Сохранить файл как). Но так как рисунки следует записывать в виде отдельных графических файлов, то предварительно для этой Web-страницы следует создать специальную папку. Кроме того, желательно сразу же, прямо в редакторе, удалить все рекламные рисунки, которые занимают много места и засоряют каталог папки. Броузер предоставляет возможность параллельной работы с несколькими Web-страницами (см. меню File (Файл)). Переключение между окнами можно осуществлять с помощью панели задач Windows. Указав разные адреса в разных окнах, мы можем начать работать с одной Web-страницей, а в это время в другом окне будет загружаться следующая. При необходимости можно прервать процесс загрузки Web-страницы нажатием кнопки Stop (Стоп).
7
При чтении Web-страниц, написанных на русском языке, нередко возникают проблемы связанные с различием кодировок русских букв (кириллицы) на Web-сервере, откуда читается страница, и той кодировки, которая установлена на нашем броузере. В качестве стандартной кодировки русских букв в Internet принята кодировка KOI8-R, которую поддерживают компьютеры под управлением операционной системы Unix. Однако повсеместное внедрение операционной системы Windows привело к тому, что все чаще используется ее кодировка кириллицы — Windows1251. При использовании IE кодировку кириллицы можно сменить с помощью значка кодировки, расположенного в правом конце строки состояния броузера. Установив курсор на этом значке, мы увидим название текущей кодировки, а для ее изменения нужно щелкнуть на значке и выбрать из появившегося списка нужную кодировку. Отметим, также что для удобства многие параметры броузера можно изменять, для чего в случае NN нужно использовать команду Preferences меню Edit, а в случае IE — команду Параметры меню Вид. Броузеры хранят историю (History) блуждания по сети Internet на протяжении определенного времени. Соответствующим списком адресов, которые мы посещали во время предыдущих сеансов, можно воспользоваться для того, чтобы вызвать нужную нам страницу без набора ее длинного URL-адреса. Более того, броузер предоставляет более действенную методику, которая позволяет получить быстрый доступ к наиболее часто используемым адресам. Это система так называемых электронных закладок — Bookmarks (Закладки) для NN броузера и Favorites (Избранные страницы) для IE броузера. Таким образом, каждый пользователь может создать свою личную библиотеку адресов. Наиболее удобно добавлять новые адреса в папку с закладками с помощью контекстных всплывающих меню, которые появляются при нажатии правой кнопки мыши. Если при этом курсор мыши находился на гиперслове, то с помощью команды Add Bookmark в случае NN броузера, или Добавить в папку в случае IE броузера, мы можем добавить определяемый этой гиперссылкой URLадрес в папку Bookmarks (Избранное). С помощью команды Copy Link Location этот адрес можно скопировать в буфер обмена Windows с тем, чтобы затем поместить его в какой-либо документ, например, в создаваемую нами свою собственную Web-страницу. Заметим, что закладки можно добавить и вручную с помощью команды Edit Bookmarks из меню Bookmarks. Как и для любой другой ценной информации, для папки Bookmarks целесообразно делать резервные копии, например, на гибких дисках.
8
2. Классификация поисковых систем Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети). Необходимо учесть, что "поиск - это искусство", как совершенно справедливо отмечено на титульной странице российской поисковой системы Яndex. Ниже мы рассмотрим методику поиска информации в рамках наиболее обширной, важной и удобной службы сети Internet, называемой, как уже говорилось, Всемирная Паутина (WWW). Эта служба работает с отдельными страницами (Web-документами) и позволяет с помощью одного щелчка мыши переходить от страницы, хранящейся на некотором конкретном сервере сети Internet, к другой странице, на которую в ней имеется ссылка, причем последняя страница может храниться на совершенно другом сервере, сколь угодно далеком от данного. Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего выделяют так называемые тематические каталоги (например, Yahoo!) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Webдокументах, а именно в этой базе данных. Тематические каталоги и автоматические индексы различаются, прежде всего, по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит совершенно автоматически. Базы данных тематических каталогов составляются и систематически пополняются экспертами в соответствующих областях на основании новых Webдокументов, обнаруженных в Internet специальными поисковыми программами. Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Webстраницы и серверы вместе с кратким описанием их содержимого. По этому иерархическому каталогу можно путешествовать, начиная с более общих категорий (понятий) к более узким, специализированным. Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей "лестнице" понятий: Science (Наука) - Physics (Физика) - Theoretical Physics (Теоретическая физика) Theories (Теории) - String Theories (Теории струн) 9
В результате мы находим список сайтов, среди которых наибольший интерес представляет сайт Superstrings!. Щелкнув мышью на гиперссылке Superstrings!, мы попадаем на home page сайта, с соответствующим заголовком, на котором можно найти on-line учебник по теории суперструн, различные ссылки для дальнейшего чтения, глоссарий по суперструнам и т.д. Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием "человеческого фактора" в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, ибо из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %). Таким образом, несмотря на всю полезность тематических каталогов, использование лишь поисковых систем этого вида часто оказывается явно недостаточным. В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. Из каждого такого документа робот извлекает все содержащиеся в нем новые ссылки и добавляет их в свою базу адресов, в результате чего у программы-робота возникает возможность просмотра еще некоторого количества новых для него Web-документов. В каждом новом Web-документе робот анализирует все входящие в него слова и в разделе базы данных, соответствующем каждому данному слову, запоминается адрес (URL) документа, где это слово встретилось. Таким образом, база данных, создаваемая автоматическим индексом, фактически хранит сведения о том, в каких Web-документах содержаться те или иные слова. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства. Автоматический индекс имеет отдельную поисковую систему для обеспечения интерфейса с пользователем. Эта система может, просматривая базу данных, по заданному набору ключевых слов находить и выдавать на экран пользовательского компьютера адреса и краткую информацию обо всех Web-страницах, которые содержат данный набор ключевых слов (более подробно смотри ниже). Таким образом, автоматический индекс состоит из трех частей: программыробота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе данных. Именно с последней составляющей и работает пользователь. В силу такой организации, автоматический индекс не делает какой-либо классификации или оценивания информации. Интерфейс автоматических индексов позволяет пользователю задать некоторый набор ключевых слов, которые с его точки зрения, являются характерными для искомых им документов, и позволяют, таким образом, найти достаточно ограниченное число потенциально относящихся к делу Web-страниц. В качестве та-
10
ковых слов могут быть использованы некоторые специфические термины и их комбинации, достаточно редкие фамилии и т. д. Успех поиска нужной информации в значительной степени определяется именно удачным выбором ключевых слов, ибо в противном случае поисковая система может выдать многие тысячи и миллионы ссылок на не относящиеся к делу Web-документы. Например, для поиска научных публикаций по динамике нелинейных цепочек Ферми-Пасты-Улама очень удобно задать в качестве ключевого слова "Fermi-Pasta-Ulam" (или даже просто, FPU), поскольку такая комбинация фамилий присуща только данному предмету поиска. С другой стороны, по ключевому слову "Ivanov" пользователь, который хочет получить информацию об учении Порфирия Корнеевича Иванова, обнаружит в Интернете огромное число страниц, не имеющих никакого отношения к объекту поиска. Следует иметь ввиду, что начинающего пользователя подстерегает много разных неожиданностей, иногда доходящих до анекдотических ситуаций. Например, когда один из авторов настоящих методических указаний набрал свою фамилию, он получил ссылки не только на свои научные публикации, но и на Webстраницы, в которых были слова "Chechin war, chechin terrorists" и т. д. Более подробно мы рассмотрим ряд примеров удачного и неудачного выбора ключевых слов и их комбинаций ниже, при рассмотрении конкретных поисковых систем. Заметим, что если для автоматических индексов поиск по ключевым словам является единственным средством нахождения необходимой информации, то в тематических каталогах (например, в Yahoo!) это средство является альтернативным способом поиска наряду с путешествием по системе (дереву) вложенных друг в друга категорий. Некоторой разновидностью поисковых служб являются рейтинговые службы. Они предоставляют клиенту готовый список некоторых ссылок, к которым обращались наиболее часто другие пользователи сети Internet. Когда речь идет о темах, имеющих общественный интерес, таких как новости, музыка и т. д., такие рекомендации, полученные статистическим методом, являются весьма удобными и полезными. Такие услуги, в частности, обеспечивает отечественная служба Rambler.
3. Приемы простого поиска Каждая поисковая система (ПС )предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинаций ключевых слов. Однако есть общие элементы одинаково справедливые для большинства поисковых систем. Обычно все ПС допускают поиск Web-документов по ключевым словам, которые являются характерными для искомого документа. Выбор таких слов часто является нетривиальной задачей. 11
Как правило, указание одного ключевого слова является недостаточным, и тогда возникает вопрос о том, как задавать их соответствующие комбинации. Пусть, например, мы хотим получить информацию о российском лауреате нобелевской премии 2000 г. Жоресе Алферове. Указание в поле поиска только фамилии Alferov приведет к обнаружению огромного количества документов, большинство из которых никакого отношения к интересующему нас физику не имеет. Задавая же в поле поиска два ключевых слова Zhorez Alferov, разделенных символом пробела, мы должны иметь ввиду, что разные поисковые системы реагируют на этот символ по-разному. Большинство ПС рассматривают пробел как знак логической операции "или" (OR) (к ним относятся Yahoo, AltaVista и т. д.). Поэтому поиск по комбинации слов Zhorez Alferov не сократит, а, наоборот, увеличит количество документов, найденных поисковой системой: будут найдены все документы, где встречается или слово Zhorez, или слово Alferov, или оба эти слова вместе. В таких случаях для более адекватного поиска можно использовать заключение ключевых слов в кавычки, которые определяют точную комбинацию заключенных в них символов: "Zhorez Alferov". Однако, при этом не будут найдены документы, в которые входит комбинация этих слов в другом порядке (Alferov Zhorez), ибо всё заключенное в кавычки является единым словосочетанием, и поисковая система ищет в документах абсолютно точное совпадение всех символов этого словосочетания. Для того, чтобы найти только те Web-страницы, на которых одновременно присутствуют все наши ключевые слова, перед каждым из них нужно поставить знак плюс. Например, +Zhorez +Alferov приведет к нахождению Web-документов, где обязательно присутствует и слово Zhorez, и слово Alferov, причем не только в любом порядке, но и на любом расстоянии друг от друга (в последнем случае в найденном документе между этими словами может не быть никакой логической связи). Знак минус перед словом исключает все документы, которые его содержат, что в ряде случаев может быть очень полезно. Например, если нам нужно найти разные работы по геометрической, но не волновой оптике, то можно задать такую комбинацию ключевых слов +свет+оптика-волна Необходимо иметь ввиду, что многие слова могут иметь одинаковую основу, но разные окончания (например, указание множественного числа в англий12
ском языке, падежного окончания в русском и т. д.). В связи с этим многие поисковые системы, получив наш запрос в виде последовательности ключевых слов, производят его нормализацию: отбрасывают из этого запроса все слова, состоящие менее чем из четырех символов (например, английский предлог OF), а также отбрасывают различные окончания и суффиксы. Например, чтобы не пропустить документ, в который входит фраза "В геометрической оптике световой луч...", поисковая система может приведенный нами выше запрос свести (нормализовать) к виду +свет+оптик*-волн* (1) Здесь символом звездочка (*) обозначены любые комбинации символов после корня соответствующих слов. Поскольку не все ПС проводят такую первоначальную обработку запроса клиента, целесообразно самим задавать запрос в форме (1), то есть использовать символ "звездочка" для указания возможных вариаций окончаний ключевых слов. Необходимо иметь в виду некоторое различие при использовании больших (прописных) и малых (строчных) букв в ключевых словах. Обычно поиск по маленьким буквам учитывает совпадения и когда в тексте стоит большая буква, и когда маленькая. Написание же ключевых слов большими буквами означает поиск документов, содержащих слово именно в таком виде. Очень полезным может быть поиск ключевых слов только в заголовках Web-страниц, поскольку важность заголовка документа обычно больше важности его текста. В разных ПС поиск ключевых слов лишь в заголовках Web-страниц, задается с помощью разных служебных слов: в AltaVista это слово title:, в Yahoo! — t: в Rambler — $ title:, и т. д.
4. Приемы расширенного поиска Приемы простого поиска не всегда позволяют с достаточной эффективностью найти требуемые нам Web-документы, в связи с чем поисковые системы предоставляют клиенту возможность использовать средства так называемого расширенного (advanced) поиска. Запросы для расширенного поиска строятся из ключевых слов, связанных знаками логических операций, и имеют вид аналогичный булевским выражениям, используемым в языках программирования. При этом кроме стандартных логических операций OR ("или"), AND ("и") и NOT (отрицание) используется, (и является очень эффективной!) операция NEAR, определяющая степень близости друг к другу ключевых слов в Web-документе (см. ниже). При выполнении сложных запросов важно понимать, в каком порядке выполняются приведенные выше операции, то есть каков их приоритет. В последовательности OR, AND, NOT, NEAR приоритет операций возрастает слева напра13
во. Порядок выполнения отдельных элементов сложного запроса можно изменить с помощью круглых скобок, как это принято при записи булевских выражений в программировании. В отличие от средств простого поиска, средства расширенного поиска гораздо более стандартизованы для разных поисковых систем (см., впрочем, таблицу 2!). Большим преимуществом расширенного поиска является также гибкость предлагаемых клиенту возможностей построения запроса, а существенным недостатком — значительно более медленная его работа по сравнению с простым поиском. Ниже при описании работы отдельных логических операций и образования с их помощью сложных запросов на поиск, мы будем использовать несколько понятий из нелинейной динамики и в частности, понятие bushes of normal modes (кусты нормальных мод) и т. д. OR (операция "или") выполняет ту же самую функцию, что и знак пробела в запросах простого поиска в большинстве ПС. Например, запрос bush OR modes приводит к поиску документов, в которых есть или слово bush, или слово modes, или оба эти слова одновременно. AND (операция "и")приводит к нахождению документов, в которых обязательно встречаются оба связанных этой операцией слова, но при этом они могут находиться на любом расстоянии друг от друга. В результате может оказаться, что в документе нет какой-либо логической связи между двумя заданными ключевыми словами. Например, в ответ на запрос bush AND modes поисковая система AltaVista выдает ссылки не только на соответствующие научные работы по нелинейной динамике, но и на отдельные главы известного фантастического романа Г. Уэльса "Борьба миров"(!), которые, разумеется, не имеют никакого отношения к предмету нашего поиска. NOT — операция отрицания, позволяющая исключить те Web-документы, которые содержат ненужное нам словосочетание (таким образом, эта операция в сложном поиске играет ту же самую роль, что и знак "минус" в простом поиске). NEAR (логическая операция, указывающая степень близости друг к другу ключевых слов) является одной из самых удобных команд расширенного поиска. В разных поисковых системах понятие близости слов разное. Например, AltaVista считает близкими слова, которые разделены не более чем десятью другими словами. Некоторые другие ПС допускают при записи операции NEAR указание степени близости в явном виде, то есть позволяют определить максимально допустимое число посторонних слов, которые могут стоять между двумя ключевыми словами, связанными этой операцией. Запрос вида 14
bush NEAR modes приведет к поиску документов, в которых два указанных ключевых слова стоят достаточно близко друг к другу, и стало быть, скорее всего связаны по смыслу. Например, в тексте Web-страницы может быть фраза: "Bushes of normal modes..". Запрос Жорес NEAR Алферов приведет к поиску документов, в которых есть словосочетания Жорес Иванович Алферов, Алферов Жорес Иванович и т. д. Заметим, что при использовании операции NEAR порядок следования ключевых слов в документе указать невозможно, что, впрочем, является скорее не недостатком, а преимуществом, и это хорошо видно из только что приведенного запроса. Как уже было сказано, с помощью вышеописанных логических операций можно задавать запрос на поиск в виде сложного логического выражения. Например, запрос на поиск информации в зарубежных изданиях о развитии физикоматематических наук в нашем университете мог бы иметь вид: (Rostov-on-Don and University) and (physics OR mathematics) По такому запросу будут найдены Web-документы, в которых обязательно встречаются слова Rostov-on-Don, University и хотя бы одно из слов physics или mathematics. Составленный таким образом запрос может определять и порядок поиска документов. Например, в соответствие с вышеприведенным запросом сначала будут найдены документы, в которых упоминается Ростов-на-Дону и университет, после чего среди них отбираются документы, в которых встречается упоминание о физике или математике (при условии, что броузер анализирует логические выражения слева направо). Несмотря на существование некоторых общих принципов организации поиска Web-документов, различные ПС могут весьма сильно отличаться друг от друга по предоставляемым клиенту возможностям, по внешнему виду своих заглавных страниц и т. д., в силу чего знакомиться с ними желательно при непосредственной работе в сети Internet. Мы же в качестве примера приведем ниже лишь очень краткое, схематическое описание двух наиболее популярных в настоящее время ПС Yahoo (тематический каталог) и AltaVista (автоматический индекс), отсылая читателя к соответствующим литературным источникам [1,2] и к самим этим системам, которые имеют достаточно наглядный, дружественный интерфейс и достаточно хорошие справочные системы (Help). В Приложении 1 к настоящим методическим указаниям для справочных целей мы приводим сводную таблицу, в которой дается сравнение различных приемов простого и сложного поиска для двух зарубежных поисковых систем Yahoo, AltaVista и для двух отечественных поисковых систем Rambler и Yandex.
15
5. Тематический каталог Yahoo Вызов поисковой системы Yahoo можно осуществить с помощью адреса http://www.yahoo.com. Заметим, что броузеры обычно допускают возможность не полного набора адреса. Например, в нашем случае Netscape Communicator позволяет для вызова Yahoo набрать в поле адреса только слово Yahoo, а остальная часть адреса дописывается броузером автоматически. Заглавная страница Yahoo (см. рис. 1) предоставляет клиенту возможность обращаться к двум основным методам работы с этой поисковой системой — к поиску Web-документов по ключевым словам, поле набора которых находится слева от кнопки "Search" ("Поиск"), и к поиску с помощью иерархического дерева различных разделов (категорий), расположенного ниже. Заметим, что и в том, и в другом случае поиск ссылки на нужный нам Webдокумент происходит в одной и той же базе данных, но разными способами. Открыв интересующий нас раздел тематического каталога щелчком мыши по его названию, мы увидим новую страницу Yahoo, которая имеет точно такую же структуру, как и заглавная страница: она содержит поле поиска по ключевым словам и список подразделов выбранного нами раздела, и т. д. На заглавной странице Yahoo можно увидеть также рекламные объявления, различные дополнительные категории (“More Yahoo!s”), например, новости (“News”), которые содержат, в частности, информацию о погоде (“Weather”) и т. д. URL-адрес текущей страницы можно увидеть вверху этой страницы в строке, обозначенной словом "Location". Если общее число найденных Yahoo ссылок достаточно велико, то список этих ссылок разбивается на порции. По умолчанию такая порция содержит 20 ссылок, но это число можно изменить, если обратиться к странице опций поиска, кнопка запуска которой находится рядом с кнопкой поиска "Search". Там же можно переопределить роль пробела между ключевыми словами (считать ли его логической операцией OR или логической операцией AND), и т. д. На странице выбора опций есть также переключатель, который позволяет включить или выключить режим поиска целых слов. В режиме Substrings Yahoo найдет все ссылки, в которых указанное нами слово стоит не только само по себе, но и является частью других слов, например, поиск слова "art" (искусство) сработает и на слове "department" (отдел, кафедра и т. д.). По умолчанию установлен режим Substrings, для того чтобы пользователь не был вынужден вводить каждое существительное в единственном и во множественном числе (т. е., с окончанием "-s"), и т. д. Напротив, в режиме Complete Words находятся заказанные нами клю16
чевые слова только в том случае, если они ограничены с обеих сторон пробелами или знаками препинания. Рис. 1. Поисковая система Yahoo Yahoo
Y! Bill Pay view and pay bills online
My Yahoo! create your own
[]
Search
advanced search
Auctions - buy/sell anything - Ichiro Suzuki, PlayStation 2, coins, Longaberger, cameras, Pokemon, autos... Shop Auctions · Classifieds · PayDirect · Shopping · Travel · Yellow Pgs · Maps Media Finance/Quotes · News · Sports · Weather Connect Careers · Chat · Clubs · Experts · GeoCities · Greetings · Mail · Members · Messenger · Mobile · Personals · People Search Personal Addr Book · Briefcase · Calendar · My Yahoo! · Photos Fun Games · Kids · Movies · Music · Radio · TV more...
Departments · Apparel · Beauty · Books · Computers · Gourmet
Yahoo! Shopping Mother's Day is May 13. Stores Features · Bargains · JCPenney · Mother's Day · Flowers · Barnes&Noble · Free Shipping · Music · GiftCertificates · Shaggy · Sports · Avon · Yahoo! Wallet · more depts. · more stores... · more features FTD.COM - Send Fresh Flowers Today!
Arts & Humanities Literature, Photography...
News & Media Full Coverage, Newspapers, TV...
Business & Economy B2B, Finance, Shopping, Jobs...
Recreation & Sports Sports, Travel, Autos, Outdoors...
Computers & Internet Internet, WWW, Software, Games...
Reference Libraries, Dictionaries, Quotations...
Education College and University, K-12...
Regional Countries, Regions, US States...
Entertainment Science Cool Links, Movies, Humor, Music... Animals, Astronomy, Engineering... Government Elections, Military, Law, Taxes...
Social Science Archaeology, Economics, Languages...
Health Society & Culture Medicine, Diseases, Drugs, Fitness... People, Environment, Religion...
17
In the News · U.S. spy plane deemed flyable · Ohio Rep. charged with bribery · Writers, studios reach agreement · Hackers hit White House website · Playoffs: NBA, NHL - MLB more... Marketplace
Find the Perfect Gift for Mom
· Insurance - Auto, Life, Health, Home - get quotes, tips, more · Looking for a car? job? house? date? Broadcast Events · 1pm ET : Penguins vs. Sabres · 6:30pm : Mavericks vs. Spurs · 7pm : Maple Leafs vs. Devils more... Inside Yahoo! · Y! Movies - The Mummy Returns, Driven, Spy Kids · Golf Handicap Tracker · Y! Photos - post your pics online · Y! Radio - tune in to your favorite station · Y! Games - backgammon, euchre, hearts, chess, pinochle
Local Yahoo!s Europe : Denmark - France - Germany - Italy - Norway - Spain - Sweden - UK & Ireland Asia Pacific : Asia - Australia & NZ - China - HK - India - Japan - Korea - Singapore - Taiwan Americas : Argentina - Brazil - Canada - Chinese - Mexico - Spanish U.S. Cities : Atlanta - Boston - Chicago - Dallas/FW - LA - NYC - SF Bay - Wash. DC - more... More Yahoo!s Guides : Autos - Careers - Health - Living - Outdoors - Pets - Real Estate - Yahooligans! Entertainment : Astrology - Broadcast - Events - Games - Movies - Music - Radio - Tickets - TV - more Finance : Banking - Bill Pay - Insurance - Loans - Taxes - FinanceVision - more Local : Classifieds - Events - Lodging - Maps - Restaurants - Yellow Pages - more News : Top Stories - Business - Entertainment - Lottery - Politics - Sports - Technology - Weather Publishing : Briefcase - Clubs - Experts - Invites - Photos - Home Pages - Message Boards Small Business : Biz Marketplace - Domain Registration - Small Biz Center - Store Building - Web Hosting Access Yahoo! via : Pagers, PDAs and Web-enabled Phones Make Yahoo! your home page How to Suggest a Site - Company Info - Copyright Policy - Terms of Service - Contributors - Jobs - Advertising
В связи с этим, приведем один из примеров неожиданной реакции поисковой системы на неудачные запросы по ключевым словам. Задав в поле поиска слово Ivanov, мы получили серию ссылок на Web-документы, первые три из которых относятся к лауреату нобелевской премии 2000 года Жоресу Ивановичу Алферову, городу Иваново и поэтессе Марии Ивановне Цветаевой: Science>Physics>Physicists Alferov, Zhores Ivanovich(1930—) Regional>Countries>Russia>Cities and Towns Ivanovo Arts>Humanities>Literature>Authors>Poets Tsvetaeva, Marina Ivanovna(1892—1941) Причина такой реакции Yahoo на наш запрос становится очевидной, если учесть, что в приводимых фрагментах найденных Web-документов эта поисковая система отмечает жирным шрифтом части слов, которые совпадают с заданным нами ключевым словом Ivanov. Поисковая система Yahoo ищет ссылки на документы, соответствующие нашему запросу, в нескольких различных базах данных, прежде всего это названия категорий и заголовки Web-сайтов. Если необходимые ссылки таким образом не были найдены, Yahoo автоматически организует поиск в базе данных индивидуальных Web-страниц. Клиент может заказать поиск в одной из этих баз данных щелчком мыши на кнопках, которые расположены ниже поля ввода ключевых слов. Результаты поиска ПС Yahoo упорядочивает в соответствии с несколькими критериями, которые определяют рейтинг данной ссылки. Более высокий рейтинг присваивается документам, в которых ключевые слова встречаются большее чис18
ло раз, в которых они входят в заголовок или если ссылка соответствует более старшему разделу в иерархическом дереве категорий. В конце страницы с результатами поиска Yahoo предлагает воспользоваться услугами нескольких других поисковых систем, если клиент не удовлетворен результатами этого поиска. Такие ссылки удобны тем, что система Yahoo, при обращении к ним, сама впишет наши ключевые слова в бланк запроса вызванной таким образом другой поисковой системы. Заметим в заключение, что Yahoo предоставляет около млн. ссылок на Web-страницы и это чуть более 0,1 % всего Webпространства.
6. Автоматический индекс Alta Vista Вызов этой поисковой системы можно осуществить по адресу: http://altavista.digital.com (для многих броузеров достаточно при этом набрать только слово altavista). Alta Vista имеет одну из самых больших баз данных в классе автоматических индексов, и самые мощные и гибкие правила построения запросов. При этом Alta Vista имеет как систему простого поиска (simple search), так и систему расширенного поиска (advanced search), кнопка которой находится ниже поля ввода ключевых слов. В последней версии поисковой системы Alta Vista (2000г.) предусмотрена возможность поиска информации и с помощью каталога категорий, устроенном аналогично каталогу системы Yahoo, причем, поиск по ключевым словам можно осуществить лишь в рамках определенной категории. Поиск Web-документов по ключевым словам можно осуществлять в базе данных для WWW-страниц или в базе данных телеконференций (Usenet). Для выбора одной из этих баз данных — содержимого WWW или Usenet — служит выпадающий список, который можно вызвать с помощью кнопки, находящейся под панелью заголовка этой системы, на ее заглавной странице. При использовании простого поиска системы Alta Vista необходимо учитывать его отличия от соответствующего средства ПС Yahoo. Действительно, по умолчанию Alta Vista, в отличие от Yahoo, ищет вхождения целых слов: заказанный термин должен стоять в Web-документе обособленно, а не быть частью других цепочек символов. Если же необходимо найти все вхождения данного ключевого слова, даже когда оно является частью других слов, необходимо использовать символ * (этот символ может стоять только в конце ключевого слова и заменять не более пяти букв). Например, запрос вида Ада* приведет к нахождению документов, в которых есть слова “Ада”, ”Адам”, ”Адажио” и т. д. Поисковая система Alta Vista, как и большинство других поисковых систем, предлагает клиенту и ряд дополнительных возможностей, в частности, позволяет находить лишь те Web-документы, в которых заданные ключевые слова встречаются только в гипертекстовых ссылках, заголовках документов, в их URL-адресах (что дает возможность находить все Web-страницы, расположенные на сервере с данным адресом) и т. д. Для этого в Alta Vista используются специальные команды: Anchor, title и т. д. Такие возможности можно использовать как порознь, так 19
и вместе друг с другом. Бланк для расширенного поиска (advanced search) отличается от бланка простого запроса наличием двух полей. Второе из них — Results Ranking Criteria — полностью аналогично полю ввода бланка простого поиска, и в нем можно использовать те же специальные выражения, кавычки и знаки +, -, *. Однако здесь это поле играет лишь вспомогательную роль, определяя порядок сортировки полученных результатов: документы, содержащие ключевые слова из поля Ranking будут стоять в списке первыми. Ключевые же слова для собственно поиска должны вводиться в первом из полей — Selection Criteria. Запросы в этом поле строятся по описанным нами ранее правилам (см. раздел 3. Расширенный поиск) с использованием операций NEAR, NOT, AND, OR. Кроме того, внизу бланка поиска находится поле для ввода дат, позволяющих задать промежуток времени, в который были созданы или изменены интересующие нас документы. Об особенностях поиска в Alta Vista документов на русском языке см. [1, стр. 180]. Заметим, что искать документы по русским ключевым словам в каталоге Yahoo смысла не имеет, поскольку сотрудники этой службы на русском языке не говорят (об отечественных поисковых системах Rambler, Яndex и др. см. ниже). 7. Поиск информации о телеконференциях (Usenet) WWW-страницы являются самым масштабным и ценным, но не единственным источником информации в Internet. Большой интерес представляет система телеконференций Usenet, в которой каждый день публикуется более 100 тысяч сообщений со всего мира. Если клиент интересуется какой-либо определенной темой, он может просто подписаться на соответствующую группу телеконференций. Однако если он хочет не обсуждать свою проблему с живыми людьми, а просто выяснить, что известно по тому или иному вопросу, можно воспользоваться системами автоматического поиска в содержимом Usenet. Alta Vista ведет отдельный индекс по более чем 10 тысячам телеконференций, для поиска в котором нужно лишь перебросить переключатель поиска из значения "the Web" в значение "Usenet" (все правила составления запроса и установки опций в обоих этих случаях одинаковы). Результаты поиска представляют собой отсортированный список заголовков статей, полный текст любой из которых можно получить щелчком мыши по ее заголовку. Совершенно уникальным источником информации являются документы с ответами на часто задаваемые вопросы (Frequently Asked Questions, FAQs). Такой жанр вопросов и ответов прекрасным образом вводит совершенно неподготовленного читателя в самую суть дела. Если первоначально списки ответов на вопросы существовали только для групп телеконференций, то сейчас документы с заголовком "FAQ" используются для клиентов самых разнообразных серверов и служб. В этом жанре пишутся статьи и обзоры, а фирмы и организации пропагандируют свои цели и устремления. Если клиенту нужно в сжатые сроки ознакомиться с новой областью науки, техники, культуры или политики, советуется начать с чтения раздела "FAQ" соответствующей телеконференции Usenet. И хотя 20
таким образом нельзя приобрести слишком фундаментальные знания, зато можно быстро освоиться с терминологией, узнать о самых животрепещущих проблемах и нередко получить почти исчерпывающий список литературы. Коллекция FAQ'ов из всех групп Usenet находится на сервере ftp://rtfm.mit.edu, документы на котором распределены по соответствующей иерархии каталогов.
8. Отечественные поисковые службы Российский сектор Internet в настоящее время бурно развивается, и хотя отечественные поисковые системы еще отстают от соответствующих зарубежных систем по объему своих каталогов и индексов, по некоторым показателям (прежде всего, по применению новых технологий при обработке результатов поиска) они не уступают своим заграничным аналогам, а в ряде случаев и превосходят их. Укажем, прежде всего, на автоматический индекс Aport 2000 и тематический каталог @Rus (Атрус), расположенных по адресам: http://www.aport.ru/ и http://www.atrus.ru/, соответственно. Эти две системы находятся в партнерских отношениях. Действительно, когда в результате проведенного поиска Aport 2000 выводит адрес некоторой Web-страницы, она может сопровождаться кратким описанием соответствующего Web-узла, взятым из каталога @Rus. С другой стороны, при наполнении каталога Атрус активно используются средства поисковой системы Aport. С точки зрения клиента, однако, эти поисковые системы являются все-таки независимыми средствами получения информации. Отметим некоторые их достоинства. Aport 2000 использует наиболее эффективную в настоящее время систему рейтингования по количеству ссылок, ведущих к данному ресурсу(по индексу цитирования). Поисковая система Атрус предоставляет клиенту удобный каталог-портал "Мой @Rus", который пользователь может настроить на быстрое получение наиболее нужной ему информации. Средства настройки этого каталога позволяют также отключить все лишнее на основной странице поисковой системы, что делает работу с ним особенно быстрой и удобной. 8.1. Rambler (http://www.rambler.ru/) Поисковая система Rambler обладает одним из крупнейших индексов в России, но основную популярность она приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему, и оценить их популярность по количеству посещений разными клиентами Internet за последние сутки. Хотя число посещений данного Web-узла далеко не всегда свидетельствует об истинной ценности имеющейся на нем информации, в случае тем, представляющих общественный интерес, такому рейтингу популярности можно доверять. Укажем на некоторые особенности поиска web-документов в системе Rambler. По умолчанию находятся только те документы, в которых встретились все заданные нами ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR (как это 21
имеет место по умолчанию в Yahoo или Alta Vista). Для этого в бланке расширенного поиска (см. рис. 2) нужно выбрать опцию “Слова запроса: любое”. Чтобы исключить документы, содержащие те или иные слова, последние нужно указать на соответствующем поле бланка расширенного поиска (см. рис. 2). Рис. 2. Поисковая система Rambler РАМБЛЕР
The Rambler's Banner Network
Расширенный поиск в Интернете
>>
Помощь
Поиск по тексту: всего документа Искать слова запроса:
названия ()
все ("и") хотя бы одно ("или") Расстояние между словами запроса:
заголовков (, , , ...)
точную фразу
не ограничивать ограничивать Исключить документы, содержащие следующие слова:
Язык документа: любой русский английский Дата документа (в формате "24/04/2001"): начиная с
по
Искать документы только на следующих сайтах: Примеры: science.rambler.ru, www.lenta.ru, www.hosting.ua/~name (после "/" - только каталоги, начинающиеся c "~" !)
22
Вывод результатов Сортировать:
Выдавать: Форма вывода:
сайты по релевантности
по 15
стандартная
страницы по релевантности
по 30
краткая
по 50
детальная
страницы по дате (сначала новые) страницы по дате (сначала старые)
Найти!
Рамблер - Тор100 - Магазины - Покупки - Подарки - Работа - Право - Здоровье - Компьютеры Сервисы: Почта - Чат - Адреса - Календарь - Закладки - Пейджер - Поиск файлов - Словари - Карты Сегодня: Новости - Финансы - Погода - Спорт - Руметрика Досуг: ТВ-программа - Гороскоп Связаться с нами. О Рамблере. Правовая информация. Обсудить Рамблер. Добавить ресурс. Разместить рекламу.
Copyright © 1996-2001 ОАО "Рамблер Интернет Холдинг"
8.2. Яndex (http://www.yandex.ru) Поисковая система Яndex выделяется своими мощными средствами расширенного поиска, а также целым рядом технологических достижений, например, наличием интеллектуального механизма морфологического разбора слов, что особенно важно для русского языка. Независимо от того, в какой форме мы написали ключевое слово в запросе, Яndex будет учитывать все его формы. Например, если ключевым является слово идти, находятся ссылки на Web-документы, содержащие слова идти, идет, и даже шёл. Однако существует возможность поиска и по точной словоформе, для чего перед этой словоформой надо поставить восклицательный знак “!”. Несколько набранных в запросе слов, разделенных пробелами, означает, что все они должны входить в одно предложение искомого документа (то есть пробел работает как знак логической операции AND). Следует иметь ввиду, что в ПС Яndex операцию AND можно указать и в явной форме с помощью символа “&” (но не с помощью слова AND !). Удвоение же этого знака, т. е. использование символа “&&”, приводит к распространению действия операции AND на весь документ (т. е. связанные с помощью && слова должны обязательно присутствовать в пределах всего документа). Символом же операции OR в рассматриваемой поисковой системе служит знак “|” (но не само слово OR). В ПС Яndex можно регулировать расстояние, на котором находятся друг от друга заданные ключевые слова в Web-документе. Например, запрос 23
физическое/(-2 4) образование означает, что слово физическое может находиться как слева от слова образование (на расстоянии максимум двух слов от него), так и справа (на расстоянии максимум четырех слов от него). Создавшая ПС Яndex компания CompTek бесплатно предоставляет для корпоративных клиентов (организаций) облегченную версию программы Яndex.Site, которая выполняет индексацию содержимого Web-узла. Это удобно владельцам тех Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах своего собственного узла. (Заметим, что большинство поисковых служб, наоборот, хранят в тайне свои средства индексации.) Поисковая система Яndex имеет очень хорошее описание в разделе “Помощь”, который настоятельно рекомендуется посмотреть перед использованием этой системы. Мы же отметим лишь несколько особенностей работы с ПС Яndex. 9. Поиск файлов Для обмена файлами (это могут быть текстовые файлы или файлы с программами) в сети Internet существует специальный протокол FTP (File Transfer Protocol — протокол передачи файлов). Поскольку на многих серверах есть файлы, которыми их хозяева готовы поделиться с кем угодно, существует универсальное соглашение: зайдя почти на любой FTP-сервер, можно ввести вместо входного имени слово "anonymous", а вместо пароля — свой электронный адрес. Если у владельцев этого узла есть файлы, которые они распространяют без ограничений, мы получим к ним доступ. Такой способ обмена файлами называется "анонимным FTP". Программное обеспечение, которое можно получить таким образом, относится либо к бесплатным (freeware), либо к условно бесплатным (shareware) программам, или же представляет собой демонстрационные версии коммерческих программ с ограниченными возможностями. Среди специальных систем поиска файлов в Интернете существуют аналоги уже рассмотренных нами ранее тематических каталогов (типа Yahoo) и автоматических индексов (типа Alta Vista). Разумеется, эти поисковые системы предоставляют клиенту не сами файлы, а лишь списки ссылок на них. Одной из самых популярных поисковых служб типа тематических каталогов для поиска файлов является shareware.com по адресу http://www.shareware.com. Эта система классифицирует файлы только по одному признаку: для какой операционной системы они предназначены, но она хранит описания всех файлов, составленные людьми. Заглавная страница shareware.com устроена аналогично страницам уже рассмотренных нами поисковых систем. Она предлагает клиенту различные виды поиска, причем, ключевые слова могут содержать символ *, соответствующий последовательности любых символов. Поиск производится как в именах, так и в описаниях файлов. Можно указать нижний временной порог поиска, чтобы получить ссылки на файлы, созданные не раньше заданной даты, и выбрать способ сортировки результатов—по дате или по алфавитному порядку имен файлов. Щелкнув на имени файла в списке результатов, мы получим ряд ссылок на узлы Internet, на которых хранятся копии этого файла с указанием надежности работы этих серверов и времени, необходимого для скачи24
вания файла в зависимости от пропускной способности нашего канала. В отличие от каталога shareware.com, поисковая система Archie является автоматическим индексом аналогичным Alta Vista. Список анонимных узлов для Archie приходится вести людям (его можно найти по адресу http://hoohoo.ncsa.uiuc.edu/ftp/). Поиск в базе данных сервера Archie производится с помощью ключевых слов, которые в данном случае представляют собой просто имена файлов или фрагменты имен. Заметим, что время ожидания связи с популярными FTP-узлами (такими, например, как богатое собрание программ для Windows (ftp://ftp.winsite.com)) может оказаться весьма большим, в силу чего в Интернете обычно имеются их точные копии или "зеркальные отражения" (mirrors), а поисковые системы выдают адреса всех этих зеркал. Каталог, содержащий общедоступные файлы, почти всегда называется pub. В большинстве архивов в каждом каталоге имеется специальный файл с краткими—обычно не длиннее одной строки—описанием каждого файла этого каталога. Такой файл может называться 0index, 00index и т. п. (нолики приписываются к имени файла, чтобы он всегда попадал на первое место в отсортированном по алфавиту списке файлов).
10. Поиск отдельных людей в сети Internet Наиболее просто найти информацию о человеке, если у него имеется в сети Internet своя личная страница (personal home pages), на которой обычно имеется его фотография, e-mail и почтовый адрес, телефон и т. д. Нередко такая страница содержит краткую биографию автора, его хобби и т. д. Одна из крупнейших систем для поиска личных страниц называется Who’sWho и расположена по адресу http://web.city.ac.uk/citylive/pages.html. Существуют также обширные каталоги электронных адресов различных людей, которые пользуются электронной почтой (e-mail). Лидерство здесь, повидимому, принадлежит каталогу Four11 по адресу http://www.four11.com. Отметим также каталог WhoWhere (http://www.whowhere.com), который производит поиск даже по схожести звучания или написания фамилий (например, “Kirsanov”, “Kirsanoff” и т. д.). Отечественный каталог электронных адресов располагается по адресу http://www.botik.ru/~intermap/form.html. Совершенно уникальным в настоящее время является всеамериканский адресный справочник по адресу http://www.databaseamerica.com, который выдает координаты любого из 90 млн. жителей США и любой из 10 млн. американских компаний.
11. Метапоиск Базы данных разных поисковых систем в значительной мере не пересекают25
ся. Поэтому для поиска достаточно редкой информации целесообразно обращаться не к одной, а к нескольким ПС. Однако правила оформления запросов для разных ПС, вообще говоря, отличаются друг от друга. Для того, чтобы не обращаться поочередно к разным поисковым системам и не думать о специфических правилах оформления запроса для каждой из них, были созданы так называемые метапоисковые системы. Приняв заказ клиента, заданный с помощью ключевых слов в соответствие со своими собственными правилами его оформления, метапоисковая система сама пропишет его в бланках разных поисковых систем, разошлет эти бланки и будет ждать ответа. Когда все поисковые системы пришлют результаты поиска, метапоисковая программа сведет их в один документ и отправит пользователю. К таким метапоисковым системам относится MetaCrawler расположенный по адресу (http://metacrawler.cs.washington.edu:8080), который рассылает запрос на 9 различных поисковых систем (в их число входит: Yahoo, Alta Vista, Lycos, Excite и т. д.). На случай разной интерпретации одних и тех же по смыслу опций в разных поисковых системах MetaCrawler предусматривает даже возможность проверки результатов поиска: прежде чем дать ссылку пользователю, он самостоятельно посмотрит на документ и проверит, соответствует ли он условиям запроса — так как их понимает MetaCrawler. Разумеется, этот режим проверки сильно задерживает получение результатов, но зато позволяет защититься как от неработоспособных ссылок, так и от бессмысленных результатов. Заметим, что на бланке запроса MetaCrawler можно задать время ожидания: в список будут включены только те результаты, которые успеют прийти с различных поисковых систем к этому моменту.
Краткий справочник полезных адресов Internet-ресурсов 1. Адреса Web-серверов, посвященных естественным наукам European Physical Society (EPS) Европейское Физическое Общество (ЕФО) http://128.178.177.16 Информационная система EurophysNet EPS включает Web-серверы физических факультетов целого ряда западноевропейских университетов. Основу ее заглавной страницы составляет множество разделов, число которых неуклонно растет. Часть разделов предоставляет общую, справочную информацию о ЕФО, по узким, но наиболее животрепещущим проблемам (конференции, публикации и т. п.). Особый интерес представляет собой принадлежащий ЕФО, информационный сервер TIPTOP (The Internet Pilot to Physics), расположенный по адресу: http://physicsweb.org/TIPTOP/ Заглавная страница TIPTOP состоит из нескольких разделов. В разделе The Virtual Laboratory собраны различные учебные демонстрации 26
по курсам физики (здесь же можно представить и свои разработки). В разделе Physics Forum можно: — узнать о всех зарегистрированных в ЕФО мероприятиях, выбрать нужную конференцию и получить о ней исчерпывающую информацию; — подписаться на рассылку по электронной почте сообщений о новых конференциях; — поместить информацию о конференциях, планируемых к проведению вашей организацией; — найти информацию о вакантных местах в вузах, научноисследовательских лабораториях и промышленности; — получить информацию о различных вариантах продолжения учебы, временной работе, студенческих конференциях и организациях, принять участие в дискуссиях студентов-физиков; — познакомиться с книжными новинками. В разделе The Physics Calendar можно найти самую последнюю информацию о конференциях и рабочих местах, о наиболее значительных событиях в мире физики, а также узнать, чем знаменит текущий день в истории физики. В разделе Selected On-line Resources можно найти ссылки на различные физические общества, на обзорные статьи по интересным для широкого круга лиц проблемам физики, а так же, статьи по наиболее актуальным направлениям научных исследований. Раздел Physics Around The World позволяет найти университеты и научноисследовательские институты, в которых ведутся исследования по интересующей вас теме, а так же самые разнообразные ресурсы, связанные с физикой. Здесь же можно получить информацию об олимпиадах по естественным наукам во всем мире и участвовать в телеконференциях. American Institute of Physics (AIP) Американский институт физики (АИФ) http://www.aip.org/ Сервер AIP предоставляет клиенту возможность использования наиболее мощной информационной системы по физике, созданной в США. Большинство разделов этой системы аналогично соответствующим разделам европейской системы TIPTOP. Особый интерес представляет раздел Online Journal Publishing Service (http://www.aip.org.articles.html), который обеспечивает свободный доступ к оглавлениям всех журналов (предусмотрена также возможность получения копий статей). Здесь же имеется база данных, содержащая огромное число рефератов статей из более чем 80 журналов за период с 1985 г. по нынешний день (предусмотрена возможность заказа полного текста). Раздел Physics Academic Software содержит программное обеспечение для фундаментальной физики. Предусмотрено рецензирование, отбор и тиражирование высококачественного программного обеспечения, предназначенного для изучения физики в средних и высших учебных заведениях. 27
American Physical Society Американское физическое общество http://www.aps.org/ На этом сервере можно найти весьма разнообразную физическую информацию. Особо отметим возможность просмотра оглавлений и рефератов, издаваемых Американским физическим обществом журналов Physical Review и Physical Review Letters, которые являются одними из самых престижных физических журналов. Обратим также внимание на следующие серверы: Institute of Physics (IOP) Институт физики Великобритании http://www.iop.org/ Deutsche Physikalische Gesellschaft Германское физическое общество http://www.dpg-physik.de/ French Physical Society Французское физическое общество http://sfp.ihp.jussieu.fr Ukrainian Physical Society Украинское физическое общество http://www.ups.kiev.ua Физика в Internet http://physics.nw.ru Это справочный сервер по информационным ресурсам Internet в области физики, разрабатываемый в Санкт-Петербургском госуниверситете. Физический институт им. П. Н. Лебедева РАН (ФИАН) http://www.lebedev.ru/win/structure/index.html Ioffe Physico-Technichal Institute Физико-технический институт А. Ф. Иоффе http://www.ioffe.rssi.ru/ Institute for Theoretical and Experimental Physics (ITEP) Институт теоретической и экспериментальной физики http://www.itep.ru/ Abdus Salam International Centre for Theoretical Physics 28
Международный центр теоретической физики им. Абдус Салама http://www.ictp.trieste.it/ Landau Institute of Theoretical Physics Институт теоретической физики им. Л. Д. Ландау http://www.itp.ac.ru Российский научный центр (РНЦ) "Курчатовский институт" http://www.kiae.ru Los Alamos National Laboratory Лос-Аламоская национальная лаборатория, США http://www.lanl.gov/Public/Welcome.html European Laboratory for Particle Physics (CERN) http://www.cern.ch Joint Institute for Nuclear Research (JINR),Dubna Объединенный институт ядерных исследований (ОИЯИ), Дубна http://www.jinr.ru/ International Union of Crystallography (IUCr) http://www.iucr.ac.uk/ Богатую информацию по истории физики представляет сервер Center for History of Physics http://www.aip.org/history/ Исчерпывающую информацию о различных наградах и премиях для ученых можно узнать на следующих двух серверах: http://elib.zib.de./IMU/medals/index.html Nobel Foundation http://www.nobel.se International Astronomical Union (IAU) http://www.intastun.org/ AstroWeb: Astronomical Internet Resources 29
Астрономические ресурсы Internet http://marvel.stsci.edu/net-resources.html Этот сервер является универсальным источником информации для астрономов. Association of Universities for Research in Astronomy (AURA), Inc. Ассоциация университетов по астрономическим исследованиям. http://www.aura-astronomy.org/ Russian Space Science Internet (RSSI) Российская космическая научная сеть http://www.rssi.ru/ Special Astrophysical Observatory of RAS (SAO RAS) Специальная астрофизическая лаборатория РАН http://www.sao.ru/ National Aeronautics and Space Administration (NASA) http://www.nasa.gov/ Здесь можно найти всю историю ракетостроения и освоения космоса, включая полную хронологию полетов в космос, вплоть до самой свежей информации о кораблях и аппаратах, находящихся на данный момент в космосе или только планируемых к запуску. Space Research Institute (IKI) Институт космических исследований РАН http://www.iki.rssi.ru/ Получить всестороннюю информацию в области математики (о конференциях, различных математических организациях и журналах и т. д.) можно на следующих серверах: European Mathematical Society (EMS) Европейское математическое общество (ЕМО) 30
http://www.EMIS.de/ International Mathematical Union (IMU) http://elib.zib.de/IMU/ American Mathematical Society (AMS) http://www.ams.org/ European Chemical Society Европейское химическое общество http://ecs.tu-bs.de/ На этом сервере можно получить информацию о конференциях, журналах по химии, различных химических обществах, а также о современном состоянии химии. American Chemical Society (ACS) Американское химическое общество http://www/acs.org Этот сервер, наряду с ранее указанными серверами американских физического и математического обществ, является грандиозным источником информации по химии. MedWebPlus http://www.medwebplus.com Этот сервер рассчитан на самую широкую аудиторию интересующихся проблемами медицины и здоровья — врачей, пациентов и вполне здоровых людей. NetWellness http://netwellness.org/ Сервер ориентирован на тех, кто пользуется услугами учреждений здравоохранения. American Institute of Biological Sciences (AIBS) http://www.aibs.org/ 31
Эта научная организация во многом подобна Американскому институту физики. Она объединяет более 40 биологических обществ и ставит своей целью развитие биологических наук и их применение для блага человека, а также поощрение исследований и образования в области биологических, медицинских, экологических наук.
2. Адреса поисковых систем и Web-сайты, посвященные миру компьютеров Броузер Netscape Navigator http://home.netscape.com/comprod/mirror/index.html Программное обеспечение для телефонной связи по Интернету http://www.freetel.net WWW Virtual Library — тематический каталог http://www.w3.org/hypertext/DataSources/bySubject/Overview.html Yahoo — тематический каталог http://www.yahoo.com Magellan — тематический каталог http://www.mckinley.com Point — тематический каталог http://www.pointcom.com Excite — поисковая система http://www.excite.com Alta Vista — автоматический индекс http://www.altavista.digital.com DejaNews — поисковая система 32
http://www.dejanews.com Справочник телеконференций http://tile.net/news Поиск в содержимом телеконференций relcom.* http://www.dux.ru/win/wwwwais?source=relcom Коллекция FAQ'ов групп Usenet ftp://rtfm.mit.edu shareware.com — поисковая система http://www.shareware.com Список анонимных FTP-узлов http://hoohoo.ncsa.uiuc.edu/ftp/ Winsite — архив программ для Windows ftp://ftp.winsite.com Who'sWho, каталог личных страниц http://web.city.ac.uk/citylive/pages.html Four11 — каталог электронных адресов http://www.four11.com WhoWhere, каталог электронных адресов http://www.whowhere.com Адресный справочник США http://www.databaseamerica.com search.com — метапоисковая система 33
http://www.search.com All-In-One — метапоисковая система http://www.albany.net/allinone MetaCrawler — метапоисковая система http://metacrawler.cs.washington.edu:8080 metasearch.com — метапоисковая система http://metasearch.com The Linux Home Page http://www.linux.org/ NetEx Unofficial Windows 95 Software Archive http://www.NetEx.NET/w95/index.html Win95 Magazine http://www.win95mag.com/ Digital's Windows NT Home Page http://www.windowsnt.digital.com/ The Windows NT Information Server http://www.bhs.com/ Virtual Software Library http://www.shareware.com/ Java World http://www.javaworld.com/ Completely Free Software 34
Каталог бесплатного программного обеспечения http://www.completelyfreesoftware.com/link_gp_w95_ad32.html DOWNLOAD.RU — архив бесплатных и условно-бесплатных программ http://www.download.ru/ DriverGuide.com Драйверы для различных компьютерных устройств (printer drivers, cdrom drivers, modem drivers, sound drivers, mouse drivers, monitor drivers, etc.) http://www.driverguide.com/ McAfee.com — Homepage Антивирус http://www.mcafee.com/ SoftList Каталог самых разнообразных программ http://www.softlist.ru/ Trend Micro HouseCall free on-line virus scan Антивирусный контроль в режиме реального времени http://housecall.antivirus.com/default.asp WinZip® Home Page Архиватор http://www.winzip.com/ http://www.winshell.de/ Здесь, в частности, можно найти последние версии редактора LaTex Российская страница Microsoft http://www.microsoft.com/rus/ Русские антивирусные ресурсы Dialogue Science http://www.dials.ru/ 3. Web-адреса фондов, финансирующих научные исследования Прежде всего, обратим внимание на то, что информация о грантах выделена в отдельную категорию на одной из самых известных поисковых машин — Yahoo. http://www.yahoo.com/yahoo/Education/Grants Фонды Джорджа Сороса: 35
The Soros Foundations Network http://www.soros.org Российское представительство Института "Открытое общество" (ИОО) http://www.osi.ru INTAS http://www.ib.be/intas/ INTAS — Международная Ассоциация содействия сотрудничеству с учеными из стран СНГ. Основная цель INTAS - поддержка фундаментальных исследований в следующих областях знаний: физика, астрономия, математика, информационные технологии, химия, медицинские науки и т. д. U. S. Civilian Research and Development Foundation (CRDF) http://www.crdf.inter.net International Science and Technology Center Международный научно-технологический центр (МНТЦ) http://www.istc.ru/istc-r.htm Выше были указаны международные фонды. Кроме них существует большое число национальных фондов разных стран (Великобритании, Франции, Германии и т. д.), ссылки на которые можно найти в Yahoo. Существует несколько Web-серверов, где систематизированы сведения практически о всех существующих в мире фондах. Например, на сервере http://fdncenter.org имеется список Web-ресурсов более 200 организаций, представляющих гранты. Обширные списки фондов можно найти по адресам: Idealist http://www.idealist.org European Foundation Centre (EFC) http://www.efc.be/ 4. Адреса для поиска мест учебы и работы WorldWide Classroom 36
http://www.worldwide.edu/ BRAINTRACK http://www.braintrack.com Этот сервер содержит каталог университетов мира. База данных "Вузы России" http://db.informika.ru/VR/ U. S. Education Information Center http://www.useic.ru/ По этому адресу можно получить информацию о продолжении своего образования в США. 5. Учебное программное обеспечение Physics Academic Software (PAS) http://www.aip.org/pas/ На этом сервере можно найти программное обеспечение по фундаментальной физике. Укажем адреса нескольких фирм, специализирующихся на разработке учебного программного обеспечения: IME Software htp://www.ozemail.com.au/~imesoft MCH Multimedia — Interactive & Educational Software Company http://www.mcgill.ca/multimedia OnScreen Science http://www.onscreen-sci.com Physics Laboratory in Mechanics Software http://pages.prodigy.com/ralph/owl.htm PhysicsEd: Physics Education Resources 37
Образовательные ресурсы по физике http://www-hpcc.astro.washington.edu/scied/physics.html Internet Resource Collection: Physics Experiment Design, Analysis, Publication Физический эксперимент, анализ, публикации http://www.oise.utoronto.ca/~miameiro/d.htm На двух последних сайтах можно найти описание традиционных и современных экспериментов, включая виртуальное моделирование и программное обеспечение. Собраны данные о серверах, представляющих интерес для преподавателей школ и начальных курсов университетов.
Таблица 1 Средства простого поиска Поиско- Пробел вая сис- между тема словами
Знак + (плюс) перед словом
Знак — (минус) перед словом
Символ *
Кавычки “”
Yahoo
OR
Нахождение документов с обязательным присутствием этого слова
Исключение документов, содержащих это слово
Alta Vista Яndex
OR
—"—
—"—
Замена последовательности символов до конца слова —"—
Поиск документов с точным повторением текста, заключенного в кавычки —"— title:
—"—
—"—
—
—"—
$ title ()
—
—
—
—
$ title :
Операция AND, действующая в пределах одного предложения Rambler AND
38
Поиск ключевого слова только в заголовках Webстраниц t:
39
Таблица 2 Средства расширенного поиска Поисковая Кодировка система логической операции OR Yahoo OR
Кодировка логической операции AND AND
Кодировка логической операции NOT
Alta Vista
OR
AND
Яndex
Кодируется только символом “|”
Ramber
OR (можно заменить символом вертикальной черты “|”)
Кодируется только символом “&” для нахождения ключевых слов в пределах одного предложения (или пробелом) и символами “&&” при поиске ключевых слов в пределах всего документа AND (можно заменить символом “&”)
NEAR (в пределах 10 слов) Кодируется только Кодируется симсимволом “~” при по- волами иске слова в пределах /(-m+n) между одного предложения, ключевыми слои символами “~~” при вами, где целые поиске в пределах числа m и n определяют расстоявсего документа ние между словами в обратном и прямом порядке, соответственно (см. текст)
Кодируется только знаком “-” минус AND NOT
NOT (можно заменить восклицательным знаком “!”)
40
Кодировка логической операции NEAR ⎯
$ NEAR: (можно также воспользоваться соответствующим флажком в бланке расширенного поиска)
Примечание 1 OR—логическая операция “или” для поиска Web—документов, содержащих хотя бы одно из двух ключевых слов, между которыми она стоит. AND — логическая операция “и” для поиска Web — документов, в которых должны обязательно присутствовать оба ключевых слова, связанных этой операцией. NOT — логическая операция отрицания для исключения Web — документов, содержащих ключевое слово перед которым она стоит. NEAR — логическая операция близости для указания на то, что связанные ею ключевые слова должны в тексте Web — документа располагаться достаточно близко друг к другу (в некоторых ПС эта степень близости фиксирована, а в некоторых ее можно регулировать).
Примечание 2 В приведенных таблицах заключенные в кавычки символы в тексте запроса используются, естественно, без таковых. Например, указанный для ПС Яndex и Rambler символ “&” в запросе на поиск Web — документов, в которых обязательно содержаться слова University и Rostov, используются следующим образом: University & Rostov
Литература 1. Д. Кирсанов. Понятный . –СПб:Символ – Плюс, 1996. – 252 с. 2. С. Симонович, Г. Евсеев. Новейший самоучитель по работе в Интернете. – Москва:ДЕСС КОМ, 2000. – 528 с. 3. Н. Берченко, И. Березовская. Самоучитель по работе в Internet и каталог ресурсов. Киев: “Ирина”, BHV, 1999. – 477 с.
41