Поиск информации в Интернете

Сеть Интернет растет очень быстрыми темпами, поэтому найти нужную информацию среди сотен миллиардов Web-страниц и сотен миллионов файлов становится все сложнее. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении Web-страниц и файлов на сотнях миллионов серверов Интернета.

Поисковые системы содержат тематически сгруппированную информацию об информационных ресурсах Всемирной паутины в базах данных. Специальные программы-роботы периодически "обходят" Web-серверы Интернета, читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных Интернет-адреса документов.

Большинство поисковых систем разрешают автору Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт.

Поиск по ключевым словам. Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска .

Запрос должен содержать одно или несколько ключевых слов, которые являются главными для этого документа. Например, для поиска самих систем поиска в Интернете можно в поле поиска ввести ключевые слова "российская система поиска информации Интернет" (рис. 6.21).

Через некоторое время после отправки запроса поисковая система вернет список Интернет-адресов документов, в которых были найдены заданные ключевые слова. Для просмотра этого документа в браузере достаточно активизировать указывающую на него ссылку (рис. 6.22).

Если ключевые слова были выбраны неудачно, то список адресов документов может быть слишком большим (может содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.

Одной из наиболее полных и мощных поисковых систем является Google (www.google.ru), в базе данных которой хранятся 8 миллиардов Web-страниц и каждый месяц программы-роботы заносят в нее 5 миллионов новых страниц. В Рунете (российской части Интернета) обширные базы данных, содержащие по 200 миллионов документов, имеют поисковые системы Яndех (www.yandex.ru) и Rambler (www.rambler.ru).

Поиск в иерархической системе каталогов. В базе данных поисковой системы Web-сайты группируются в иерархические тематические каталоги , которые являются аналогами тематического каталога в библиотеке.

Тематические разделы верхнего уровня, например: Интернет, Компьютеры, Наука и образование и т. д., содержат вложенные каталоги. Например, каталог Интернет может содержать подкаталоги Поиск, Почта и др. (рис. 6.23).

Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на Интернет-адреса наиболее посещаемых и содержательных Web-сайтов. Каждая ссылка обычно аннотирована, т. е. содержит короткий комментарий к содержанию документа.

Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www.aport.ru). Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.

Поиск файлов. Для поиска файлов на серверах файловых архивов существуют специализированные поисковые системы, в том числе поисковая система FileSearch (www.filesearch.ru). Для поиска файла необходимо ввести имя файла в поле поиска, и поисковая система выдаст Интернет-адреса серверов файловых архивов, на которых хранится файл с заданным именем.

Поиск информации в русскоязычной части Интернета с помощью наиболее поисковых систем: Google, Rambler, Апорт, Япс1ех и файловой поисковой системы Research можно производить с использованием интегрированной поисковой системы Gogle.ru (рис. 6.24). Для этого достаточно ввести ключевые слова в строку поиска, с помощью переключателей установить тип необходимой информации и щелкнуть по кнопке с названием поисковой системы Gogle.ru (рис. 6.24). Для этого достаточно ввести ключевые слова в строку поиска, с помощью переключателей установить тип необходимой информации и щелкнуть по кнопке с названием поисковой системы.


Рис. 6.24. Интегрированная поисковая система Gogle.ru

Способы поиска в Интернете

Три способа поиска в Интернете

Интернет в целом и Всемирная паутина, в частности, предоставляют абоненту доступ к тысячам серверов и миллионам Web-страниц, на которых хранится невообразимый объем информации. Как не потеряться в этом "информационном океане"? Для этого необходимо научиться искать и находить нужную информацию в сети.

Как уже было сказано, существуют три основных способа поиска информации в Интернете.

1. Указание адреса страницы. Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.

2. Передвижение по гиперссылкам. Это наименее удобный способ, так как с его помошыо можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например, музыке, то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвященный спорту.

3. Обращение к поисковому серверу (поисковой системе) . Использование поисковых серверов - наиболее удобный способ поиска информации. В настоящее время в русскоязычной части Интернета популярны следующие поисковые серверы:

    Yandex;
    Rambler;
    Апорт.

Существуют и другие поисковые системы. Например, эффективная система поиска реализована на сервере почтовой службы mail.ru.

Поисковые серверы

Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осуществлять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.

Рассмотрим использование поисковых серверов более подробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки систематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автоматическом режиме путем регулярного просмотра всех появляющихся во Всемирной паутине Web-страниц. Кроме того, поисковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода ключевых слов поисковый сервер начинает просматривать документы на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специального рейтинга документов, который показывает, насколько полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети.

Язык запросов поисковой системы

Группа ключевых слов, сформированная по определенным правилам - с помощью языка запросов, называется запросом к поисковому серверу. Языки запросов к разным поисковым серверам очень похожи. Подробнее об этом можно узнать, посетив раздел "Помощь" нужного поискового сервера. Рассмотрим правила формирования запросов на примере поисковой системы Яndex.

Синтаксис оператора Что означает оператор Пример запроса
пробел или & Логическое И (в пределах предложения) лечебная физкультура
&& Логическое И (в пределах документа) рецепты && (плавленый сыр)
| Логическое ИЛИ фото | фотография | снимок | фотоизображение
+ Обязательное наличие слова в найденном документе +быть или +не быть
() Группирование слов (технология | изготовление) (сыра | творога)
~ Бинарный оператор И НЕ (в пределах предложения) банки ~ закон
~~
или
_
Бинарный оператор И НЕ (в пределах документа) путеводитель по Парижу ~~ (агентство | тур)
/(n m) Расстояние в словах (минус (-) - назад, плюс (+) - вперед) поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~ /+1 студентов
" " Поиск фразы "красная шапочка" Эквивалентно: красная /+1 шапочка
&&/(n m) Расстояние в предложениях (минус (-) - назад, плюс (+) - вперед) банк && /1 налоги

Чтобы получить лучшие результаты поиска, необходимо запомнить несколько простых правил:

    1. Не искать информацию только по одному ключевому слову.

    2. Лучше не вводить ключевые слова с прописной буквы, так как это может привести к тому, что не будут найдены те же слова, написанные со строчной буквы.

    3. Если в итоге поиска вы не получили никаких результатов, проверьте, нет ли в ключевых словах орфографических ошибок.

Современные поисковые системы предоставляют возможность подключения к сформированному запросу семантического анализатора. С его помощью можно, введя какое-либо слово, выбрать документы, в которых встречаются производные от этого слова в различных падежах, временах и пр.

Контрольные вопросы

1. Каким образом производится поиск документов по ключевым словам? В системе каталогов?

Задания для самостоятельного выполнения

6.8 Практическое задание. Сравнить результаты поиска документов по ключевому слову с использованием различных поисковых систем (воспользоваться интегрированной поисковой системой Gogle).

6.9 Практическое задание. Найти на серверах файловых архивов файл мультимедиа проигрывателя WinAmp.

Говорят, что в Интернете есть все. На самом деле – это не так. Материалы для размещения в сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным опубликовать. Впрочем, река питается ручьями, и, благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в сети ресурсов стала серьезной проблемой. Несмотря на то, что проблемой занимаются тысячи организаций, она не только не приближается к разрешению, но и становится острее. Процент каталогизированных ресурсов неуклонно падает. В последние годы это падение стало катастрофическим. Так, если в 1999 году процент каталогизированных ресурсов приближался к 40%, то всего лишь за один следующий год он опустился до 25 %.

Вывод простой: пространство Web быстрее наполняется, чем систематизируется.

К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в Интернет можно считать одной из самых трудных задач.

Для поиска интересующей вас информации необходимо указать браузеру адрес Web-страницы, на которой она находится. Это самый быстрый и надежный вид поиска. Для быстрого доступа к ресурсу достаточно запустить браузер и набрать адрес страницы в строке адреса.

Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях, звучат в эфире популярных радиостанций и с экранов телевизора.

Если вы не знаете адреса, то для поиска информации в сети Интернет существуют поисковые системы, которые содержат информацию о ресурсах Интернета.

Каждая поисковая система – это большая база ключевых слов, связанных с Web-страницами, на которых они встретились. Для поиска адреса сервера с интересующей вас информацией надо ввести в поле поисковой системы ключевое слово, несколько слов или фразу. Тем самым вы посылаете поисковой системе запрос. Результаты поиска выдаются в виде списка адресов Web-страниц, на которых встретились эти слова.

Как правило, поисковые системы состоят из трех частей: робота, индекса и программы обработки запроса.

Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.

Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.

Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.

Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин хранят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.

Множество ссылок на выходе системы распределяется программой в порядке убывания от наибольшей степени соответствия ссылки запросу к наименьшей.

В России наиболее распространенными поисковыми системами являются:

  • Рамблер (www.rambler.ru);
  • Яндекс (www.yandex.ru);
  • Мэйл (www.mail.ru).

За рубежом поисковых систем гораздо больше. Самыми популярными являются:

  • Alta Vista (www.altavista.com);
  • Fast Search (www.alltheweb.com);
  • Northern Light (www.northernlight.com).

Яндекс является пожалуй наилучшей поисковой системой в российском Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов документов, которые система просматривает в течение нескольких секунд. На примере этой системы покажем как осуществляется поиск информации.

Поиск информации задается введением ключевого слова в специальную рамку и нажатием кнопки «Найти», справа от рамки.

Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале списка. При этом ранг найденного документа определяется тем, в каком месте документа находится ключевое слово (в заглавии документа важнее, чем в любом другом месте) и числом упоминаний ключевого слова (чем больше упоминаний, тем ранг выше).

Таким образом, сайты, расположенные на первых местах в списке, являются ведущими не с содержательной точки зрения, а практически, по отношению к частоте упоминания ключевого слова. В связи с этим, не следует ограничиваться просмотром первого десятка предложенных поисковой системой сайтов.

Содержательную часть сайта можно косвенно оценить по краткому его описанию, размещаемому Поисковой системой под адресом Сайта. Некоторые недобросовестные авторы сайтов, для того, чтобы повысить вероятность появления своей Web-страницы на первых местах Поисковой системы, умышленно включают в документ бессмысленные повторы ключевого слова. Но как только поисковая система обнаруживает такой «замусоренный» документ, она автоматически исключает его из своей базы данных.

Даже ранжированный список документов, предлагаемый поисковой системой в ответ на ключевую фразу или слово, может оказаться практически необозримым. В связи с этим в Яндекс (как и других мощных Поисковых Машинах) предоставлена возможность в рамках первого списка, выбрать документы, которые точнее отражают цель поиска, то есть уточнить или улучшить результаты поиска. Например, на ключевое слово список из 34 899 Веб-страниц. После ввода в команду «Искать в найденном» уточняющего ключевого слова список сокращается до 750 страниц, а после ввода в эту команду еще одного уточняющего слова этот список сокращается до 130 Веб-страниц.

Поисковые каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, npeдставляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

Приведем в качестве примера структуру поискового интернет-каталога Яндекс.

Это каталог общего назначения, так как в нем представлены ссылки на ресурсы Интернета практически по всем возможным направлениям. В этом каталоге выделены следующие темы:

  • Бизнес и экономика;
  • Общество и политика;
  • Наука и образование;
  • Компьютеры и связь;
  • Справочники и ссылки;
  • Дом и семья;
  • Развлечения и отдых;
  • Культура и искусство.

Каждая тема включает множество подразделов , а они, в свою очередь, содержат рубрики и т. д.

Предположим, вы готовите мероприятие ко Дню победы и хотите найти в Интернете слова известной военной песни Булата Окуджавы «Вы слышите, грохочут сапоги». Поиск можно организовать следующим образом:

Яндекс > Каталог > Культура и искусство > Музыка > Авторская песня

Такой способ поиска является достаточно быстрым и эффективным. В конце вам предлагается всего несколько ссылок, среди которых есть ссылки на сайты с песнями известных бардов. Остается только найти на сайте архив с текстами песен Б. Окуджавы и выбрать в нем нужный текст.

Другой пример. Предположим, вы собираетесь приобрести мобильный телефон и хотите сравнить характеристики аппаратов разных фирм. Поиск мог бы вестись по следующим рубрикам каталога:.

Яндекс > Каталог > Компьютеры и связь > Мобильная связь > Мобильные телефоны

Получив ограниченное количество ссылок, можно достаточно оперативно их просмотреть и выбрать телефон, исследовав характеристики по фирмам и модификациям аппаратов.

Большинство поисковых машин имеют возможность поиска по ключевым словам. Это один из самых распространенных видов поиска.

Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Найти.

Поисковая система найдет в своей базе и покажет документы, содержащие эти слова. Таких документов может оказаться множество, но много в данном случае не обязательно означает хорошо.

Проведем несколько экспериментов с любой из поисковых систем. Предположим, что мы решили завести аквариум и нас интересует любая информация по данной теме. На первый взгляд самое простое - это поиск по слову «аквариум». Проверим это, например, в поисковой системе Яндекс. Результатом поиска будет огромное количество страниц - огромное количество ссылок. Причем, если посмотреть внимательнее, среди них окажутся сайты, упоминающие группу Б. Гребенщикова «Аквариум», торговые центры и неформальные объединения с таким же названием, и многое другое, не имеющее отношения к аквариумным рыбкам.

Нетрудно догадаться, что такой поиск не может удовлетворить даже непритязательного пользователя. Слишком много времени придется потратить на то, чтобы отобрать среди всех предложенных документов те, что касаются нужного нам предмета, и уж тем более на то, чтобы ознакомиться с их содержимым.

Можно сразу сделать вывод, что вести поиск по одному слову, как правило, нецелесообразно, ведь по одному слову очень сложно определить тему, которой посвящен документ, веб-страница или сайт. Исключение составляют редкие слова и термины, которые практически никогда не используются вне своей тематической области.

Имея определенный набор наиболее употребительных терминов в нужной области, можно использовать расширенный поиск. На рис. показано окно расширенного поиска в поисковой системе Яндекс. В этом режиме возможности языка запросов реализованы в виде формы. Подобный сервис, включающий словарные фильтры, предлагается почти всеми поисковыми системами.

Попробуем уточнить условия поиска и введем словосочетание «аквариумные рыбки». Количество ссылок уменьшится более чем в 20 раз. Этот результат нас устраивает больше, но все равно среди предложенных ссылок могут встретиться, например, русские сувенирные наборы спичечных этикеток с изображениями рыбок, и коллекции заставок для Рабочего стола компьютера, и каталоги аквариумных рыбок с фотографиями, и магазины аквариумных аксессуаров. Очевидно, что следует продолжить движение в направлении уточнения условий поиска.

Для того чтобы сделать поиск более продуктивным, во всех поисковых системах существует специальный язык формирования запросов со своим синтаксисом. Эти языки во многом похожи. Изучить их все достаточно сложно, но любая поисковая машина имеет справочную систему, которая позволит вам освоить нужный язык.

Приведем несколько простых правил формирования запроса в поисковой системе Яндекс.

Ключевые слова в запросе следует писать строчными (маленькими) буквами.

Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с прописной буквы.

При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе.

Например, если в запросе было указано слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знаете» и т. п.

Для поиска устойчивого словосочетания следует заключить слова в кавычки.

Например, «фарфоровая посуда».

Для поиска по точной словоформе перед словом надо поставить восклицательный знак.

Например, для поиска слова «сентябрь» в родительном падеже следует написать «!сентября».

Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком &

Например, «приключенческий роман» или «приключенческий&роман». Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

Если вы хотите, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, поставьте перед каждым из них знак плюс «+». Если вы, наоборот, хотите исключить какие-либо слова из результата поиска, поставьте перед этим словом минус «-». Знаки « + » и «-» надо писать через пробел от предыдущего и слитно со следующим словом.

Например, по запросу «Волга -автомобиль» будут найдены документы, в которых есть слово «Волга» и нет слова «автомобиль».

При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту «|».

Например, по запросу «ребенок | малыш | младенец» будут найдены документы с любым из этих слов.

Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки

Например, «(ребенок | малыш | дети | младенец) +(уход | воспитание)».

Знак «~» (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе.

Например, по запросу «книги ~ магазин» будут найдены все документы, содержащие слово «книги», рядом с которым (в пределах предложения) нет слова «магазин».

Если оператор повторяется один раз (например, & или ~), поиск производится в пределах предложения. Двойной оператор (&&,~~) задает поиск в пределах документа.

Например, по запросу «рак ~~ астрология» будут найдены документы со словом «рак», не относящиеся к астрологии.

Вернемся к примеру с аквариумными рыбками. После про¬чтения нескольких предлагаемых поисковой системой документов становится понятно, что поиск информации в Интернете следует начинать не с выбора аквариумных рыбок. Аквариум - сложная биологическая система, создание и поддержание которой требует специальных знаний, времени и серьезных капиталовложений.

На основании полученной информации человек, производящий поиск в Интернете, может кардинально изменить стратегию дальнейшего поиска, приняв решение изучить специальную литературу, относящуюся к исследуемому вопросу.

Для поиска литературы или полнотекстовых документов возможен следующий запрос:

«+(аквариум | аквариумист | аквариумистика) +начинающим +(советы | литература) +(статья | тезис | полнотекстовый) -(цена | магазин | доставка | каталог)».

После обработки запроса поисковой машиной результат оказался весьма успешным. Уже первые ссылки приводят к искомым документам.

Теперь можно подытожить результаты поиска, сделать определенные выводы и принять решение о возможных действиях:

  • Прекратить дальнейший поиск, так как в силу различных причин содержание аквариума вам не под силу.
  • Прочитать предлагаемые статьи и приступить к устройству аквариума.
  • Поискать материалы о хомячках или волнистых попугайчиках.
  1. Какой вид поиска является самым быстрым и надежным?
  2. Где пользователь может найти адреса Web-страниц?
  3. Каково основное назначение поисковой системы?
  4. Из каких частей состоит поисковая система?
  5. Какие поисковые системы вы знаете?
  6. Какова технология поиска по рубрикатору поисковой системы?
  7. Какова технология поиска по ключевым словам?
  8. Когда в критерии поиска надо задавать + или -?
  9. Какие критерии поиска в Яндексе заданы следующей фразой:

    (няня|воспитатель|гувернантка)++(уход|воспитание|присмотр) ?

  10. Что означает удвоение знака (~~ или ++) при формировании сложного запроса?

Задание.

Задание 1. Поиск по каталогам.

Пользуясь каталогом поисковой системы, найдите следующую информацию (по указанию учителя):

  1. Текст песни популярной музыкальной группы
  2. Репертуар Мариинского театра на текущую неделю
  3. Характеристики последней модели мобильного телефона известной фирмы (по вашему выбору)
  4. Рецепт приготовления украинского борща с галушками
  5. Долгосрочный прогноз погоды в вашем регионе (не менее чем на 10 дней)
  6. Фотография любимого исполнителя современной песни
  7. Примерная стоимость мультимедийного компьютера (прайс)
  8. Информация о вакансиях на должность секретаря в вашем регионе или городе
  9. Гороскоп своего знака зодиака на текущий день

По результатам поиска составьте письменный отчет в Word: представьте в документе найденный, скопированный и отформатированный материал. Предъявите отчет учителю.

Задание 2. Формирование запроса по точному названию или цитате.

Вам известно точное название документа, например «Гигиенические требования к персональным электронно-вычислительным машинам и организации работы». Сформулируйте запрос для поиска в Интернете полного текста документа.

Результат поиска сохраните в своей папке. Предъявите учителю.

Задание 3. Формирование сложных запросов.

  • В любой поисковой системе составьте запрос для поиска информации о русской бане. Исключите предложения об услугах, рекламу банных принадлежностей и прочую рекламу. Сосредоточьте поиск на влиянии русской бани на организм.
  • Составьте сложный запрос на поиск информации по уходу за домашними кошками. Исключите из поиска крупных кошек (например, львов), а также предложения о покупке, продаже, фотографии для обоев и т. п.
  • Текст запроса и результат поиска оформите в Word и представьте учителю.
Задание 4. Тематический поиск.

Всеми известными вам способами выполните поиск в Интернете информации по истории развития вычислительной техники. Поиск производите по различным направлениям: историческая обстановка, техника, личности. Результаты поиска оформите в виде презентации. Используйте в презентации многоступенчатой оглавление в виде гиперссылок.

Проблема поиска и средства его организации

Гигантские и непрерывно увеличивающиеся объемы доступной в Интернет информации, в т.ч. оперативной, делает проблему поиска необходимых сведений весьма актуальной и сложной. Скорость поиска нужной информации определяет в значительной степени профессионализм пользователя Интернет. Стоит сказать, для автоматизации ϶ᴛᴏй задачи разработаны различные, как зарубежные, так и отечественные системы поиска, представляющие собой Web-страницы специального вида. При этом, несмотря на наличие многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя определенного опыта, интуиции, знания терминологии, используемой в его предметной области.

По оценке, опубликованной в журнале Nature от 8 июля 1999 г., число публично индексируемых Web-страниц составляло 800 млн. Спустя год автор исследования (Стив Лоуренс из института NEC Research Institute) полагал, что их число увеличилось почти вдвое – до 1,5 млрд. Даже лучшие поисковые механизмы индексируют не более чем одну страницу из шести. Стоит сказать, для того ɥᴛᴏбы извлечь полезную информацию из сети Интернет, нужно знать, где и как вести поиск.

Имеющийся в Internet Explorer инструмент Поиск упрощает обращение к средствам поиска, избавляя от знания адресов поисковых машин. При этом лучше непосредственно обращаться к поисковым системам, загружая ϲᴏᴏᴛʙᴇᴛϲᴛʙующую страницу.

По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:

каталоги и специализированные базы данных;

поисковые системы;

метапоисковые системы.

Каталоги и базы данных

Каталоги в WWW аналогичны систематическим библиотечным каталогам. Поиск по каталогам состоит в последовательном движении по иерархическому списку ссылок, называемых рубриками или категориями. На первой странице каталога содержится ссылки на крупные темы, например, Культура и искусство; Медицина и здоровье; Общество и политика; Бизнес и экономика; Развлечения и др. Щелчок мыши на ϲᴏᴏᴛʙᴇᴛϲᴛʙующей ссылке (категории) открывает страницу, содержащую ссылки, детализирующие выбранную тему (рубрику) Двигаясь вниз по детализирующим категориям, можно найти страницу с нужной информацией. На каждой странице, открываемой при движении по каталогу тем или иным способом, указывается последовательность просмотренных вложенных рубрик, например, Деловой мир: Финансы: Аналитика и т.д.

Все каталоги создаются и поддерживаются в актуальном состоянии вручную специалистами, аналогично тому, как библиографы составляют и поддерживают библиотечные каталоги. Уместно отметить, что описание документа делается либо составителями каталога, либо автором. Благодаря ϶ᴛᴏму, содержание страниц, включенных в каталог, наиболее адекватно ϲᴏᴏᴛʙᴇᴛϲᴛʙует рубрике, к кᴏᴛᴏᴩой они отнесены. Но, учитывая скорость пополнения и изменения информации в Интернет, «ручной» способ ведения каталогов не позволяет равноценно отражать реальное состояние ресурсов Интернет на данную тему.

Поисковые системы

(поисковые машины, поисковые серверы, поисковые роботы)

Существуют десятки крупных и тысячи малых и специализированных Web-узлов, предназначенных для поиска в Интернете. Средства поиска ϶ᴛᴏй группы позволят пользователю по определенным правилам сформулировать требования к необходимой ему информации (с помощью языка запросов создать запрос) После ϶ᴛᴏго машина поиска автоматически просматривает документы на контролируемых (индексируемых) ею сайтах и отбирает те из них, кᴏᴛᴏᴩые, «по мнению» поискового сервера, ϲᴏᴏᴛʙᴇᴛϲᴛʙуют сформулированным пользователем требованиям (релевантны запросу) В поисковых узлах могут быть использованы собственные индексы Интернета, постоянно обновляемые особыми программами, называемыми пауками (spiders) Программа-паук обследует Web, проверяя каждую ссылку на данной странице, затем на страницах, адресуемых ссылками, и т. д., и сообщает ϲʙᴏему владельцу сведения обо всех страницах для последующей индексации.

В результате поиска создается одна или несколько страниц, содержащих ссылки на релевантные запросу документы (Web-страницы) Стоит сказать, для каждой ссылки обычно также указываются дата создания документа, его объем, степень ϲᴏᴏᴛʙᴇᴛϲᴛʙия релевантности запросу, фрагменты текста, характеризующие содержание документа. Щелчок мышью на такой ссылке позволяет загрузить заинтересовавшую страницу. В случае очень большого количества найденных документов можно уточнить запрос и в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с ним повторить поиск, но только среди отобранных страниц (такой поиск в разных машинах называется по-разному, но обычно ϶ᴛᴏ – искать в найденном) В ряде машин поиска можно определенным способом поменять ссылку на страницу, содержание кᴏᴛᴏᴩой в наибольшей степени удовлетворяет вашим потребностям, и повторить поиск, потребовав искать похожие.

Достоинство автоматизированного поиска состоит по сути в том, что он обеспечивает просмотр очень больших объемов информации, имеющейся в Интернет в данный момент. При этом сложность точного описания запроса, адекватно отражающего ваши информационные потребности, а также еще большая сложность задачи автоматического определения степени ϲᴏᴏᴛʙᴇᴛϲᴛʙия вашему запросу просматриваемых страниц, приводит к тому, что количество страниц, отобранных «с первого захода»традиционно или очень мало, или чрезмерно велико. В целом поиск с использованием поисковой машины представляет собой итерационный (многоходовой) процесс, в результате кᴏᴛᴏᴩого постепенно уточняется форма запроса.

Метапоисковые системы

Как отмечалось выше, любая поисковая система просматривает определенный набор серверов и отбирает документы в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с присущими ей критериями. В итоге поиск разными системами по одним и тем же ключевым словам дает различные результаты. Это привело к идее создания так называемых метапоисковых (или мультипоисковых) систем, кᴏᴛᴏᴩые сами ничего не ищут, но обращаются за помощью сразу к нескольким поисковым системам. Отметим, что каждая из метапоисковых систем имеет ϲʙᴏй язык запросов. Система переводит сформулированный на ее языке запрос на языки запросов, используемые каждой машиной поиска. Далее, результаты поиска всеми системами объединяются и представляются в ϲᴏᴏᴛʙᴇᴛϲᴛʙующей форме. Естественно, что поиск с помощью метапоисковых систем занимает большее время по сравнению с обычными системами поиска.

Обзор наиболее популярных поисковых систем

В Интернет имеется большое количество поисковых систем, и каждый пользователь ориентируется на ту, к кᴏᴛᴏᴩой он привык или кᴏᴛᴏᴩую ему посоветовали его коллеги. Воспользуемся краткой характеристикой наиболее популярных поисковых систем, кᴏᴛᴏᴩая приводится на одном из сайтов.

1. Google (www.google.com) Самая быстрая и самая большая поисковая система. Проиндексировано более 1,3 миллиарда страниц (из них полностью - немногим более 700 миллионов, про остальные известен только адрес и текст ссылки) Нормально ищет по русскоязычным ресурсам (разумеется, без словоформ), есть возможность выбрать язык интерфейса. Можно включать/исключать результаты с определенных сайтов и/или доменов. В отличие от большинства поисковых систем, Google оценивает популярность ресурса по количеству ссылок, ведущих к нему с других страниц. Присутствует тематически ориентированный поиск - Apple Macintosh, BSD UNIX, Linux, правительство США и University searches - поиск в ресурсах ведущих научных и учебных институтов.

2. Яndex (www.yandex.ru) Лучшая из поисковых систем отечественного производства. Индексирует в основном русскоязычные ресурсы, при ϶ᴛᴏм по возможностям не уступает зарубежным системам. Поиск можно осуществлять точно или в любых словоформах, с ограничением по дате, с указанием сайта или его поддиректории. Можно вести поиск с учетом так называемого индекса цитируемости, искать изображения, скрипты, апплеты; задавать язык документа. Нужные ссылкитрадиционно обнаруживаются уже в первой десятке результатов. Имеет "облегченную" версию (с минимумом элементов дизайна) на http://www.ya.ru.

3. AltaVista (www.altavista.com) Предоставляет большое расширение критериев поиска: в Advanced search есть выбор отрезка времени, к кᴏᴛᴏᴩому относится дата создания или изменения ресурса, поддержка 25 языков; присутствует возможность выдачи одного результата на сайт (϶ᴛᴏ сужает круг поиска без ущерба для качества) Power search имеет стандартный набор возможностей. До недавнего времени AV была крупным порталом, но по причинам финансового (и не только) характера значительно сократила количество сервисов.

4. Yahoo! (www.yahoo.com) Важно заметить, что один из первых поисковых серверов в Интернет. Помимо стандартного набора функций, позволяет отбирать ресурсы по дате (4 года, 1, 3, 6 месяцев, неделя, 1, 3 дня) Поддерживает возможность указания знака "*" вместо любой последовательности символов в ключевых словах. На Yahoo! составлен большой структурированный каталог категорий (categories) Сначала поиск осуществляется в них, потом в собственном архиве, потом - с использованием системы Google. Поиск в категориях дает хорошие результаты - их немного и ϲᴏᴏᴛʙᴇᴛϲᴛʙие хорошее.

5. Lycos (www.lycos.com) В последнее время - одна из самых популярных систем. При всем этом никаких особенных возможностей она не предоставляет - "AND" "OR", поиск фраз, обязательное присутствие/отсутствие слова; в расширенных возможностях - поиск в названии, URL, имени хоста и/или названии домена; 25 языков, включая русский, - словом, весь "общепринятый" набор. Можно указать тип содержания ресурса - авто, книги, ftp, download, новости и т.д. Очевидно, популярность Lycos - следствие масштаба ϶ᴛᴏго крупного проекта.

6. Рамблер (www.rambler.ru) До недавнего времени самая известная русская поисковая система. Расширенный поиск не позволяет искать фразы, а обычный поиск до февраля ϶ᴛᴏго года редко выдавал приемлемые результаты. С февраля в ϶ᴛᴏй системе используется улучшенный механизм поиска, сменился дизайн, но по качеству Rambler все равно не сравнялся с Яндексом и Апортом (по мнению автора, проводящего анализ поисковых систем) На сайте присутствует рейтинг-каталог ресурсов Rambler Top 100, один из признанных источников статистической информации об интернет-проектах.

7. Апорт (www.aport.ru) Другой хороший русский поисковый сервер. Поиск ведется по тексту (только во всех словоформах) и по URL, с использованием логических операторов и оператора "…" (однако стоп-слова во фразе все равно игнорируются), по дате и в отдельных полях (название, описание и т.д.), поддерживаются мета-символы * и! Представление результатов поиска наиболее хорошо оформлено по сравнению с остальными русскими поисковыми машинами. Некᴏᴛᴏᴩые сомнения вызывает дизайн главной страницы, кᴏᴛᴏᴩая явно перегружена информацией. Имеется немного более "легкая" версия на http://aport.ru.

Как выбрать поисковую машину

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего) Обычно ϶ᴛᴏ все называют одним словом - релевантность, то есть ϲᴏᴏᴛʙᴇᴛϲᴛʙие ответа вопросу.

1. Охват и глубина

Под охватом имеется в виду объем базы поисковой машины, кᴏᴛᴏᴩый измеряется тремя показателями – общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить: Некᴏᴛᴏᴩые машины пишут на ϲʙᴏем сайте статистику робота. Но можно проверить и самому – надо задать несколько поисковых запросов, состоящих из одного слова (ɥᴛᴏбы исключить влияние языка запросов, в т.ч. – различного трактования пробела), и при ϶ᴛᴏм смотреть на статистику результатов, выдаваемую машиной – обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных весов – редкие, «средние» и «тяжелые» (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для ϶ᴛᴏго надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на кᴏᴛᴏᴩые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок

Скорость обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Не стоит забывать, что важным показателем качества поисковой машины (ее робота) будет не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и побудут, страницы на них обновляются. Ссылки, кᴏᴛᴏᴩые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно ϲᴏᴏᴛʙᴇᴛϲᴛʙовать запросу.

Как проверить: Объективную информацию можно получить, проанализировав логи серверов – робот поисковой машины представляется обычно именем ϲʙᴏей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только ϲʙᴏего сайта, по϶ᴛᴏму остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковые машины и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Стоит сказать, для определения актуальности ссылок – проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель)

Стоит сказать, что каждая поисковая машина имеет ϲʙᴏи алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при ϶ᴛᴏм те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса («расширенный поиск» в Апорте и Яндексе, «детальный запрос» в Рэмблере – варианты перевода на русский язык «advanced search»)

Кроме релевантности, существуют важные пользовательские характеристики.

4. Скорость поиска

В случае если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить: Путем эксперимента – надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик – около трех-четырех часов дня)

5. Поисковые возможности (работа с языком документа, язык запросов)

Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Стоит сказать - полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме ϶ᴛᴏго, в языке HTML существуют тэги, кᴏᴛᴏᴩые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.)

Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некᴏᴛᴏᴩые умеют искать словосочетания или слова на заданном расстоянии - ϶ᴛᴏ часто важно для получения разумного результата. Дополнительной возможностью будет поиск в зонах документа – заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, кᴏᴛᴏᴩый не требует знания операторов.

Как проверить: Обычно эта информация публикуется на сервере поисковой машины (в Help"е) Отметим, что тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

6. Дополнительные удобства

Это - дополнительные возможности, кᴏᴛᴏᴩые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с данными возможностями.

Понятно, что указанный анализ займет некᴏᴛᴏᴩое время. Кроме ϶ᴛᴏго, поисковые машины, как и весь Интернет, не стоят на месте. При этом, учитывая, что поиск информации – одна из важных составляющих компьютерных технологий, ϶ᴛᴏму стоит уделить достаточное внимание – по крайней мере, не меньшее, чем умению работать в локальной сети.

На Yandex.ru был проведен опрос: зачем нужен Интернет и чего в нем не хватает (http://www.yandex.ru/polling/9.html) В порядке убывания данные опроса распределились следующим образом: Интернет используют как справочник (23,76%), инструмент исследования (15,.45%), развлечение (14,15%), и только на четвертом месте - источник новостей (12,32%) Оптимистично прозвучало, что 10% пользователей всегда, а 73% часто удается найти нужную информацию. А не хватает в Интернете: информации, хорошего поиска и порядка (в т.ч.: упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и систематизированности)

ОТВЕТЬТЕ НА ВОПРОСЫ:

Назовите, какие способы организации поиска существую в сети Интернет?

Как осуществляется поиск информации в каталогах и базах данных?

Как заносится информация в каталоги и базы данных?

Что в Интернет относится к поисковым системам?

Как формируется информационная база данных в поисковых машинах?

С чего начинается поиск информации в поисковых системах?

Что такое запрос?

Как осуществляется поиск информации в поисковых машинах?

Что понимают под релевантностью запросу?

Что можно предпринять в случае очень большого количества найденных документов при дальнейшем поиске?

Что такое метапоисковые системы?

В чем состоит принципиальное отличие метапоисковых систем от обычных поисковых машин?

Какие из следующих систем будут метапоисковыми:

Назовите наиболее популярные отечественные поисковые системы?

Назовите наиболее популярные зарубежные поисковые системы?

Какие две составляющие важны при поиске информации в сети Интернет?

Какие характеристики определяют эффективность поисковых систем при проведении поиска информации в сети Интернет?

Пользовательское соглашение:
Интеллектуальные права на материал - Информационные компьютерные сети - Борисов Н.А., Лукин А.А. принадлежат её автору. Данное пособие/книга размещена исключительно для ознакомительных целей без вовлечения в коммерческий оборот. Вся информация (в том числе и "Тема 3. Поиск информации в сети ИНТЕРНЕТ") собрана из открытых источников, либо добавлена пользователями на безвозмездной основе.
Для полноценного использования размещённой информации Администрация проекта сайт настоятельно рекомендует приобрести книгу / пособие Информационные компьютерные сети - Борисов Н.А., Лукин А.А. в любом онлайн-магазине.

Тег-блок: Информационные компьютерные сети - Борисов Н.А., Лукин А.А., 2015. Тема 3. Поиск информации в сети ИНТЕРНЕТ.

(С) Юридический репозиторий сайт 2011-2016

Три способа поиска в Интернете

Интернет в целом и Всемирная паутина, в частности, предоставляют абоненту доступ к тысячам серверов и миллионам Web-страниц, на которых хранится невообразимый объем информации. Как не потеряться в этом «информационном океане»? Для этого необходимо научиться искать и находить нужную информацию в сети.

Как уже было сказано, существуют три основных способа поиска информации в Интернете.

1. Указание адреса страницы. Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.

2. Передвижение по гиперссылкам. Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например, музыке, то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвященный спорту.

3. Обращение к поисковому серверу (поисковой системе) . Использование поисковых серверов – наиболее удобный способ поиска информации. В настоящее время в русскоязычной части Интернета популярны следующие поисковые серверы: Yandex; Rambler.

Существуют и другие поисковые системы. Например, эффективная система поиска реализована на сервере почтовой службы mail.ru.

Поисковые серверы

Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осуществлять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.

Рассмотрим использование поисковых серверов более подробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки систематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автоматическом режиме путем регулярного просмотра всех появляющихся во Всемирной паутине Web-страниц. Кроме того, поисковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода ключевых слов поисковый сервер начинает просматривать документы на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специального рейтинга документов, который показывает, насколько полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети.

Язык запросов поисковой системы

Группа ключевых слов, сформированная по определенным правилам – с помощью языка запросов, называется запросом к поисковому серверу. Языки запросов к разным поисковым серверам очень похожи. Подробнее об этом можно узнать, посетив раздел «Помощь» нужного поискового сервера. Рассмотрим правила формирования запросов на примере поисковой системы Yandex.

Синтаксис оператора Что означает оператор Пример запроса
пробел или & Логическое И (в пределах предложения) Несъемные протезы
&& Логическое И (в пределах документа) Виды && (Несъемные протезы)
| Логическое ИЛИ фото | фотография | снимок | фотоизображение
+ Обязательное наличие слова в найденном документе +быть или +не быть
() Группирование слов (технология | изготовление) (сыра | творога)
~ Бинарный оператор И НЕ (в пределах предложения) банки ~ закон
~~ или _ Бинарный оператор И НЕ (в пределах документа) путеводитель по Парижу ~~ (агентство | тур)
/(n m) Расстояние в словах (минус (-) – назад, плюс (+) – вперед) поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~ /+1 студентов
« « Поиск фразы «Несъемные протезы» Эквивалентно: Несъемные /+1 протезы
&&/(n m) Расстояние в предложениях (минус (-) – назад, плюс (+) – вперед) медицина && /1 протезы

Общие сведения.

В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.

Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в адресную строку Браузера.

www.gov.ru - сервер органов государственной власти России.

Конструирование адреса пользователем. Зная систему формирования адреса в Интернет, можно при поискеWeb-сайтов конструировать адреса.

К ключевому слову (названию фирмы, предприятия, организации или простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.

Адреса коммерческих Web-страниц:

www.cnn.com (всемирные новости CNN),

www.sony.com (фирма SONY),

www.mtv.com (музыкальные новости MTV).

Адреса учебных заведений:

www.ntu.edu (Национальный университет США).

Адреса региональных серверов:

www.poland.net (Польша),

www.israil.net (Израиль).

Поисковые системы Интернет

Для поиска информации в Интернет разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку Браузера.

По способу организации информации информационно-поисковые системы делятся на два вида: классификационные (рубрикаторы) и словарные.

Рубрикаторы (классификаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает тематические рубрики, постепенно сужая поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно найти словарь, а затем уже в нем найти нужное слово).

Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. С их помощью просматривается (сканируется) информация в Интернет. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. В ответ на запрос осуществляется поиск в соответствии со строкой запроса. В результате пользователю предлагаются те адреса (URL), на которых в момент сканирования найдены искомые слово или группа слов. Выбрав любой из предложенных адресов-ссылок, можно перейти к найденному документу. Большинство современных поисковых систем являются смешанными.

Наиболее известные и популярные системы поиска:

www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com

Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.

Поиск людей в Интернет:

www.whowhere.ru ww. bigfoot.com

Поиск по телеконференциям (Usenet):

www.dejanews.com

Предметные поисковые системы:

Поиск программного обеспечения:

Поиск по файловым архивам:

http://ftpseach. city.ru, http://ftpsearch. licos.com

Каталоги (тематические подборки ссылок с аннотациями):

http://www.atrus.ru

Часто эффективный поиск информации можно провести с помощью региональных каталогов - специализированных серверов, содержащих данные о предприятиях или Web-ресурсах какого-то города или региона. Например, для Санкт-Петербурга такой каталог располагается по адресу http://www.spb.ru.

Список ИПС можно найти на сайте www.monk. newmail.ru

Более подробный перечень поисковых систем и каталогов представлен в табл. 3.2.

Правила выполнения запросов

В каждой поисковой системе в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.

Простой запрос.

Ввести одно слово, определяющее тему поиска. Например, в поисковой системе Rambler.ru достаточно ввести: автоматика.

Находятся документы, в которых встречаются слова, указанные в запросе. Распознаются все формы слов русского языка, как правило, регистр букв игнорируется.

В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может быть подставлена любая буква, а знаком "*" - последовательность символов.

Например, запрос автомат* позволит найти документы, включающие слова автоматический, автоматика и т.д.

Сложный запрос.

Часто возникает необходимость комбинирования ключевых слов для получения более определенной информации. В этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные скобками.

Например, запрос музыка & (beatles | битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.

В табл.3.1 приведены правила формирования запросов, принятые в системе Апорт (http://www.aport.ru).

Таблица 3.1

Операторы для формирования запросов

Оператор Синонимы Комментарий
И AND & По запросу будут найдены документы, содержащие оба ключевых слова. Его можно и не писать. Например, запрос: информатика и учебник эквивалентен информатика учебник
ИЛИ OR | Производится поиск тех документов, в которых используется любое из указанных слов или оба слова одновременно
НЕ NOT - ~ Поиск ограничивается документами, не содержащими слово, указанное после оператора
" " " " Двойные или одинарные кавычки позволяют находить словосочетание
Дата= дата:date= Поиск ограничивается документами, попадающими в заданный интервал дат.Пример 1. валюта дата=01/02/2002-01/03/2002. По этому запросу будут выданы документы, содержащие слово "валюта" и имеющие дату от 1 февраля 2002 г. до 1 марта 2002 г.Пример 2. date=01/03/2002 валютаПример 3. дата: <02/03/2002 валюта

Таблица 3.2

Список поисковых серверов и каталогов

Адрес Описание
www.excite.com Поисковый сервер с обзорами узлов и путеводителями
www.alta-vista.com Поисковый сервер, имеются возможности расширенного поиска
www.hotbot.com Поисковый сервер
www.poland.net www.israil.net Региональные поисковые серверы Польши, Израиля
www.ifoseek.com Поисковый сервер (простой в использовании)
www.ipl.org Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня"
www.wisewire.com WiseWire - организация поиска с применением искусственного интеллекта
www.webcrawler.com WebCrawler - поисковый сервер, прост в обращении
www.yahoo.com КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista
www.aport.ru Апорт - русскоязычный поисковый сервер
www.yandex.ru Яндекс - русскоязычный поисковый сервер
www.rambler.ru Рамблер - русскоязычный поисковый сервер
Справочные ресурсы Интернет
www.yellow.com Желтые страницы Интернет
monk. newmail.ru Поисковые системы различного профиля
www.top200.ru 200 лучшихWeb-сайтов
www.allru.net
www.ru Каталог русских ресурсов Интернет
www.allru.net/z09. htm Образовательные ресурсы
www.students.ru Сервер российского студенчества
www.cdo.ru/index_new. asp Центр дистанционного обучения
www.open. ac. uk Открытый университет Великобритании
www.ntu.edu Национальный университет США
www.translate.ru Электронный переводчик текстов
www.pomorsu.ru/guide. library.html Список ссылок на сетевые библиотеки
www.elibrary.ru Научная электронная библиотека
www.citforum.ru Электронная библиотека
www.infamed.com/psy Психологические тесты
www.pokoleniye.ru Web-сайт Федерации Интернет образования
www.metod. narod.ru Образовательные ресурсы
www.spb. osi.ru/ic/distant Дистанционное обучение в Интернет
www.examen.ru Экзамены и тесты
www.kbsu.ru/~book/ Учебник информатики
Mega. km.ru Энциклопедии и словари

Поиск информации в Интернете: подводные камни

Проблемы, не лежащие на поверхности, нередко дают о себе знать лишь "задним числом", после того как определенный этап поисковых работ завершен и, возможно, исходя из его результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной с самого начала эксплуатации той или иной информационно-поисковой системы (ИПС)? Ответ довольно прост: отсутствие исчерпывающей информации подобного рода со стороны разработчика. Прямым следствием этого становятся недостоверность получаемых данных и их неконтролируемая потеря. Редко удается встретить в Сети поисковую систему, которая не обладала бы некоторыми "недокументированными" особенностями. Казалось бы - пользователю необходимо не так уж много сведений, а именно:

как происходит наполнение базы данных ИПС и каков ее объем;

полный спектр возможностей поискового языка системы;

основные особенности представления результатов поиска, прежде всего алгоритма ранжирования записей из списка отклика на поисковый запрос.

Увы, источником подобной информации обычно является не документ, доступный с головной страницы поискового сервера, а разбросанные по Сети, книгам и компьютерным журналам публикации отдельных авторов. К причинам такого положения дел, по-видимому, можно отнести не только небрежность разработчика, но и фактор, именуемый маркетинговой политикой. Проще говоря, предоставление поисковой системой наиболее полной информации о самой себе не всегда положительно сказывается на ее рейтинге. Тем не менее, взять ситуацию под контроль в ряде случаев пользователю оказывается вполне по силам. Выяснить особенности работы избранного поискового сервиса часто удается с помощью тестирования. Построение специальных тестовых запросов, быстро проясняющих именно тот аспект работы системы, который наиболее важен для текущей задачи, во многих случаях оказывается нетривиальным. Тому, как избежать некоторых неприятностей при работе с ИПС, мы и посвятим наше обсуждение. В качестве примеров, иллюстрирующих изложение, будут рассмотрены широко известные поисковые системы Интернета.