Vyhledávání informací na internetu

Internet roste velmi rychlým tempem, tak najděte nezbytné informace mezi stovkami miliard webových stránek a stovkami milionů souborů je to stále obtížnější. K vyhledávání informací se používají speciální vyhledávače, které obsahují neustále aktualizované informace o umístění webových stránek a souborů na stovkách milionů internetových serverů.

Vyhledávače obsahují tematicky seskupené informace o informačních zdrojích World Wide Web v databázích. Speciální programy – roboti periodicky „obcházejí“ internetové webové servery, čtou všechny nalezené dokumenty, zvýrazňují v nich klíčová slova a zadávají internetové adresy dokumentů do databáze.

Většina vyhledávačů umožňuje autorovi webu zadávat informace do databáze vyplněním registračního formuláře. V procesu vyplňování dotazníku zadá vývojář webu adresu webu, jeho název, Stručný popis obsah stránek a také klíčová slova, podle kterých bude nejjednodušší stránky najít.

Vyhledávání klíčových slov. Vyhledání dokumentu v databázi vyhledávače se provádí zadáním dotazů do vyhledávací pole.

Požadavek musí obsahovat jedno nebo více klíčových slov, která jsou pro tento dokument hlavní. Chcete-li například vyhledat samotné internetové vyhledávače, můžete zadat klíčová slova " ruský systém vyhledávat informace na internetu“ (obr. 6.21).

Po nějaké době po odeslání požadavku vyhledávač vrátí seznam internetových adres dokumentů, ve kterých byla nalezena zadaná klíčová slova. Pro zobrazení tohoto dokumentu v prohlížeči stačí aktivovat odkaz, který na něj ukazuje (obr. 6.22).

Pokud byla klíčová slova vybrána neúspěšně, může být seznam adres dokumentů příliš velký (může obsahovat desítky nebo dokonce stovky tisíc odkazů). Chcete-li seznam zúžit, můžete do vyhledávacího pole zadat další klíčová slova nebo použít adresář vyhledávače.

Jedním z nejúplnějších a nejvýkonnějších vyhledávačů je Google (www.google.ru), který ve své databázi ukládá 8 miliard webových stránek a každý měsíc roboti zadají 5 milionů nových stránek. V Runetu (ruská část internetu) mají rozsáhlé databáze obsahující 200 milionů dokumentů, každá má vyhledávače Yandex (www.yandex.ru) a Rambler (www.rambler.ru).

Vyhledávání v hierarchickém adresářovém systému. V databázi vyhledávače jsou webové stránky seskupeny do hierarchické předmětové adresáře, které jsou obdobou věcného katalogu v knihovně.

Tématické sekce nejvyšší úrovně, například: Internet, počítače, věda a vzdělávání a tak dále, obsahují vnořené adresáře. Internetový adresář může například obsahovat podadresáře Hledat, pošta a další (obr. 6.23).

Vyhledávání informací v adresáři se omezuje na výběr konkrétního adresáře, po kterém se uživateli zobrazí seznam odkazů na internetové adresy nejnavštěvovanějších a nejsmysluplnějších webových stránek. Každý odkaz je obvykle anotován, tedy obsahuje krátký komentář k obsahu dokumentu.

Vyhledávač Aport (www.aport.ru) má nejúplnější víceúrovňový hierarchický tematický katalog ruských internetových zdrojů. Katalog obsahuje podrobnou anotaci obsahu webových stránek a uvedení jejich geografického umístění.

Vyhledávání souborů. Pro vyhledávání souborů na serverech pro archivaci souborů existují specializované vyhledávače, včetně vyhledávače FileSearch (www.filesearch.ru). Chcete-li vyhledat soubor, musíte do vyhledávacího pole zadat název souboru a vyhledávač vrátí internetové adresy serverů pro archivaci souborů, které ukládají soubor s daným názvem.

Vyhledávání informací v rusky mluvící části internetu pomocí většiny vyhledávačů: Google, Rambler, Aport, Applex a vyhledávače souborů Research lze provést pomocí integrovaného vyhledávače Gogle.ru (obr. 6.24). K tomu stačí zadat klíčová slova do vyhledávací lišty, pomocí přepínačů nastavit typ požadovaných informací a kliknout na tlačítko s názvem vyhledávače Gogle.ru (obr. 6.24). Stačí zadat klíčová slova do vyhledávacího pole, pomocí přepínačů nastavit typ požadovaných informací a kliknout na tlačítko s názvem vyhledávače.


Rýže. 6.24. Integrovaný vyhledávač Google.ru

Metody vyhledávání na internetu

Tři způsoby vyhledávání na internetu

Internet obecně a zejména World Wide Web poskytuje předplatiteli přístup k tisícům serverů a milionům webových stránek, které uchovávají nepředstavitelné množství informací. Jak se v tomto „informačním oceánu“ neztratit? Chcete-li to provést, musíte se naučit hledat a najít potřebné informace v síti.

Jak již bylo zmíněno, existují tři hlavní způsoby vyhledávání informací na internetu.

1. Zadání adresy stránky. Tohle je nejvíc rychlý způsob vyhledávání, ale lze jej použít pouze v případě, že je známa přesná adresa dokumentu.

2. Navigace pomocí hypertextových odkazů. Toto je nejméně pohodlná metoda, protože ji lze použít k vyhledávání dokumentů, které jsou svým významem blízké aktuálnímu dokumentu. Pokud je aktuální dokument věnován např. hudbě, pak se pomocí hypertextových odkazů tohoto dokumentu těžko dostanete na stránky věnované sportu.

3. Volání vyhledávacího serveru vyhledávač) . Použití vyhledávačů je nejpohodlnější způsob, jak najít informace. V současnosti jsou v rusky mluvící části internetu oblíbené následující vyhledávací servery:

    Yandex;
    Tramp;
    Aport.

Existují i ​​jiné vyhledávače. Například, efektivní systém vyhledávání implementované na serveru poštovní služby mail.ru.

Vyhledávací servery

Nejdostupnější a nejpohodlnější způsob vyhledávání informací v Celosvětová Síť je použití vyhledávačů. Informace lze zároveň vyhledávat podle katalogů, ale i podle sady klíčových slov charakterizujících hledaný textový dokument.

Zvažte použití vyhledávacích serverů podrobněji. vyhledávací server obsahuje velké množství odkazů na nej různé dokumenty a všechny tyto odkazy jsou uspořádány do tematických adresářů. Například: sport, kino, auta, hry, věda atd. Navíc tyto odkazy nastavuje server nezávisle, v automatický režim pravidelným prohlížením všech webových stránek, které se objevují na World Wide Web. Kromě toho vyhledávací servery poskytují uživateli možnost vyhledávat informace podle klíčových slov. Po zadání klíčových slov začne vyhledávací server procházet dokumenty na jiných webových serverech a zobrazí odkazy na ty dokumenty, ve kterých jsou zadaná slova nalezena. Výsledky vyhledávání jsou obvykle seřazeny v sestupném pořadí podle zvláštního hodnocení dokumentu, které udává, jak dobře daný dokument odpovídá kritériím vyhledávání nebo jak často je na webu požadován.

Jazyk dotazu vyhledávače

Skupina klíčových slov, vytvořená podle určitých pravidel – pomocí dotazovacího jazyka, se nazývá požadavek na vyhledávací server. Dotazovací jazyky pro různé vyhledávače jsou velmi podobné. Více se o tom můžete dozvědět v části „Nápověda“ požadovaného vyhledávacího serveru. Jako příklad zvažte pravidla pro generování dotazů pomocí vyhledávače Yandex.

Syntaxe operátora Co znamená operátor Příklad žádosti
mezera nebo & Logické AND (uvnitř věty) fyzioterapie
&& Logické AND (v dokumentu) recepty && (tavený sýr)
| Logické NEBO fotografie | fotografie | snímek | fotografický obraz
+ Povinná přítomnost slova v nalezeném dokumentu +být nebo +nebýt
() Seskupování slov (technologie | výroba) (sýr | tvaroh)
~ binární operátor A NE (v rámci věty) banky ~ zákon
~~
nebo
_
Binární operátor AND NOT (v dokumentu) Průvodce Paříží ~~ (agentura | zájezd)
/(nm) Vzdálenost ve slovech (mínus (-) - zpět, plus (+) - vpřed) dodavatelů /2 káva hudba /(-2 4) vzdělání volná místa ~ /+1 student
" " Hledání frází "malá červená karkulka" Ekvivalentně: červená / +1 karkulka
&&/(nm) Vzdálenost ve větách (mínus (-) - zpět, plus (+) - vpřed) banka && /1 daně

Získat nejlepší skóre vyhledávání, musíte si zapamatovat několik jednoduchých pravidel:

    1. Nehledejte informace pouze na jedno klíčové slovo.

    2. Nejlepší je nezadávat klíčová slova velkými písmeny, protože to může způsobit, že nebudou nalezena stejná slova napsaná malými písmeny.

    3. Pokud vaše hledání nepřineslo žádné výsledky, zkontrolujte, zda existují klíčová slova x pravopisných chyb.

Moderní vyhledávače poskytují možnost připojit se k vygenerovanému požadavku sémantického analyzátoru. S jeho pomocí můžete zadáním slova vybrat dokumenty, ve kterých jsou odvozeniny tohoto slova v různých pádech, časech atd.

testové otázky

1. Jak se vyhledávají dokumenty podle klíčových slov? V adresářovém systému?

Úkoly k seberealizaci

6.8 Praktický úkol. Porovnejte výsledky vyhledávání dokumentů podle klíčových slov pomocí různých vyhledávačů (použijte integrovaný vyhledávač Google).

6.9 Praktický úkol. Vyhledejte na serverech archivace soubor přehrávače médií WinAmp.

Co je to

DuckDuckGo je poměrně známý open source vyhledávač. zdrojový kód. Servery jsou umístěny v USA. Kromě vlastního robota využívá vyhledávač výsledky dalších zdrojů: Yahoo, Bing, Wikipedia.

Ten lepší

DuckDuckGo se staví jako dokonalé vyhledávání soukromí a soukromí. Systém neshromažďuje žádná data o uživateli, neukládá protokoly (žádná historie vyhledávání), používání cookies maximálně omezený.

DuckDuckGo neshromažďuje ani nesdílí osobní údaje od uživatelů. Toto jsou naše zásady ochrany osobních údajů.

Gabriel Weinberg, zakladatel DuckDuckGo

Proč to potřebuješ?

Všechny velké vyhledávače se snaží personalizovat výsledky vyhledávání na základě údajů o osobě před monitorem. Tento jev se nazývá „filtrační bublina“: uživatel vidí pouze ty výsledky, které jsou v souladu s jeho preferencemi nebo které systém za takové považuje.

Vytváří objektivní obrázek, který nezávisí na vašem minulém chování na webu, a eliminuje tématiku google reklamy a "Yandex", na základě vašich požadavků. S pomocí DuckDuckGo je snadné vyhledávat informace v cizích jazycích, zatímco Google a Yandex ve výchozím nastavení preferují rusky psané stránky, i když je dotaz zadán v jiném jazyce.


Co je to

not Evil je systém, který prohledává anonymní síť Tor. Chcete-li jej použít, musíte do této sítě přejít například spuštěním specializovaného .

not Evil není jediným vyhledávačem svého druhu. K dispozici je LOOK (výchozí vyhledávání v prohlížeči Tor, dostupné z běžný internet) nebo TORCH (jeden z nejstarších vyhledávačů v síti Tor) a další. Rozhodli jsme se ne Zlo kvůli nezaměnitelné narážce na Google (stačí se podívat na úvodní stránku).

Ten lepší

Hledá, kam má Google, Yandex a další vyhledávače zásadně přístup.

Proč to potřebuješ?

V síti Tor je mnoho zdrojů, které nelze nalézt na internetu, který dodržuje zákony. A jejich počet poroste s tím, jak se zpřísní kontrola úřadů nad obsahem webu. Tor je druh sítě v rámci webu se svými sociálními sítěmi, sledovači torrentů, médii, obchodní platformy, blogy, knihovny a tak dále.

3. YaCy

Co je to

YaCy je decentralizovaný vyhledávač, který funguje na principu P2P sítí. Každý počítač, který má primární softwarový modul, prohledává internet sám o sobě, to znamená, že jde o obdobu vyhledávacího robota. Získané výsledky jsou shromažďovány ve společné databázi, kterou využívají všichni účastníci YaCy.

Ten lepší

Zde je těžké říci, zda je to lepší nebo horší, protože YaCy je zcela odlišný přístup k organizaci vyhledávání. Neexistence jediného serveru a společnosti vlastníka činí výsledky zcela nezávislými na preferencích kohokoli. Autonomie každého uzlu vylučuje cenzuru. YaCy je schopen prohledávat hluboký web a neindexované veřejné sítě.

Proč to potřebuješ?

Pokud jste zastáncem open source a internet zdarma, není ovlivněn vládními agenturami a velkými korporacemi, pak je YaCy vaší volbou. Lze jej také použít k organizaci vyhledávání v rámci podnikové nebo jiné autonomní sítě. A přestože YaCy není v každodenním životě příliš užitečný, je z hlediska procesu vyhledávání hodnou alternativou k Google.

4. Pipl

Co je to

Pipl je systém určený k vyhledávání informací o konkrétní osobě.

Ten lepší

Autoři Pipl tvrdí, že jejich specializované algoritmy vyhledávají efektivněji než „běžné“ vyhledávače. Upřednostňují se zejména profily sociální sítě, komentáře, seznamy účastníků a různé databáze, kde jsou zveřejňovány informace o lidech, např. databáze soudních rozhodnutí. Vedení Pipl v této oblasti potvrzují Lifehacker.com, TechCrunch a další publikace.

Proč to potřebuješ?

Pokud potřebujete najít informace o osobě žijící v USA, pak bude Pipl mnohem efektivnější než Google. Databáze ruských soudů jsou zjevně pro vyhledávač nepřístupné. S občany Ruska si proto tak dobře neporadí.

Co je to

FindSounds je další specializovaný vyhledávač. Vyhledává v otevřených zdrojích různé zvuky: dům, příroda, auta, lidé atd. Služba nepodporuje požadavky v ruštině, ale existuje působivý seznam značek v ruském jazyce, které můžete vyhledat.

Ten lepší

Ve vydávání pouze zvuků a nic víc. V nastavení si můžete nastavit požadovaný formát a kvalitu zvuku. Všechny nalezené zvuky jsou k dispozici ke stažení. Existuje vyhledávání vzorů.

Proč to potřebuješ?

Pokud potřebujete rychle najít zvuk výstřelu z muškety, ránu sajícího datla nebo výkřik Homera Simpsona, pak je tato služba určena právě vám. A to jsme vybrali pouze z dostupných ruskojazyčných dotazů. Na anglický jazyk spektrum je ještě širší.

Vážně, specializovaná služba znamená specializované publikum. Přijde ale vhod i vám?

Co je to

Wolfram|Alpha je výpočetní vyhledávač. Místo odkazů na články obsahující klíčová slova dává hotovou odpověď na požadavek uživatele. Pokud například zadáte do vyhledávacího formuláře „porovnat populaci New Yorku a San Francisca“ v angličtině, Wolfram|Alpha okamžitě zobrazí tabulky a grafy s porovnáním.

Ten lepší

Tato služba je lepší než ostatní pro vyhledávání faktů a výpočet dat. Wolfram|Alpha shromažďuje a systematizuje znalosti dostupné na webu různé oblasti včetně vědy, kultury a zábavy. Pokud tato databáze obsahuje připravenou odpověď na vyhledávací dotaz, systém jej zobrazí, pokud ne, spočítá a zobrazí výsledek. V tomto případě uživatel vidí jen a nic víc.

Proč to potřebuješ?

Pokud jste například student, analytik, novinář nebo výzkumník, můžete použít Wolfram|Alpha k vyhledání a výpočtu dat souvisejících s vašimi aktivitami. Služba nerozumí všem požadavkům, ale neustále se vyvíjí a je chytřejší.

Co je to

Metasearch engine Dogpile zobrazuje kombinovaný seznam výsledků z vyhledávačů. Google SERPs, Yahoo a další populární systémy.

Ten lepší

Za prvé, Dogpile zobrazuje méně reklam. Za druhé, služba používá speciální algoritmus k nalezení a zobrazení nejlepších výsledků z různých vyhledávačů. Podle vývojářů Dogpile jejich systém generuje nejúplnější problém na celém internetu.

Proč to potřebuješ?

Pokud nemůžete najít informace na Googlu nebo jiném standardním vyhledávači, vyhledejte je v několika vyhledávačích najednou pomocí Dogpile.

Co je to

BoardReader je textový vyhledávací systém pro fóra, služby Q&A a další komunity.

Ten lepší

Služba umožňuje zúžit pole vyhledávání na sociální stránky. Díky speciálním filtrům můžete rychle najít příspěvky a komentáře, které odpovídají vašim kritériím: jazyk, datum vydání a název webu.

Proč to potřebuješ?

BoardReader může být užitečný pro PR specialisty a další mediální profesionály, kteří se zajímají o názor masmédií na určitá témata.

Konečně

Život alternativních vyhledávačů je často pomíjivý. Lifehacker se zeptal bývalého generálního ředitele ukrajinské pobočky společnosti Yandex Sergeje Petrenka na dlouhodobé vyhlídky takových projektů.


Sergej Petrenko

Bývalý generální ředitel společnosti Yandex.Ukraine.

Pokud jde o osud alternativních vyhledávačů, je jednoduchý: být velmi úzce specializovanými projekty s malým publikem, tedy bez jasných komerčních vyhlídek, nebo naopak s naprostou jasností jejich absence.

Když se podíváte na příklady v článku, můžete vidět, že takové vyhledávače se buď specializují na úzkou, ale poptávanou niku, která se snad jen zatím nerozrostla natolik, aby byla patrná na radarech Googlu nebo Yandexu, nebo testují původní hypotézu v hodnocení, která zatím není použitelná v konvenčním vyhledávání.

Pokud se například náhle ukáže, že vyhledávání Tor je žádané, to znamená, že alespoň procento publika Google bude potřebovat výsledky odtud, pak samozřejmě běžné vyhledávače začnou řešit problém, jak najděte je a ukažte je uživateli. Pokud chování publika ukazuje, že se zdá, že značná část uživatelů ve značném počtu dotazů má relevantnější výsledky, data bez zohlednění faktorů, které závisí na uživateli, pak Yandex nebo Google začnou poskytovat takové výsledky.

„Být lepší“ v kontextu tohoto článku neznamená „být lepší ve všem“. Ano, v mnoha ohledech jsou naši hrdinové daleko od Yandexu (dokonce daleko od Bingu). Ale každá z těchto služeb dává uživateli něco, co giganti z vyhledávacího průmyslu nemohou nabídnout. Určitě také znáte podobné projekty. Podělte se s námi - pojďme diskutovat.

Vyhledávání informací na internetu

Vyhledávání informací na internetu

K vyhledávání informací v běžně používaném třemi způsoby(Viz obr. 1). První z nich - vyhledávání podle adresy. Používá se, když uživatel zná adresu informačního zdroje obsahujícího informace, které potřebuje. Při organizaci vyhledávání informací podle adresy (forma adresy - IP, doména nebo URL - v tomto případě nezáleží), uživatel jednoduše musí zadat adresu zdroje do příslušného pole prohlížeče - programu navrženy tak, aby poskytovaly přístup k síťovým zdrojům.

Rýže. 1. Způsoby vyhledávání informací v hypertextových databázích

Druhý- vyhledávání pomocí hypertextové navigace. Při použití tohoto typu vyhledávání musí uživatel nejprve získat přístup na server spojený s odpovídající databází. Dokument pak můžete najít pomocí hypertextových odkazů. Je zřejmé, že tato metoda je vhodná, když uživatel nezná adresu zdroje. Jako výchozí bod pro vyhledávání při implementaci této metody jsou určeny webové portály - servery, které poskytují přímý přístup k určité množině serverů, včetně informačních zdrojů na nich instalovaných, a také webové aplikace, které implementují webové služby odpovídající účel portálu. Servery přístupné přes portál mohou být specifické pro konkrétní systém (například firemní) resp různé systémy a být speciálně vybráni podle specifických, tematických nebo jiných vlastností dokumentů a údajů obsažených na jejich stránkách. Portály obvykle kombinují různé funkce, aby si klienta udržely co nejdéle. Dominantní službou portálu je služba podpora: vyhledávání, rubrikátory, finanční indexy, informace o počasí atd. Zatímco webové stránky jsou většinou kolekcemi statických webových stránek, portály jsou kolekcemi softwarové nástroje a předem nestrukturované informace, které tyto nástroje přeměňují na strukturovaná data na žádost konkrétních uživatelů.

Třetí metoda vyhledávání zahrnuje použití internetových vyhledávacích serverů. Vyhledávací servery jsou vyhrazené hostitele – počítače, které hostí databáze internetových zdrojů. Uživatelské rozhraní takový server má pole pro zadání klíčových slov, která popisují téma, které uživatele zajímá (viz obr. 2).

Obr.2. Pohled na okno vyhledávacího serveru Yandex

Server tato slova vnímá jako informační požadavek, podle kterého vyhledává zdroje a předkládá uživateli seznam nalezených dokumentů. Je zřejmé, že při implementaci této metody jsou možné chyby jak 1. (minutí cíle), tak 2. druhu (informační šum). Je třeba zmínit, že se rozlišují dvě skupiny vyhledávacích serverů: vyhledávače a předmětové adresáře. Jejich odlišnost je dána způsobem tvorby a následného doplňování databáze internetových zdrojů, které daný server provádí vyhledávání informací. Vyhledávače tedy mají speciální program- vyhledávací robot. Neustále monitoruje síť, sbírá informace z webové stránky, indexuje je a opraví jejich vyhledávací obrázek ve své databázi. V předmětových katalozích je databáze internetových dokumentů tvořena „ručně“ odbornými redaktory. Vzhledem k tomu, že na internetu neexistuje jediná správa, jeho informační zdroje se neustále mění. Mohou se v něm objevit nové dokumenty a stávající dokumenty mohou zmizet. Frekvence aktualizace informací v dokumentech pro různé stránky je různá: u některých je to několikrát za hodinu, u některých jednou za den, den, měsíc atd. Proto je velmi důležité pochopit, že při použití systémů vyhledávání informací k nalezení informací na internetu se vyhledávání neprovádí v reálném prostoru webových dokumentů, ale v nějakém modelu, jehož obsah se může výrazně lišit od aktuální obsah internetu v době vyhledávání. Podle stupně pokrytí indexovaných zdrojů lze vyhledávače rozdělit do dvou skupin: mezinárodní a rusky mluvící. První indexuje všechny dokumenty publikované na internetu v řadě. Druhý indexuje prostředky umístěné v doménové zóny s převahou ruského jazyka. Seznam nejoblíbenějších systémů je uveden v tabulce. jeden.

Tab. 1. Nejoblíbenější vyhledávače

Mezinárodní rusky mluvící
Google Yandex (44,4 % Runet)
Yahoo! Rambler (10,6 % Runet)
bing Mail.ru (7,3 % Runet)
msn Nigma (0,5 % Runet)
AltaVista Gogo.ru (0,3 % Runet)
Dotázat se Aport (0,2 % Runet)

Poznámka: Runet je rusky mluvící část internetu, která tvoří domény s názvy ru a rf.

Je třeba zmínit, že existuje zvláštní kategorie vyhledávačů – metavyhledávače. Jejich zásadní rozdíl od vyhledávače a předmětových katalogů je, že nemají vlastní indexovou databázi, a proto ji po obdržení požadavku uživatele přesměrují na několik vyhledávacích serverů najednou (viz obr. 3).

Rýže. 3. Schéma metasearch systému

Možnost současného použití více vyhledávačů pro jeden požadavek je zjevnou výhodou metavyhledávačů. V současné době našel široké uplatnění systém Metabot.ru, jehož rozhraní je znázorněno na Obr. 4. Tento systém vám umožňuje používat k vyhledávání zdrojů mezinárodní i ruskojazyčné vyhledávací servery.

Odeslat svou dobrou práci do znalostní báze je jednoduché. Použijte níže uvedený formulář

Studenti, postgraduální studenti, mladí vědci, kteří využívají znalostní základnu ve svém studiu a práci, vám budou velmi vděční.

Podobné dokumenty

    Prostředky vyhledávání informací na internetu. Základní požadavky a metody vyhledávání informací. Struktura a charakteristika vyhledávacích služeb. Globální vyhledávače WWW (World Wide Web). Plánování vyhledávání a sběru informací na internetu.

    abstrakt, přidáno 02.11.2010

    Charakteristika metod vyhledávání informací na internetu, zejména pomocí hypertextových odkazů, vyhledávačů a speciálních nástrojů. Analýza nových internetových zdrojů. Historie vzniku a popis západních a ruskojazyčných vyhledávačů.

    abstrakt, přidáno 05.12.2010

    Popis a klasifikace moderních systémů vyhledávání informací. hypertextové dokumenty. Přehled a hodnocení hlavních světových vyhledávačů. Vývoj systému vyhledávání informací, který demonstruje mechanismus vyhledávání informací na internetu.

    práce, přidáno 16.06.2015

    Analýza schopností vyhledávačů Yandex a Google, jejich srovnání z hlediska užitečnosti. Historie vzniku vyhledávačů, charakteristika jejich rozhraní, vyhledávací nástroje a algoritmy. Tvorba otázky a kritérium pro odpověď na ni.

    abstrakt, přidáno 05.07.2011

    Zvažování internetových vyhledávačů jako softwarového a hardwarového komplexu s webovým rozhraním, které poskytuje možnost vyhledávat informace. Typy vyhledávačů: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Yandex, Bing a Rambler.

    abstrakt, přidáno 05.10.2013

    Struktura a principy budování Internetu, vyhledávání a ukládání informací v něm. Historie vzniku a klasifikace systémů vyhledávání informací. Princip fungování a vlastnosti vyhledávačů Google, Yandex, Rambler, Yahoo. Vyhledávání podle URL.

    semestrální práce, přidáno 29.03.2013

    Podstata a princip fungování globálního internetu. Vyhledejte informace podle parametrů v systém Google. Specializované systémy vyhledávání informací: "KtoTam", "Tagoo", "Truveo", "Kinopoisk", "Catch-Umov". Vhodné použití vyhledávačů.

    prezentace, přidáno 16.02.2015

    Ukládání dat na internetu. Hypertextové dokumenty, typy souborů. Grafické soubory, jejich typy a vlastnosti. Vyhledávače a pravidla vyhledávání informací. Průzkum internetových vyhledávačů. Vše o vyhledávačích Yandex, Google, Rambler.

    semestrální práce, přidáno 26.03.2011

Obecná informace.

V současné době internet sjednocuje stovky milionů serverů, které hostí miliardy různých stránek a jednotlivých souborů obsahujících různé druhy informací. Je to obrovské úložiště informací. Existují různé způsoby vyhledávání informací na internetu.

Vyhledávání podle známé adresy. Požadované adresy jsou převzaty z adresářů. Pokud znáte adresu, stačí ji zadat adresní řádek Prohlížeč.

www.gov.ru - server ruských státních orgánů.

Konstrukce adresy uživatelem. Se znalostí systému generování internetových adres můžete vytvářet adresy při vyhledávání webových stránek.

Ke klíčovému slovu je potřeba přidat tematickou nebo geografickou doménu (název firmy, podniku, organizace nebo jednoduché anglické podstatné jméno) a musí se propojit intuice.

Adresy komerčních webových stránek:

www.cnn.com (CNN World News),

www.sony.com SONY),

www.mtv.com (hudební zprávy MTV).

Adresy vzdělávacích institucí:

www.ntu.edu (Národní univerzita USA).

Adresy regionálních serverů:

www.poland.net (Polsko),

www.israil.net (Izrael).

Internetové vyhledávače

Pro vyhledávání informací na internetu byly vyvinuty speciální systémy vyhledávání informací. Vyhledávače mají běžnou adresu a zobrazují se jako webová stránka obsahující speciální nástroje pro organizaci vyhledávání (hledaný řetězec, předmětový katalog, odkazy). Chcete-li zavolat vyhledávač, stačí zadat jeho adresu do adresního řádku prohlížeče.

Podle způsobu organizace informací se systémy vyhledávání informací dělí na dva typy: klasifikační (rubrikátory) a slovníkové.

Rubrikátory (klasifikátory) jsou vyhledávače, které využívají hierarchickou (stromovou) organizaci informací. Při vyhledávání informací uživatel prohlíží tematické nadpisy a postupně zužuje vyhledávací pole (například pokud potřebujete najít význam slova, musíte nejprve najít slovník v klasifikátoru a poté jej v něm najít správné slovo).

Slovníkové vyhledávací systémy jsou výkonné automatické softwarové a hardwarové systémy. S jejich pomocí se prohlížejí (skenují) informace na internetu. Údaje o umístění té či oné informace se zapisují do speciálních rejstříků referenčních knih. V reakci na požadavek se provede vyhledávání podle řetězce dotazu. Díky tomu jsou uživateli nabídnuty ty adresy (URL), na kterých bylo v době skenování nalezeno hledané slovo nebo skupina slov. Výběrem kteréhokoli z navrhovaných odkazů můžete přejít na nalezený dokument. Většina moderních vyhledávačů je smíšená.

Nejznámější a nejoblíbenější vyhledávače:

www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com

Existují systémy, které se na vyhledávání specializují informační zdroje v různých směrech.

Hledat lidi na internetu:

www.whowhere.ru www. bigfoot.com

Vyhledávání podle diskusních skupin (Usenet):

www.dejanews.com

Předmětové vyhledávače:

Vyhledávání software:

Hledat v archivech souborů:

http://ftpseach.com city.ru, http://ftpsearch. licos.com

Katalogy (tematické sbírky odkazů s poznámkami):

http://www.atrus.ru

Často lze efektivní vyhledávání informací provádět pomocí regionálních katalogů - specializovaných serverů obsahujících údaje o podnicích nebo webových zdrojích města nebo regionu. Například pro Petrohrad je takový katalog umístěn na adrese http://www.spb.ru.

Seznam IPS lze nalézt na www.monk. newmail.ru

Podrobnější seznam vyhledávačů a adresářů je uveden v tabulce. 3.2.

Pravidla provádění dotazu

V každém vyhledávači v sekci Nápověda získáte informace o tom, jak hledat, jak sestavit řetězec dotazu. Níže jsou uvedeny informace o typickém „průměrném“ dotazovacím jazyce.

Jednoduchá žádost.

Zadejte jedno slovo, které definuje hledané téma. Například do vyhledávače Rambler.ru stačí zadat: automatizace.

Jsou nalezeny dokumenty, které obsahují slova uvedená v žádosti. Všechny formy ruských slov jsou uznávány, zpravidla se ignorují písmena.

V dotazu můžete použít znak "*" nebo "?". Podepsat "?" v klíčovém slově je nahrazen jeden znak, na jehož místo lze nahradit libovolné písmeno a znak "*" je posloupnost znaků.

Například dotazovací automat* najde dokumenty, které obsahují slova automatický, automatický atd.

Komplexní požadavek.

Často je potřeba klíčová slova kombinovat, abyste získali konkrétnější informace. V tomto případě se používají další spojovací slova, funkce, operátory, symboly, kombinace operátorů oddělené závorkami.

Například dotaz music & (beatles | beatles) znamená, že uživatel hledá dokumenty obsahující slova music a beatles nebo music a beatles.

Tabulka 3.1 ukazuje pravidla pro generování požadavků přijatá v systému Aport (http://www.aport.ru).

Tabulka 3.1

Operátoři pro formování požadavků

Operátor Synonyma Komentář
A A & Dotaz najde dokumenty obsahující obě klíčová slova. Může a nemusí být napsáno. Například dotaz: informatika a učebnice je ekvivalentní učebnici informatiky
NEBO NEBO | Vyhledá dokumenty, které používají jedno ze zadaných slov nebo obě slova současně
NE NE-~ Vyhledávání je omezeno na dokumenty, které neobsahují slovo uvedené za operátorem
" " " " Dvojité nebo jednoduché uvozovky vám umožní najít frázi
datum = datum:datum= Vyhledávání je omezeno na dokumenty, které spadají do zadaného intervalu data Příklad 1. měna datum=01/02/2002-01/03/2002. Tento požadavek vrátí dokumenty obsahující slovo "měna" s datem mezi 1. únorem 2002 a 1. březnem 2002. Příklad 2. datum=01/03/2002 měna Příklad 3. datum:<02/03/2002 валюта

Tabulka 3.2

Seznam vyhledávacích serverů a adresářů

Adresa Popis
www.excite.com Vyhledávač s recenzemi uzlů a průvodci
www.alta-vista.com Vyhledávací server, dostupné možnosti pokročilého vyhledávání
www.hotbot.com vyhledávací server
www.poland.net www.israil.net Regionální vyhledávací servery Polska, Izraele
www.ifoseek.com Vyhledávací server (snadné použití)
www.ipl.org Internet Publik library, veřejná knihovna fungující v rámci projektu World Village
www.wisewire.com WiseWire - organizace vyhledávání pomocí umělé inteligence
www.webcrawler.com WebCrawler - vyhledávací server, snadné použití
www.yahoo.com Webový katalog a rozhraní pro přístup k fulltextovému vyhledávání na serveru AltaVista
www.aport.ru Aport - ruský jazykový vyhledávací server
www.yandex.ru Yandex - ruskojazyčný vyhledávací server
www.rambler.ru Rambler - ruskojazyčný vyhledávací server
Zdroje nápovědy na internetu
www.yellow.com Zlaté stránky internetu
mnich. newmail.ru Vyhledávače různých profilů
www.top200.ru 200 nejlepších webových stránek
www.allru.net
www.ru Katalog ruských internetových zdrojů
www.allru.net/z09. htm Vzdělávací zdroje
www.students.ru Ruský studentský server
www.cdo.ru/index_new. asp Centrum distančního vzdělávání
www.otevřít. ac. Spojené království Otevřená univerzita UK
www.ntu.edu Americká národní univerzita
www.translate.ru Elektronický překladač textů
www.pomorsu.ru/guide. knihovna.html Seznam odkazů na síťové knihovny
www.elibrary.ru Vědecká elektronická knihovna
www.citforum.ru E-knihovna
www.infamed.com/psy Psychologické testy
www.pokoleniye.ru Web federace internetového vzdělávání
www.metoda. people.ru Vzdělávací zdroje
www.spb. www.osi.ru/ic/distant Dálkové studium na internetu
www.examen.ru Zkoušky a testy
www.kbsu.ru/~book/ Učebnice informatiky
Mega. km.ru Encyklopedie a slovníky

Hledání informací na internetu: úskalí

Problémy, které neleží na povrchu, se často projeví až "zpětně", po ukončení určité etapy průzkumných prací a možná na základě jejich výsledků již nějaké rozhodnutí. Co brání zprůhlednění situace od samého začátku fungování toho či onoho systému vyhledávání informací (IPS)? Odpověď je poměrně jednoduchá: nedostatek komplexních informací tohoto druhu na straně vývojáře. Přímým důsledkem toho je nespolehlivost přijímaných dat a jejich nekontrolovaná ztráta. Je vzácné najít na webu vyhledávač, který nemá některé „nedokumentované“ funkce. Zdálo by se, že uživatel nepotřebuje tolik informací, konkrétně:

jak je databáze IPS naplněna a jaký je její objem;

celá řada možností vyhledávacího jazyka systému;

hlavní rysy prezentace výsledků vyhledávání, především algoritmus pro řazení záznamů ze seznamu odpovědí na vyhledávací dotaz.

Bohužel, zdrojem takových informací obvykle není dokument dostupný z hlavní stránky vyhledávacího serveru, ale publikace jednotlivých autorů roztroušené po webu, knihy a počítačové časopisy. Mezi důvody tohoto stavu zjevně patří nejen nedbalost vývojáře, ale také faktor zvaný marketingová politika. Jednoduše řečeno, poskytnutí nejúplnějších informací o sobě vyhledávači nemusí mít vždy pozitivní vliv na jeho hodnocení. Nicméně v některých případech je uživatel docela schopný vzít situaci pod kontrolu. Často je možné pomocí testování zjistit vlastnosti vybrané vyhledávací služby. Vytváření speciálních testovacích dotazů, které rychle objasní přesně ten aspekt fungování systému, který je pro aktuální úlohu nejdůležitější, se v mnoha případech ukazuje jako netriviální. Jak se vyhnout některým problémům při práci s IPS, budeme věnovat naši diskusi. Jako příklady ilustrující prezentaci budou uvažovány široce známé internetové vyhledávače.