뭐야

DuckDuckGo는 꽤 잘 알려진 오픈 소스 검색 엔진입니다. 소스 코드. 서버는 미국에 있습니다. 자체 로봇 외에도 검색 엔진은 Yahoo, Bing, Wikipedia와 같은 다른 소스의 결과를 사용합니다.

더 나은

DuckDuckGo는 최고의 개인 정보 보호 및 개인 정보 검색으로 스스로를 포지셔닝합니다. 시스템은 사용자에 대한 어떠한 데이터도 수집하지 않으며, 로그를 저장하지 않으며(검색 기록 없음), 쿠키최대로 제한됩니다.

덕덕고는 이용자의 개인정보를 수집하거나 공유하지 않습니다. 이것은 우리의 개인 정보 보호 정책입니다.

덕덕고 창업자 가브리엘 와인버그

이게 왜 필요해

모든 주요 검색 엔진은 모니터 앞에 있는 사람에 대한 데이터를 기반으로 검색 결과를 개인화하려고 합니다. 이 현상을 "필터 버블"이라고 합니다. 사용자는 자신의 선호도와 일치하거나 시스템이 그렇게 간주하는 결과만 봅니다.

웹에서의 과거 행동에 의존하지 않는 객관적인 그림을 형성하고 주제를 제거합니다. 구글 광고귀하의 요청에 따라 "Yandex". 덕덕고의 도움으로 외국어로 된 정보를 쉽게 검색할 수 있는 반면 구글과 얀덱스는 기본적으로 다른 언어로 검색어를 입력하더라도 러시아어 사이트를 선호한다.


뭐야

not Evil은 익명의 Tor 네트워크를 검색하는 시스템입니다. 이를 사용하려면 예를 들어 특수 .

not Evil은 이러한 종류의 유일한 검색 엔진이 아닙니다. LOOK(일반 인터넷에서 액세스할 수 있는 Tor 브라우저의 기본 검색) 또는 TORCH(Tor 네트워크에서 가장 오래된 검색 엔진 중 하나) 등이 있습니다. Google에 대한 명백한 암시 때문에 우리는 악이 아닌 것으로 결정했습니다(시작 페이지만 보세요).

더 나은

그는 Google, Yandex 및 기타 검색 엔진이 원칙적으로 액세스가 거부되는 곳을 찾고 있습니다.

이게 왜 필요해

Tor 네트워크에는 준법 인터넷에서 찾을 수 없는 많은 리소스가 있습니다. 그리고 웹 콘텐츠에 대한 당국의 통제가 강화됨에 따라 그 수는 증가할 것입니다. Tor는 소셜 네트워크, 토렌트 트래커, 미디어, 거래 플랫폼, 블로그, 도서관 등.

3. 야시

뭐야

YaCy는 P2P 네트워크 원칙에 따라 작동하는 분산형 검색 엔진입니다. 기본 서버가 있는 각 컴퓨터 소프트웨어 모듈, 자체적으로 인터넷을 검색합니다. 즉, 검색 로봇과 유사합니다. 얻은 결과는 모든 YaCy 참가자가 사용하는 공통 데이터베이스에 수집됩니다.

더 나은

YaCy는 검색 구성에 대한 완전히 다른 접근 방식이기 때문에 여기에서 이것이 더 나은지 더 나쁜지 말하기는 어렵습니다. 단일 서버 및 소유자 회사가 없기 때문에 결과는 누구의 선호도와 완전히 독립적입니다. 각 노드의 자율성은 검열을 배제합니다. YaCy는 딥 웹 및 인덱싱되지 않은 공용 네트워크를 검색할 수 있습니다.

이게 왜 필요해

당신이 오픈 소스 지지자이고 무료 인터넷, 정부 기관 및 대기업의 영향을 받지 않는 경우 YaCy가 귀하의 선택입니다. 또한 기업 또는 기타 자율 네트워크 내에서 검색을 구성하는 데 사용할 수도 있습니다. 그리고 YaCy는 일상 생활에서 그다지 유용하지 않지만 검색 프로세스 측면에서 Google의 가치있는 대안입니다.

4. 피플

뭐야

Pipl은 특정 사람에 대한 정보를 검색하도록 설계된 시스템입니다.

더 나은

Pipl의 저자는 전문화된 알고리즘이 "일반" 검색 엔진보다 더 효율적으로 검색한다고 주장합니다. 특히 프로필이 우선 소셜 네트워크, 의견, 참가자 목록 및 법원 판결 데이터베이스와 같이 사람에 대한 정보가 게시되는 다양한 데이터베이스. 이 분야에서 Pipl의 리더십은 Lifehacker.com, TechCrunch 및 기타 출판물에 의해 확인되었습니다.

이게 왜 필요해

미국에 거주하는 사람에 대한 정보를 찾아야 하는 경우 Google보다 Pipl이 훨씬 효율적입니다. 러시아 법원의 데이터베이스는 분명히 검색 엔진에 액세스 할 수 없습니다. 따라서 그는 러시아 시민들과 잘 대처하지 못합니다.

뭐야

FindSounds는 또 다른 전문 검색 엔진입니다. 집, 자연, 자동차, 사람 등 다양한 소리에 대한 오픈 소스를 검색합니다. 이 서비스는 러시아어 요청을 지원하지 않지만 검색할 수 있는 인상적인 러시아어 태그 목록이 있습니다.

더 나은

소리 만 발행하고 그 이상은 없습니다. 설정에서 원하는 형식과 음질을 설정할 수 있습니다. 발견된 모든 소리를 다운로드할 수 있습니다. 패턴 검색이 있습니다.

이게 왜 필요해

머스킷 총소리, 딱따구리를 빠는 소리 또는 호머 심슨의 외침을 빠르게 찾아야 한다면 이 서비스가 적합합니다. 그리고 우리는 사용 가능한 러시아어 쿼리에서만 이것을 선택했습니다. 에 영어스펙트럼은 훨씬 더 넓습니다.

진지하게, 전문화된 서비스는 전문화된 청중을 의미합니다. 하지만 당신에게도 도움이 될까요?

뭐야

Wolfram|Alpha는 컴퓨터 검색 엔진입니다. 키워드가 포함된 기사에 대한 링크 대신 사용자의 요청에 대한 기성 답변을 제공합니다. 예를 들어 검색 양식에 "뉴욕과 샌프란시스코 인구 비교"를 영어로 입력하면 Wolfram|Alpha는 즉시 비교와 함께 테이블과 그래프를 표시합니다.

더 나은

이 서비스는 사실을 찾고 데이터를 계산하는 데 다른 것보다 낫습니다. Wolfram|Alpha는 웹에서 사용할 수 있는 지식을 축적하고 체계화합니다. 다양한 분야과학, 문화 및 엔터테인먼트를 포함합니다. 이 데이터베이스에 검색 쿼리에 대한 준비된 답변이 포함되어 있으면 시스템이 이를 표시하고 그렇지 않은 경우 결과를 계산하여 표시합니다. 이 경우 사용자는 더 이상 아무것도 볼 수 없습니다.

이게 왜 필요해

예를 들어 학생, 분석가, 저널리스트 또는 연구원인 경우 Wolfram|Alpha를 사용하여 활동과 관련된 데이터를 찾고 계산할 수 있습니다. 서비스는 모든 요청을 이해하지 못하지만 지속적으로 발전하고 더 똑똑해지고 있습니다.

뭐야

Metasearch 엔진 Dogpile은 검색 엔진의 결합된 결과 목록을 표시합니다. 구글 SERP, 야후 및 기타 인기 있는 시스템.

더 나은

첫째, Dogpile은 더 적은 수의 광고를 표시합니다. 둘째, 서비스는 특별한 알고리즘을 사용하여 찾아 표시합니다. 최고 점수다른 검색 엔진에서. Dogpile의 개발자에 따르면 그들의 시스템은 전체 인터넷에서 가장 완전한 문제를 생성합니다.

이게 왜 필요해

Google이나 다른 표준 검색 엔진에서 정보를 찾을 수 없으면 Dogpile을 사용하여 여러 검색 엔진에서 한 번에 찾아보십시오.

뭐야

BoardReader는 포럼, Q&A 서비스 및 기타 커뮤니티를 위한 텍스트 검색 시스템입니다.

더 나은

이 서비스를 사용하면 검색 필드를 소셜 사이트로 좁힐 수 있습니다. 특수 필터 덕분에 언어, 게시 날짜 및 사이트 이름과 같은 기준과 일치하는 게시물과 댓글을 빠르게 찾을 수 있습니다.

이게 왜 필요해

BoardReader는 특정 문제에 대한 대중 매체의 의견에 관심이 있는 PR 전문가 및 기타 미디어 전문가에게 유용할 수 있습니다.

드디어

대체 검색 엔진의 수명은 종종 일시적입니다. Lifehacker는 Yandex 회사 Sergey Petrenko의 우크라이나 지사의 전 CEO에게 그러한 프로젝트의 장기적 전망에 대해 질문했습니다.


세르게이 페트렌코

Yandex.Ukraine의 전 CEO.

대체 검색 엔진의 운명에 관해서는 간단합니다. 따라서 명확한 상업적 전망이 없거나 반대로 완전히 명확하지 않은 청중이 적은 매우 틈새 프로젝트입니다.

기사의 예를 보면 이러한 검색 엔진이 좁지만 수요가 많은 틈새 시장을 전문으로 한다는 것을 알 수 있습니다. 또는 아직 기존 검색에 적용할 수 없는 순위에서 원래 가설을 테스트하고 있습니다.

예를 들어, Tor 검색이 갑자기 수요가 있는 것으로 판명되면, 즉 적어도 Google 잠재고객의 일정 비율이 거기에서 결과를 필요로 할 것이며, 물론 일반 검색 엔진은 찾아 사용자에게 보여줍니다. 청중의 행동이 상당한 수의 쿼리에서 상당한 비율의 사용자가 더 관련성이 높은 결과, 사용자에 따라 달라지는 요소를 고려하지 않은 데이터로 보이는 경우 Yandex 또는 Google은 이러한 결과를 제공하기 시작할 것입니다.

이 기사의 맥락에서 "더 나은 것"은 "모든 것을 더 잘함"을 의미하지 않습니다. 예, 많은 측면에서 우리의 영웅은 Yandex와 멀리 떨어져 있습니다(심지어 Bing에서도 멀리 떨어져 있음). 그러나 이러한 각 서비스는 검색 업계의 거물들이 제공할 수 없는 것을 사용자에게 제공합니다. 확실히 당신은 또한 유사한 프로젝트를 알고 있습니다. 우리와 공유하십시오 - 토론합시다.

인터넷에서 전문적인 정보 검색

인터넷 검색은 웹 작업의 중요한 요소입니다. 현대 인터넷의 정확한 웹 리소스 수는 누구에게도 확실히 알려져 있지 않습니다. 어쨌든, 법안은 수십억에 들어갑니다. 비즈니스 목적이든 오락 목적이든 이 특정한 순간에 필요한 정보를 사용할 수 있으려면 먼저 끊임없이 보충되는 이 자원의 바다에서 정보를 찾아야 합니다.

인터넷 검색이 성공하려면 두 가지 조건이 충족되어야 합니다. 쿼리는 잘 공식화되어야 하고 적절한 위치에서 질문해야 합니다. 즉, 사용자는 한편으로는 검색 관심 분야를 해당 언어로 번역할 수 있어야 합니다. 검색어, 그리고 다른 한편으로 검색 엔진, 사용 가능한 검색 도구, 장단점에 대한 좋은 지식을 통해 각 특정 경우에 가장 적합한 검색 도구를 선택할 수 있습니다.

현재 인터넷 검색에 대한 모든 요구 사항을 충족하는 단일 리소스는 없습니다. 따라서 검색에 대한 진지한 접근 방식을 사용하면 필연적으로 가장 적절한 경우에 각각 다른 도구를 사용해야 합니다.

기본 인터넷 검색 도구다음과 같은 주요 그룹으로 나눌 수 있습니다.

검색 엔진;

웹 디렉토리;

참고 자료;

인터넷 검색을 위한 로컬 프로그램.

가장 인기있는 검색 엔진은검색 엔진- 소위 인터넷 검색 엔진(검색 엔진). 글로벌 규모의 상위 3개 리더는 매우 안정적입니다. 이들은 Google, Yahoo! 그리고 빙. 많은 국가에서 지역 콘텐츠에 최적화된 자체 지역 검색 엔진을 이 목록에 추가합니다. 그들의 도움으로 이론적으로 수백만 개의 사이트 페이지에서 특정 단어를 찾을 수 있습니다. 사용자의 관점에서 볼 때 검색 엔진의 가장 큰 단점은 불가피한 존재입니다.정보 소음결과에서. 이런 식으로 쿼리와 일치하지 않는 결과 목록에 포함된 결과를 호출하는 것이 일반적입니다.

많은 차이점에도 불구하고 모든 인터넷 검색 엔진은 유사한 원칙에 따라 작동하며 기술적인 관점에서 유사한 하위 시스템으로 구성됩니다. 검색 엔진의 첫 번째 구조적 부분 - 특별 프로그램, 웹 페이지의 자동 검색 및 후속 인덱싱에 사용됩니다. 이러한 프로그램을 일반적으로 스파이더 또는 봇이라고 합니다. 그들은 웹 페이지의 코드를 보고 거기에 있는 링크를 찾아 새로운 웹 페이지를 발견합니다. 도 있다 대체 방법색인에 사이트 포함. 많은 검색 엔진은 리소스 소유자가 자체적으로 데이터베이스에 사이트를 추가할 수 있는 기회를 제공합니다. 그럴 경우 웹 페이지가 다운로드되고, 분석되고, 색인이 생성됩니다. 구조적 요소가 강조 표시되고 키워드가 발견되며 다른 사이트 및 웹 페이지와의 링크가 결정됩니다. 다른 작업도 수행되며 그 결과 검색 엔진의 색인 기반이 형성됩니다. 이 기반은 모든 검색 엔진의 두 번째 주요 요소입니다. 현재 인터넷의 모든 콘텐츠에 대한 정보를 포함하는 절대적으로 완전한 인덱스 데이터베이스는 없습니다. 다른 검색 엔진은 다른 웹 페이지 검색 프로그램을 사용하고 다른 알고리즘을 사용하여 색인을 작성하기 때문에 검색 엔진 색인 기반은 크게 다를 수 있습니다. 일부 사이트는 여러 검색 엔진에 의해 인덱싱되지만 하나의 검색 엔진 데이터베이스에는 항상 일정 비율의 리소스가 포함됩니다. 각 검색 엔진에 인덱스의 원본과 겹치지 않는 부분이 있다는 사실을 통해 중요한 실용적인 결론을 내릴 수 있습니다. 가장 큰 검색 엔진이라도 하나의 검색 엔진만 사용하면 유용한 링크의 특정 비율을 확실히 잃게 됩니다. .

인터넷 검색 엔진의 다음 부분은 실제 검색 및 정렬 프로그램입니다. 이 프로그램은 두 가지 주요 작업을 해결합니다. 먼저 데이터베이스에서 들어오는 요청에 해당하는 페이지와 파일을 찾은 다음 다양한 기준에 따라 결과 데이터 배열을 정렬합니다. 검색 목표 달성의 성공 여부는 주로 작업의 효율성에 달려 있습니다.

인터넷 검색 엔진의 마지막 요소는 사용자 인터페이스입니다. 모든 사이트에서 흔히 볼 수 있는 미학과 편의성에 대한 요구 사항 외에도 검색 엔진 인터페이스에 대한 또 다른 중요한 요구 사항이 있습니다. 검색 엔진 인터페이스는 쿼리를 컴파일 및 정제하고 결과를 정렬 및 필터링하기 위한 다양한 도구를 제공해야 합니다. 검색 엔진의 장점은 소스의 우수한 적용 범위, 데이터베이스 콘텐츠의 비교적 빠른 업데이트 및 좋은 선택 추가 기능.

검색 엔진 작업을 위한 주요 도구는 쿼리입니다.

인터넷 검색의 경우 로컬 컴퓨터에 설치된 특수 응용 프로그램도 사용됩니다. 이들은 단순한 프로그램일 수도 있고 다소 복잡한 데이터 검색 및 분석 컴플렉스일 수도 있습니다. 가장 일반적인 브라우저 플러그인은 브라우저 플러그인, 특정 검색 서비스와 함께 작동하도록 설계된 브라우저 패널 및 결과 분석 기능이 있는 메타서치 패키지입니다.

웹 디렉토리 - 사이트가 주제별 범주별로 배포되는 리소스입니다. 사용자가 쿼리를 통해서만 검색 엔진으로 작업하는 경우 카탈로그에는 전체 주제 섹션을 볼 수 있는 기능이 있습니다. 카탈로그와 자동 검색 엔진의 두 번째 근본적인 차이점은 일반적으로 사람들이 콘텐츠에 직접 참여하여 리소스를 보고 사이트를 하나 또는 다른 범주로 지정한다는 것입니다. 웹 디렉토리는 일반적으로 범용 및 주제로 나뉩니다. Universal은 가능한 한 많은 주제를 다루려고 합니다. 시 관련 사이트에서 컴퓨터 리소스에 이르기까지 무엇이든 찾을 수 있습니다. 즉, 검색 범위가 최대입니다. 반면에 주제별 디렉토리는 특정 주제를 전문으로 하며, 리소스 범위를 줄여서 최대 검색 깊이를 제공합니다.

디렉토리의 장점은 그 안의 각 사이트를 사람이 보고 선택하기 때문에 상대적으로 높은 품질의 리소스입니다. 사이트의 주제별 그룹화를 통해 유사한 주제의 사이트를 편리하게 찾을 수 있습니다. 이 작동 모드는 관심 주제에 대한 새로운 사이트를 찾는 데 유용합니다. 검색 엔진을 사용하는 것보다 더 정확합니다. 퍼지 쿼리 검색뿐만 아니라 주제 영역에 대한 첫 번째 지인을 위해 웹 디렉토리를 사용하는 것이 좋습니다. 디렉토리 섹션을 "방황"하고 필요한 것을 더 정확하게 결정할 수 있습니다.

웹 디렉토리의 단점은 알려져 있습니다. 우선, 카탈로그에 사이트를 포함하려면 사람의 참여가 필요하기 때문에 데이터베이스가 느리게 보충됩니다. 효율성 측면에서 웹 디렉토리는 검색 엔진과 경쟁하지 않습니다. 또한 웹 디렉토리는 데이터베이스 크기 측면에서 검색 엔진보다 훨씬 열등합니다.

인터넷 검색에 대해 이야기할 때 이 영역과 밀접하게 관련되어 있으며 검색 엔진을 설명하고 평가하는 데 자주 사용되는 여러 용어를 무시할 수 없습니다. 예를 들어:폭과 깊이 인터넷 검색. 광범위한 검색은 가능한 한 많은 정보 소스를 캡처하는 검색입니다. 동시에 적어도 쿼리와 일치하는 특정 사이트에 대한 언급이면 충분합니다. 검색 깊이는 각 특정 리소스에 대한 인덱싱 및 후속 검색의 세부 정보를 나타냅니다. 예를 들어, 많은 검색 엔진은 서로 다른 사이트를 인덱싱하는 데 서로 다른 접근 방식을 사용합니다. 크고 인기있는 사이트는 최대한 색인이 생성되며 로봇은 이러한 리소스의 한 페이지를 놓치지 않으려고 합니다. 동시에 다른 사이트에서는 기본 페이지와 몇 페이지의 콘텐츠만 인덱싱할 수 있습니다. 물론 이러한 상황은 후속 검색에 영향을 미칩니다. 심층 검색은 "검색 주제와 관련된 데이터를 놓치는 것보다 결과에 중복 정보를 포함하는 것이 더 낫다"는 원칙에 따라 작동합니다.

와 같은 개념을 접하는 것은 매우 일반적입니다.글로벌 및 로컬 인터넷 검색. 지역 인터넷 검색은 사용자의 지리적 위치를 고려하고 특정 국가 또는 지역과 관련이 있는 결과에 우선권이 부여됩니다. 전역 검색은 이 정보를 무시하고 사용 가능한 모든 리소스를 검색합니다.

인터넷 검색 엔진에서 쿼리를 컴파일할 때, 다양한 모드검색. 대부분의 인터넷 시스템에서 볼 수 있는 일반적인 검색 모드는 다음과 같습니다.간단하고 고급 검색. 단순 검색을 사용하면 하나의 쿼리에 하나의 검색 기능만 지정할 수 있습니다. 고급 검색을 사용하면 여러 조건을 논리 연산자와 연결하여 쿼리를 생성할 수 있습니다.

다양한 방법이 검색 쿼리를 구체화하는 데 사용됩니다.필터 . 필터는 쿼리 조건의 콘텐츠 측면과 관련이 없지만 검색 결과를 일부 형식 기호로 제한하는 쿼리를 컴파일하는 보조 수단입니다. 예를 들어, 검색할 때 파일 형식 필터를 적용할 때 사용자는 요청의 주제와 관련된 정보를 시스템에 제공하지 않고 단순히 요청 조건에 지정된 특정 파일 형식으로 얻은 결과를 제한합니다.

대부분의 사용자에게 범용 검색 엔진은 주요 인터넷 검색 수단이며 종종 유일한 수단입니다. 그들은 기본적인 검색 작업에 충분한 도구 세트뿐만 아니라 소스의 좋은 범위를 제공합니다.

범용 검색 엔진 시장은 상당히 큽니다. 가장 유명한 검색엔진을 분석해 보았고 그 결과를 Table 1과 같은 형태로 제시하였다.

범용 검색 엔진을 선택할 때 도움을 받아 찾은 리소스의 품질이 중요한 역할을 합니다. "마커 방법"을 사용하여 특정 작업에 대해 선호하는 검색 엔진을 결정할 수 있습니다. 그 본질은 먼저 특정 주제별 검색 쿼리가 컴파일 된 후이 분야의 전문가 그룹이 설문 조사를 통해 선택한 주제에 대한 최고의 인터넷 리소스를 식별한다는 사실에 있습니다. 설문 데이터를 기반으로 쿼리와 관련성이 보장되고 고품질 정보가 포함된 마커 사이트 목록이 구성됩니다. 그런 다음 요청이 테스트된 검색 엔진으로 전송됩니다. 평가 논리는 간단합니다. 검색 결과에서 마커 사이트가 높을수록 특정 리소스가 테스트 주제에 대한 정보를 찾는 데 더 적합합니다.



우리 시대에 대해 이야기하기 정보 기술개인과 사회 모두가 사용할 수 있는 데이터의 양의 끝없는 증가, 정보를 처리하고 검색하는 데 많은 문제가 있습니다. 이것은 이미 신성 모독입니다. 누가 이 주제를 제기하지 않습니다. 그리고 문제와 관련하여 다양한 정보 소스에서 수집한 주관적이고 부분적으로 객관적인 판단을 하지 않기 위해 직접 해결을 진행하겠습니다. 오늘은 검색에 대해 알아보겠습니다. 즉, 필요한 문서와 데이터를 검색하는 프로그램 및 심각한 정보 시스템에 관한 것입니다.

"직접 검색" 업그레이드

얼마 전까지만 해도 나무가 무성하고 정보가 지역 네트워크기업이 많지 않았고 사용 가능한 소수의 파일을 단순하게 열거하고 이름과 내용을 일관되게 확인하여 검색을 수행했습니다. 이러한 검색을 직접 검색이라고 하며 직접 검색 기술을 사용하는 프로그램(유틸리티)은 전통적으로 모든 운영체제및 도구 패키지. 그러나 현대 컴퓨터의 성능만으로는 직접 검색 중에 방대한 양의 데이터를 빠르고 적절하게 검색하기에 충분하지 않습니다. 디스크에 있는 수백 개의 문서를 검색하는 것과 거대한 라이브러리와 수십 개의 사서함에서 검색하는 것은 별개입니다. 따라서 오늘날 직접 검색 프로그램은 분명히 배경으로 사라지고 있습니다. 범용 도구에 대해 이야기하는 경우입니다.

물론 기업 부문에서는 이러한 유형의 검색이 오랫동안 요구되지 않았습니다. 볼륨은 동일하지 않습니다. 따라서 수년 동안, 그리고 최근에는 문서에 대한 빠르고 정확한 검색을 수행할 수 있는 기술 다양한 형식다양한 출처에서 관련성보다 더 많은 정보를 제공합니다. 얼마 전 Microsoft의 "아버지"Bill Gates는 Google 인터넷 검색 엔진의 경이적인 성공을 부러워하는 기자 회견 중 하나에서 가능한 모든 방법으로 소프트웨어 (이미뿐만 아니라)에 대한 열망을 발표했습니다. , 검색 엔진 및 기술 생성을 개발하고 심화합니다. 그러나 Microsoft 또는 인터넷의 경쟁 서버에서 경이로운 작업 프로그램을 만들기 전에는 아직 너무 이르다(MSN은 여전히 ​​Google에 미치지 못합니다). 따라서 우리는 기존 개발로 전환합니다. 색인, 쿼리, 관련성

중심에서 현대 기술두 가지 기본 프로세스가 있습니다. 첫째, 사용 가능한 정보의 인덱싱과 요청 처리, 결과 출력입니다. 첫째, 모든 프로그램(데스크톱 검색 엔진, 기업 정보 시스템 또는 인터넷 검색 엔진)은 자체 검색 영역을 만듭니다. 즉, 문서를 처리하고 이러한 문서의 색인(처리된 데이터에 대한 정보를 포함하는 조직화된 구조)을 형성합니다. 미래에는 작업에 사용되는 생성된 색인입니다. 요청에 따라 필요한 문서 목록을 빠르게 얻습니다. 또한 기술적인 측면에서 결코 간단하지 않지만 충분히 이해할 수 있습니다. 일반 사용자. 프로그램은 요청을 처리하고(키워드 구문으로) 이 키워드 구문이 포함된 문서 목록을 표시합니다. 정보가 구조화된 인덱스에 포함되어 있기 때문에 쿼리 처리가 직접 검색의 경우보다 훨씬(수십 배, 수백 배!) 빠릅니다(문서 선택은 파일을 열거하는 것이 아니라 텍스트 정보를 분석하여 수행됩니다. 인덱스).

프로그램은 관련성에 따라 검색된 문서를 결과 목록에 표시합니다(문서와 쿼리 텍스트의 일치). 물론 다양한 기술에는 다양한 방법문서의 관련성 검색 및 결정 검색된 파일의 구문 등). 이러한 매개변수를 기반으로 문서의 "가중치"가 결정되고 이에 따라 하나 또는 다른 파일이 특정 위치의 결과 목록에 나타납니다. 인터넷 검색의 경우 상황은 더욱 복잡합니다. 실제로 이 경우 다른 많은 요소를 고려해야 합니다(Google 페이지 순위가 이에 대한 예임). 그러나 이것은 별도의 기사에 대한 주제이므로 인터넷은 다루지 않습니다.

이 문서에서는 여러 가지 가능성에 대해 설명합니다. 인기 프로그램괜찮은 속도와 좋은 기능을 모두 자랑할 수 있는 검색. 그러나 전단지로 과시하는 것과 전문가의 시선에 맞서는 것은 별개입니다. 그리고 그 사용성을 위해 소프트웨어를 만지작거려야 하는 연인들로 가득 찬 사무실은 많지도 적지도 않았습니다. 테스트 컴퓨터에서(Athlon 2.2MHz, 랜덤 액세스 메모리 1GB, 160GB Seagate 7200rpm IDE 하드 드라이브 및 윈도우 시스템 XP) 일련의 프로그램이 설치되었습니다: dtSearch Desktop, Snoop Prof Deluxe, Google Desktop Search, SearchInform, Copernic Desktop Search, ISYS Desktop. 테스트를 위해 문서의 텍스트 기반을 doc, txt 및 html 형식으로 컴파일했으며 총 크기는 20GB입니다. 당신의 겸손한 하인의 지도 하에 한 그룹의 동지들이 테스트하고, 비교하고, 각 소프트웨어에 대한 주관적인 느낌을 공유했습니다. 결과 요약을 보려면 아래를 읽으십시오. dtSearchDesktop

개발자에 따르면 가장 빠르고 편리하며 최고의 검색 엔진이라고 주장하는 프로그램입니다. 일반적으로 이 리뷰의 나머지 부분과 마찬가지로. dtSearch의 인터페이스는 매우 단순하지만 일부 창이나 탭에는 요소가 다소 과부하되어 사용하기 어렵다는 인상을 줍니다. 그러나 사실 특별한 어려움은 없습니다. 유일하게 불쾌한 순간은 러시아어 소프트웨어에 대한 지원이 부족하다는 것입니다(프로그램이 여러 언어로 문서를 검색할 수 있음에도 불구하고 인터페이스는 영어로만 제공됨).

그러나 dtSearch는 웹 페이지를 사용자가 지정한 "깊이"로 색인화할 수 있는 몇 안 되는 프로그램 중 하나입니다(그러나 dtSearch Spider 애드온 키트의 "추가 구매"를 고려). 이것은 다양한 디스크의 파일을 지원하는 것 외에도 텍스트 형식및 이메일 사서함시야. 동시에, 프로그램은 데이터베이스 작업 방법을 알지 못합니다. 데이터베이스는 데이터베이스에 포함된 정보의 양이 많고 기업 및 기업 네트워크에 광범위하게 분포되어 있기 때문에 검색 엔진에 매우 유용합니다. dtSearch 문서의 인덱싱 속도는 최고였습니다. 앞으로 이 프로그램은 다른 참가자(iSYS)와 레벨에 대한 일정량의 정보를 인덱싱하는 데 대처했으며 가장 많은 목록에서 그와 2위를 공유했다고 말할 수 있습니다. 빠른 시스템. 6시간 13분 만에 인덱싱된 20GB 정보 dtSearch를 테스트하여 후속 검색에 필요한 7.9GB의 인덱스를 생성합니다.

검색 기능은 여기에서 최고입니다. 첫째, dtSearch에는 형태소 검색(모든 형태소 형식의 단어 검색)이 있습니다. 이 기회를 이용하면 "내가 필요한 문서에서 어떤 단어가 어떤 경우에 사용되었습니까?"와 같은 생각에서 벗어날 수 있습니다. 형태학적 검색의 사용은 거의 항상 정당화되므로 모든 전문 검색 엔진에 있어야 합니다.

소리 검색은 전문 검색자에게도 비표준 기능입니다. 그 본질은 프로그램이 입력한 단어와 같은 소리를 내는 단어를 찾을 것이라는 사실에 있습니다. 그리고 가장 좋은 점은 이 기능이 러시아어에서도 작동한다는 것입니다! 예를 들어 검색어에 "귀"라는 단어를 입력하면 "귀"라는 단어뿐만 아니라 "귀"라는 단어도 나옵니다.

오류 수정 검색은 매우 중요한 기능입니다. 구문 오류가 포함된 단어를 검색하는 데 사용됩니다. 예를 들어 문자 인식 시스템을 사용하여 얻은 문서의 오타 또는 오류일 수 있습니다. 간단한 예는 키보드라는 단어를 찾고 있는 것입니다. 일부 문서에는 "keyboard"라는 단어가 포함되어 있습니다. 실제로 이 단어는 입력할 때 입력하는 사람이 "keyboard"인 것이 분명합니다. 이제 오류 수정 검색이 검색되어 결과에 "keyboard"라는 단어가 포함된 문서가 포함됩니다. 또한 dtSearch에는 가능한 오류 문자의 정도를 결정할 수 있는 설정이 있습니다.

동의어를 사용하여 검색합니다. 이 기능은 다양한 단어에 대한 동의어 목록을 사용합니다. 따라서 예를 들어 "빠른"이라는 단어를 입력하면 프로그램은 "고속"이라는 단어와 "빠른"이라는 단어와 동의어인 다른 단어도 찾습니다. . 미리 만들어진 동의어 목록은 dtSearch 프로그램과 함께 제공되지 않지만 인터넷에서 목록을 사용하는 것이 가능합니다(따라서 연결이 필요하며 항상 편리한 것은 아닙니다). 동의어.

나열된 기능 외에도 dtSearch는 논리적 연산으로 연결된 단어로 구성된 구를 사용하여 검색할 수 있습니다. 쿼리의 각 단어에는 고유한 "가중치", 즉 중요성이 할당될 수 있습니다. 유용한 옵션은 검색할 때 고려하지 않기 위해 중요하지 않은 단어로 구성된 사전을 사용하는 것이지만 이 사전도 비어 있으므로 직접 채워야 합니다.

다음으로, 네트워크에서 작업할 때 프로그램의 가능성을 고려하십시오. 실제로 dtSearch는 특정 네트워킹 기능을 제공하지 않습니다. 그러나 네트워크에서 사용할 수 있습니다. 또는 인덱스를 생성하여 공용(공유) 폴더에 넣을 수 있습니다. 프로그램 자체는 컴퓨터의 각 사용자에 대해 설치되거나 열려 있는 폴더에 넣을 수 있습니다. 공개 액세스, 그리고 프로그램과 함께 제공되는 도움말 파일에 설명되어 있는 명령줄 옵션을 사용하여 각 사용자를 위한 특별한 방법으로 바로 가기를 생성합니다. 또한 가능성이 있습니다 자동 설치 MSI 파일을 사용하여 네트워크에 프로그램. 이것은 연결된 각 사용자의 설정을 고려합니다.

일반적으로 - 전문 검색 엔진 범주의 좋은 프로그램입니다. 좋은 평가를 받을 자격이 있을 수 있지만 몇 가지 요인으로 인해 dtSearch에 대해 사용자로부터 신뢰와 존경을 얻는 것이 어려울 수 있습니다(모든 것이 인터페이스가 원활하지 않고 러시아 사용자가 박탈되고 네트워크 작업을 위한 밝은 기능이 없음) . 문서를 직접 검색하는 경우 프로그램에는 러시아어 텍스트와 오버레이가 없습니다. 선언 된 형태 또는 퍼지 검색이 없었기 때문입니다. 시스템은 한 단어로 된 간단한 요청과 몇 단락 또는 어떤 문서를 키워드로 사용하여 필요한 문서를 상당히 적절하게 찾았습니다.

공식 사이트:
배포 크기: 23MbSnoop Prof Deluxe

이름을 보고 이 프로그램에서 러시아어를 지원한다는 것을 짐작할 수 있습니다. 이미 멋지다. 인터페이스는 일반적으로 다소 독특하지만 외관상 매우 매력적입니다. 또 다른 것은 편리함입니다. 매우 논란의 여지가 있는 기준이지만 여전히 다중 창 솔루션이 최선의 선택은 아닙니다(요청이 한 창에 입력되고 결과가 다른 창에 표시되는 등).

Bloodhound는 여전히 동일한 색인을 사용하여 빠른 검색을 수행하지만 색인 작성은 다른 프로그램보다 훨씬 느립니다. 특히 검색 쿼리를 처리하는 능력이 매우 약해서 인덱스 구조가 복잡하지 않다는 점을 고려할 때 이것은 매우 이상합니다. 아마도 여기서 요점은 최적화되지 않은 알고리즘에 있습니다. 이 프로그램은 인덱싱 및 검색 속도의 명백한 외부인으로 판명되었습니다. 인덱스 생성에 소요되는 시간은 동일한 dtSearch 및 iSYS보다 6배 더 깁니다. 블러드하운드에 대해 20GB의 텍스트를 인덱싱하는 데 38시간 46분이 소요되었습니다. 그리고 생성된 "검색 영역"은 19GB의 작은 마이너스로 원본 데이터와 동일한 크기의 하드 디스크를 차지했습니다.

블러드하운드가 대안으로 제시될 수 있음 표준 검색 Windows에서는 더 이상 할 수 없습니다. 가장 간단한 파일 검색인 Seeker의 주요 작업은 검색어 텍스트를 분석하는 소수의 기능과 파일 속성에 의한 고급 검색 기능뿐만 아니라 직접 링크를 제공하는 결과 창으로도 표시된다는 사실 발견된 파일과 이러한 파일이 포함된 폴더. 결과 창은 발견된 전체 파일을 실행해야만 읽을 수 있다는 점, 즉 내장된 파일 뷰어가 없다는 점에서 그다지 유익하지 않습니다. 그러나 검색 된 단어가 발견 된 파일에서 발췌 한 내용이 제공되며 일반적으로 이러한 표시 체계는 인터넷 검색 엔진을 연상시킵니다.

검색 쿼리를 처리하는 특정 가능성에 대해 말하면 "텍스트 검색"과 같은 것이 없으며 여러 줄 텍스트 입력 필드가 없기 때문에 검색할 수 있는 최대값은 구입니다. 그러나 입력한 구문을 분석할 수도 있으며 Bloodhound는 여기에 표준 검색 세트를 제공합니다. 논리 연산, 마스크로 검색하고 인용구 검색... 별로. 프로그램에는 형태학적 검색의 기초가 있지만 아마도 너무 원시적이어서 올바른 작업을 방해할 수 있습니다(테스트 중에 형태학이 잘못 사용된 오버레이가 많이 발견되었습니다).

그러나 프로그램을 사용하면 검색할 때 파일 속성(문서 날짜, 파일 이름, 폴더 이름)을 지정할 수 있으며 이러한 쿼리에서 동일한 검색 세트를 사용할 수도 있습니다. 또한 매개변수(From, Subject... 등)를 지정하여 메시지를 검색할 수 있습니다.

그래서 우리는 검색 자체를 알아 냈습니다. 공식 웹 사이트의 정보에 따르면 많은 상을 수상한 프로그램에 대해 흥미로운 점은 무엇입니까? 무엇이 그렇게 특별한지 말하기는 어렵습니다. 아마도 Bloodhound의 인터페이스는 그 자체로 도움이 될 것입니다(사용성은 말할 것도 없고 외적으로만).

인덱스 작업은 매우 표준적이며 일정에 따라 인덱스를 업데이트할 수 있는 기능이 좋습니다. 또한 인덱스는 온라인에서도 사용할 수 있습니다. 이제부터 우리는 더 구체적이어야 합니다.

검색 쿼리의 원시성에도 불구하고 프로그램을 사용하여 파일을 검색할 수 있으므로 네트워크에서 사용을 정당화할 수 있습니다. 큰 확장이지만 대규모 네트워크에서는 방대한 양의 정보로 인해 복잡한 검색 쿼리를 사용하여 데이터를 빠르게 검색하는 것이 우선 순위이며 검색 속도와 프로그램에 분명히 문제가 있습니다. 블러드하운드의 네트워크와의 작업은 당연히 생각해야 한다고 말해야 합니다. 이를 위해 특별히 설계된 별도의 응용 프로그램인 Bloodhound Server입니다. 이것은 Bloodhound(하나의 검색 엔진이 있음)와 같은 방식으로 작동하며, 중앙 서버나 공유 리소스에서 호스팅되는 문서에만 적용됩니다. 기업 네트워크. Bloodhound Server는 공유 리소스에 새 인덱스를 생성하거나 이전에 생성된 인덱스를 사용합니다. 기업 네트워크의 모든 사용자는 Bloodhound Server에 연결하고 이를 사용하여 인터넷 브라우저를 사용하여 모든 문서(현재 색인에 있음)에 액세스할 수 있습니다. 동의합니다. 그러한 계획은 매우 편리합니다. 예를 들어 Google을 통해 인터넷의 정보와 동일한 방식으로 자신의 네트워크에 있는 파일을 검색할 수 있습니다.

이 프로그램의 모든 장점과 단점을 평가하면 결론은 기업 네트워크의 경우 기능이 충분하지 않을 가능성이 높지만(좋은 네트워킹 구성에도 불구하고) 가정용 컴퓨터 또는 홈 네트워크의 경우에는 다음과 같습니다. 원칙적으로 적합할 수 있습니다. 작업 속도도 검색 기능도 낙관론을 불러 일으키지 않지만 ...

러시아어 공식 사이트:
배포 크기: 6MbGoogle 데스크톱 검색 + GDS Enterprise

물론 우리는 그런 저명한 개발자를 무시할 수 없었습니다. Google이라는 이름은 이미 많은 것을 말해줍니다. 수년간 가장 강력한 인터넷 검색 엔진을 사용해 온 사람들은 의심의 여지 없이 이 특정 검색 엔진을 컴퓨터에 설치하기로 결정할 것입니다. 집 컴퓨터에서 Google을 생각하는 것과 같습니다. 그러나 널리 홍보되는 브랜드로 도발에 굴복하지 않고 냉정하고 가장 중요하게는 객관적으로 Google의 "데스크톱"검색 엔진의 가능성을 고려합시다.

가장 먼저 눈에 띄는 것은 프로그램에 대한 자체 셸이 없다는 것입니다. Google 데스크톱 검색은 여전히 ​​브라우저 창에 있으며 데스크톱 버전의 전체 인터페이스는 이전 인터넷 형제에서 소프트웨어로 이동했습니다. 이것이 좋든 나쁘든 논쟁의 여지가 있습니다. 누군가이 검색 엔진의 디자인에서 미니멀리즘을 좋아하고 누군가는 모든 종류의 버튼 등으로 가득 찬 본격적인 응용 프로그램을보고 싶어합니다.

디자인 직후 눈에 들어오는 것은 무엇입니까? 그리고 이 동일한 Google 데스크톱 검색이 컴퓨터에 대한 요구 없이 컴퓨터에 있는 모든 항목의 색인을 생성하기 시작한다는 사실! 그리고 가장 흥미로운 점은 Google 데스크톱 검색을 사용하여 인덱싱 경로를 선택하는 것이 불가능하다는 것입니다. 약간 확장할 수 있는 별도의 프로그램(TweakGDS)을 다운로드해야 합니다. 구글 설정인덱싱에 필요한 위치 지정을 포함하여 데스크탑. 모든 것을 알아내는 동안 이미 표준 하드 드라이브를 인덱싱하므로 이 설정은 대량의 데이터를 작업할 때 더 필요하며 기업 네트워크(엔터프라이즈 버전)에서 사용할 때 매우 중요합니다. 그러나 TweakGDS를 다운로드한 후 문제가 해결된다는 것은 사실이 아닙니다. 결국 Microsoft가 필요합니다. 넷 프레임 워크및 Microsoft 스크립팅 런타임. 예... 설치와 설정에 대한 액세스가 더 쉬울 수 있었지만 개발자는 이해할 수 있습니다. 이미 기성품 검색 엔진이 있는데 왜 새로운 것을 작성하고 포팅했는지 로컬 컴퓨터사용자가 "즐기게" 하고 유명인이 "이것"으로 또 다른 걸작을 만들게 하십시오. 자, 이 서정적인 탈주를 끝내고 검색으로 넘어갑시다.

검색 쿼리 분석 및 결과 발행과 관련하여 여기의 모든 것은 인터넷의 Google과 절대적으로 동일합니다. 결과를 표시하기 위한 동일한 시스템, 검색 쿼리에 대한 동일한 표준 논리 작업 집합입니다. 일반적으로 Google 데스크톱 검색은 이전 프로그램, 파일 검색 전용입니다. 물론 이러한 파일에 대한 내부 뷰어는 없습니다. Google 데스크톱 검색이 지원하는 파일 형식의 수는 충분하며 캐시에서 데이터를 가져와 방문한 인터넷 페이지를 검색하는 것도 좋습니다. 검색 및 인덱싱 속도는 상당히 수용 가능합니다. 사실, 가정용입니다. 20GB의 인상적인 텍스트가 포함된 Google 데스크톱 검색은 8시간 17분 만에 처리되었습니다. 대기업의 기업 네트워크에서 정보를 처리하는 데 며칠을 보내도 시스템 관리자에게는 미소가 없습니다. 플러스 측면에서: 생성된 인덱스의 크기는 이 검토에서 테스트된 다른 검색 엔진인 SearchInform에서 수준(4.5GB)으로 판명되었습니다.

Google 데스크톱 검색의 큰 장점(또는 생략 - 사용자가 결정)은 개선을 위해 많이 변경할 수 있는 플러그인을 지원한다는 것입니다. 또 다른 문제는 플러그인을 연결하고 구성하면 검색 엔진을 설치하는 작업이 너무 복잡해져서 모든 것이 이미 있는 정상적인 본격적인 프로그램을 설치할 수 있는데 이 모든 것이 필요한지 궁금해지기 시작한다는 것입니다. 결국 각 기능을 사용하려면 새 플러그인을 설치해야 합니다. 프로그램이 아카이브와 완전히 작동하려면 별도의 로션이 필요합니다. 이 모든 추가 모듈을 무료로 매료시키고 유혹합니다. 그러나 검색 엔진의 데스크톱 버전을 고려하지 않으면 GDS Enterprise를 유능하게 설정하는 것이 불가능할 수 있습니다. Google 전문가가 자체 설정을 위해 서비스를 제공하는 것은 헛되지 않습니다. 소프트웨어단 $10,000의 비용으로 네트워크에 사용할 수 있습니다.

그럼에도 불구하고 설정 및 설치 절차를 마스터한다면(또는 Google 빠른 응답 팀에 $10,000 지불) 기업 네트워크에서 사용할 때 설치의 복잡성이 매우 유연한 설정으로 상쇄되는 것 이상이라는 것을 이해하게 될 것입니다. 기업 네트워크에서 Google 데스크톱 작업의 중요한 측면은 그룹 정책, 이를 통해 각 사용자에 대한 기본 설정을 지정할 수 있습니다.

요약하면 이 프로그램의 가장 합리적인 용도는 가정이나 직장 컴퓨터라고 해야 합니다. 실제로 일반 컴퓨터의 경우 프로그램을 설치하는 것만으로도 충분합니다. 나머지는 자체적으로 수행합니다(아무것도 묻지 않음).

그러나 Google 데스크톱 검색 엔터프라이즈는 검색 엔진을 사용하기 위한 유연한 네트워크 정책 설정이 긴급하게 필요한 경우에 허용되며 검색 쿼리를 처리하는 기능이 두 번째로 중요하고 시간(또는 비용)이 프로그램 설정에 소요되는 비용이 가장 우선시됩니다.

공식 사이트:
TweakGDS를 사용한 배포 크기: 1.2 MbCopernic Desktop Search

사진을 클릭하면 확대됩니다

프로그램의 인터페이스는 매우 긍정적인 감정을 불러일으키며 모든 것이 일반적으로 허용되는 표준에 따라 수행되며 한마디로 쾌적한 디자인입니다. 초보자가 Copernic Desktop Search의 인터페이스를 이해하는 것은 매우 쉬울 것입니다. 그러나 프로그램이 표준 Windows XP 테마에서 작동한다는 사실을 고려하여 디자이너가 명시적으로 프로그램의 인터페이스를 만든 것은 다소 당혹스럽습니다. 동일한 클래식 테마를 사용하면 프로그램이 그렇게 예쁘지 않습니다. 그러나 이것은 더 취향의 문제입니다.

처음 시작할 때 프로그램은 검색을 위한 색인 생성을 제안합니다. 인덱싱할 폴더를 선택한 후 프로그램이 "인덱싱 시작"과 같은 버튼을 누르지 않고 인덱싱이 자동으로 시작되지 않은 다음에만 컴퓨터가 유휴 상태일 때 Copernic이 인덱싱을 시작하려고 시도하는 것으로 나타났습니다. . 모든 것을 올바르게 설정하려면 프로그램 옵션을 약간 파헤쳐야 합니다. 사용자 정의를 위한 상당히 넓은 옵션이 있다는 점에 유의해야 합니다. 자동 생성색인: 기본 제공 스케줄러, 컴퓨터가 유휴 상태일 때 배경에서 낮은 우선 순위로 색인을 생성하는 기능. 인덱싱은 너무 빠르지 않았습니다(10시간 51분). 이는 다른 검색 엔진보다 느립니다(Bloodhound 제외, 그러나 Copernic은 iSleuthHound 기술 개발보다 훨씬 빠릅니다.

이제 인덱스의 구조에 대해 알아보십시오. 일반적으로 그것에 대해 특별한 것은 없습니다. 일반화된 형식과 세부적인 형식 모두에서 파일 형식을 선택할 수 있습니다. 즉, 처음에는 문서, 이미지, 비디오, 음악 등 색인을 생성할 항목을 선택할 수 있습니다. 옵션 창의 다른 탭에서는 확장자로 특정 파일 형식을 선택할 수 있습니다. 또한 예를 들어 크기가 16x16 미만인 사진은 인덱싱되지 않거나 길이가 10초 미만인 사운드 파일은 인덱싱되지 않도록 인덱스를 구성할 수 있습니다. 폴더에서 파일을 인덱싱하는 것 외에도 Copernic은 Microsoft Outlook 및 Microsoft Outlook Express 주소록에 있는 이메일 및 연락처로 작업할 수 있으며 Internet Explorer에서 즐겨찾기 및 기록을 인덱싱할 수 있습니다.

검색 기능에 관해서는 여기에서 매우 약합니다. 테스트 중에 프로그램이 러시아어로 된 txt 및 html 형식의 문서를 검색하지 않는 것으로 밝혀져 내용이 아닌 제목으로 만 찾을 수 있습니다. 프로그램이 검색 효율성을 향상시키기 위해 제공하는 유일한 것은 표준 세트논리적 연산, 그리고 그때에도 이 가능성은 문서화되지 않았기 때문에 실험적으로 발견되었습니다. 그건 그렇고, 프로그램의 도움말도 괜찮지 않습니다. 인터넷을 통해서만 사용할 수 있습니다. 이는 매우 불편하고 네트워크에 너무 많은 도움말 정보가 없습니다. 분명히 개발자는 프로그램의 간단한 인터페이스가 정상적인 도움의 존재를 의미하지 않는다고 결정했습니다. 검색 기능에 대한 대화를 계속하면서 쿼리에 대한 열악한 분석에도 불구하고 프로그램은 흥미로운 검색 시스템을 제공합니다. 사용자는 파일 유형(이미지, 비디오, 음악 등)을 선택하고 다음을 입력할 수 있습니다. 쿼리를 검색하고 선택한 파일 유형에 특정한 속성을 선택합니다. 예를 들어, 사운드 파일, 이들은 mp3 태그(아티스트, 앨범, 날짜 등)의 값일 수 있습니다. 예를 들어 이미지의 경우 크기(해상도 기준)를 선택할 수 있으며 일반적으로 각 유형에는 고유한 설정이 있습니다. 특정 유형의 파일을 검색한 후 프로그램은 결과 창에 매우 유익한 목록을 표시하고 요청에 다른 유형의 파일이 포함된 경우 특정 링크를 클릭하여 열 수 있습니다.

이와 별도로 결과 표시 창을 언급할 가치가 있습니다. 발견된 파일 목록 아래에 이러한 파일의 내용이 표시됩니다(비슷한 구성표는 다음에서 자주 사용됩니다. 메일 클라이언트). 사실, 텍스트는 기본 형식으로만 볼 수 있으며 이 경우 문서를 여는 데 더 많은 시간이 걸리기 때문에 항상 편리한 것은 아닙니다. 일반 텍스트 표시 모드가 없습니다. 그러나 Copernic이 이미지와 음악을 검색할 수 있다는 점을 감안할 때 이러한 멀티미디어 파일을 볼 가능성이 있습니다.

이 프로그램의 기본 원리에 대해 설명했습니다. 이제 Copernic Desktop Search가 네트워크 작업을 위해 우리에게 제공할 수 있는 것을 보겠습니다. 원칙적으로 매우 오랫동안 볼 수 있지만 아무 것도 볼 수 없을 것입니다. 즉, 이 프로그램은 네트워크 프로그램이 아닙니다. Copernic Desktop Search는 독점적인 가정 검색 엔진입니다.

분명히, 이 프로그램의 유일한(가장 논리적인) 용도는 가정용 컴퓨터. 여기서는 한두 단어로 구성된 사용자의 단순 검색어에 모두 잘 대처하고, 필요한 정보를 찾고, 파일 형식별 검색 분리 및 멀티미디어 파일 지원, 낮은 우선 순위 모드에서의 백그라운드 인덱싱, 쾌적한 인터페이스와 결합하여 미숙한 사용자들 사이에서 신뢰를 얻을 수 있는 프로그램의 강점을 제공합니다.

공식 사이트
배포 크기: 2.6MbISYS 데스크탑

사진을 클릭하면 확대됩니다

매우 강력한 프로그램입니다. 각종 기능을 갖춘 장비의 수준으로 보면 다음 목록의 SearchInform 검색 엔진 근처 어딘가에 있습니다. 동시에 설치 파일의 크기는 40Mb 이상입니다! 비슷한 기능을 가진 동일한 SearchInform이 15Mb를 차지하기 때문에 이러한 크기에 무엇이 채워질 수 있는지 말하기는 어렵습니다.

여기의 설치 과정도 그다지 유쾌하지 않거나 오히려 설치 과정조차도 아닙니다. 프로그램을 다운로드하기 전에도 등록하라는 메시지가 표시됩니다. 그렇지 않으면 아무 것도 없습니다. 다음으로 인터페이스입니다. 그것은 매우 멋지게 만들어졌으며 불필요한 것은 눈에 띄지 않지만 이것은 이미 그에게 다소 익숙한 사람의 인상입니다. 초보자가 어디에, 무엇을, 어디를 클릭해야 하는지, 어디에서 최종적으로 검색해야 하는지 파악하는 것은 쉽지 않을 것입니다. 작업을 시작하기 전에 도움말을 읽는 것이 좋습니다. 신경과 시간을 많이 절약하십시오. 다른 모든 것 외에도 그것은 또한 완전한 결석프로그램에서 러시아어 지원. 안좋다. 또한 여기의 창에는 컨트롤이 오버로드되지 않았지만 다중 모듈과 추가 창을 사용해야 하는 비용이 발생했습니다. 예를 들어, 하나의 프로그램을 실행하여 검색어를 입력하고 다른 프로그램을 사용하여 인덱스를 관리합니다. 검색 쿼리도 여기에 별도의 상자에 입력됩니다. 과부하 인터페이스와 유비쿼터스 다중 창 중 어느 것이 더 낫다고 말하기는 어렵습니다. 오히려 취향의 문제입니다.

색인 생성과 관련하여 프로그램은 새 색인에 대한 옵션 설정 프로세스를 단순화하는 옵션을 제공합니다. 이러한 기능에는 여러 기성품 템플릿내 문서, 메일, 메일 및 문서, 특정 폴더, 선택한 파일 형식이 있는 폴더 등에 색인을 생성합니다. 이러한 템플릿을 사용하면 첫 번째 단계에서 색인을 쉽게 생성할 수 있습니다. 인덱스 작업을 위한 유틸리티에는 약간의 복잡성을 두려워하는 그다지 좋은 인터페이스가 없습니다(솔직히 이것은 매우 주관적인 평가입니다). 그러나 살펴보면 많은 유용한 옵션을 제공하며 일반적으로 그 사용은 큰 어려움을 일으키지 않습니다. ISYS Desktop은 다양한 데이터 소스의 데이터를 인덱싱할 수 있으며 이러한 인덱싱을 위한 다양한 유연한 설정도 제공합니다. 의 사이에 추가 기능인덱싱용: SQL, FTP, TRIM Context, WORLDOX 2002, 스크립트 지원. 색인을 생성할 때 "파일 유형 선택이 있는 폴더" 옵션을 선택한 경우 수동으로 색인화할 파일 유형(확장자별)을 선택할 수 있습니다. 지원되는 파일 유형이 엄청나게 많다고 말해야 하지만 기존 목록에 고유한 유형(확장자)을 추가하는 것은 불가능합니다. 인덱싱 스케줄러가 있음을 확인할 수도 있습니다. ISYS Desktop은 인덱스를 생성하고 20GB의 정보를 처리하는 데 6시간 13분이 걸렸으며, 결국 좋은 시간과 생성된 파일 크기(7.9GB)를 보여주었습니다.

이 프로그램의 검색 기능은 나쁘지 않습니다. ISYS에서 사용되는 것은 논리 연산에 대한 일반적인 지원보다 훨씬 강력합니다. 고급 검색 기능 중 프로그램은 동의어 사용, 필터 정렬(경로, 파일 생성 날짜 및 이름 기준)을 제공합니다. 논리 연산자 집합은 표준 집합보다 다소 넓습니다. 논리 연산 외에도이 프로그램을 사용하면 원칙적으로 일부 유형의 검색을 대체 할 수있는 다른 많은 연산자와 함께 작업 할 수 있습니다. 예를 들어 구문 분석을 통한 검색은 특수 연산자를 사용하여 완전히 대체 될 수 있습니다. 나는 그 프로그램에 형태를 이용한 검색이 없다는 것에 매우 놀랐다. 형태소 분석을 사용하면 검색 효율성이 크게 향상되기 때문에 이것은 심각한 누락입니다. 또한 중요한 단어 목록은 없지만 중요하지 않은 단어 목록은 광범위합니다. 또한 검색에서 이러한 기능을 "근사 검색" 및 "휴리스틱 분석"으로 선언했습니다.

ISYS는 여러 유형의 검색 쿼리, 즉 시각적 쿼리를 선택할 수 있습니다. 이것은 검색 쿼리를 입력하기 위해 다른 유형의 창을 사용하여 수행되지만 실제로 위에 나열된 것 이외의 기술을 사용할 수 있는 창은 없습니다.

검색 결과는 관련성에 따라 정렬된 문서 목록으로 표시되어 매우 유익합니다. 아래는 선택한 문서의 미리보기입니다. Copernic Desktop Search와 달리 여기에서 미리 보기는 일반 텍스트 형식으로만 사용할 수 있으며 Word, Html 또는 PDF와 같은 기본 형식으로 문서를 표시하는 것은 불가능하지만 원칙적으로 이것이 너무 중요하지는 않습니다. 이 프로그램을 사용하면 찾은 문서를 특정 기준에 따라 그룹으로 나눌 수 있습니다(기본적으로 관련성 기준으로 나뉩니다). 개별 폴더를 선택하여 이미 찾은 문서를 볼 수도 있습니다(이는 결과가 매우 많은 문서를 생성할 때 유용합니다).

회사 네트워크에서 프로그램을 사용하는 것도 네트워크 검색을 구성할 수 있는 좋은 기회를 제공하기 때문에 상당히 정당합니다. 검색 시스템은 공용 네트워크 리소스의 인덱싱된 데이터를 포함하는 공용 색인 생성을 기반으로 합니다.

사실 ISYS의 프로그램은 적어도 익숙해지면 주의를 기울일 가치가 있습니다. 이 프로그램은 다음과 같은 성숙한 프로젝트입니다. 엄청난 양기능(항상 모든 사람에게 해당되는 것은 아니지만 물론 필요하지만 여전히 필요함). 프로그램이 검색 쿼리를 처리하는 측면에서 일부 개선될 가능성은 알려져 있지 않지만 이 순간거의 보편적으로 사용하는 것이 좋습니다. 그리고 여전히 가정용 시스템에는 너무 무겁다는 점을 감안할 때 주요 설치 장소는 회사 네트워크입니다.

공식 사이트:
배포 크기: 40 MbSearchInform

사진을 클릭하면 확대됩니다

SearchInform 인터페이스에 대한 설명으로 바로 시작하는 것은 가치가 없을 것입니다. 먼저 설치 프로세스 또는 세부 사항 중 하나를 설명해야 합니다. 인터넷 연결 없이는 프로그램을 설치할 수 없습니다. 사실 첫 번째 실행 전에 프로그램은 사용자 등록(무료)이 필요하고 입력된 모든 데이터를 서버로 보냅니다. 분명히 개발자는 불법 복제와의 싸움에서 그러한 조치를 취해야했지만 설치 용이성에 긍정적 인 영향을 미치지 않았습니다.

프로그램 인터페이스는 일반적으로 허용되는 모든 규칙을 준수하여 만들어지지만 언뜻 보기에는 다소 번거롭습니다. 프로그램을 처음 사용하면 너무 복잡하고 원하는 옵션이 어떤 메뉴나 탭에 있는지 기억하기 어려울 때도 있지만 더 오래 사용하면 인터페이스가 더 이상 그렇게 끔찍하게 복잡해 보이지 않습니다. 가장 중요한 것은 먼저 도움말을 읽는 것입니다.

인터페이스를 조금 다루면 인덱스 생성을 시작할 수 있습니다. 프로세스 자체는 매우 간단하며 인덱싱 속도는 육안으로도 검토에서 다른 모든 검색 엔진보다 훨씬 빠릅니다. 명확한 테스트 수치는 SearchInform이 인덱싱 속도 측면에서 dtSearch 및 iSYS보다 두 배 빠르다는 것을 보여줍니다! 프로그램은 제공된 데이터를 20GB의 기록 시간(3시간 17분)으로 인덱싱했습니다. 그리고 생성된 인덱스의 크기는 가장 작은 4.4GB로 Google 데스크톱 검색보다 100MB 작습니다.

이 프로그램은 일반 파일 및 폴더 외에도 이메일 인덱싱, 데이터베이스 연결 및 인덱싱(!) 및 기타 외부 소스(DMS, CRM)를 지원하며, 인덱싱할 때 즉시 형태소 검색을 위한 사전을 지정할 수 있으며 모든 속성은 인덱싱된 파일이어야 합니다. 색인을 만든 후 문서에 대한 첫 번째 테스트 검색을 수행하려고 할 때 "검색에는 두 가지 유형이 있지만 어떤 것이 필요합니까?"라는 혼란에 빠질 수 있습니다. 앞에서 언급했듯이 가장 중요한 것은 도움말을 읽는 것입니다. 그러면 모든 것이 명확해질 것입니다. 이 프로그램은 실제로 두 가지 유형의 검색, 즉 구문 검색과 쿼리 텍스트와 내용이 유사한 문서 검색을 수행할 수 있습니다.

검색 쿼리 분석을 위한 모든 주요 기능에 대한 설명은 위에서 제공되었으므로 이제 이 프로그램에서 제공하는 검색 기능만 나열합니다. 구문 검색부터 시작하겠습니다. 물론 형태소 검색, 인용 검색, 논리 연산, 단어 구문 분석 검색(단어의 시작 부분, 끝 부분, 중간 부분 또는 완전한 일치 항목으로 검색), 혼합 인용 검색(때 쿼리의 모든 단어는 문서에 있어야 하지만 반드시 입력한 순서대로는 아니어야 함), 오류 수정 검색, 동의어 사용, "거의 인용 검색"(입력한 구문을 인용문으로 검색하지만 다른 단어가 있을 수 있음) 입력한 단어 사이의 단어) 등 나열된 옵션 중 일부에는 고유한 설정이 있습니다. 또한 중요하지 않은 단어 사전을 사용할 수 있으며 프로그램에는 이미 이러한 단어 목록이 미리 준비되어 있으며 검색을 위해 우선 순위 단어 사전을 사용할 수도 있습니다 (물론 작성해야합니다 당신 자신).

여기에서는 원칙적으로 구문 검색의 모든 주요 기능을 간략하게 살펴보았습니다.

이 프로그램의 기능, 즉 유사한 문서 검색에 대한 고려로 넘어 갑시다. 개발자는 이것이 결코 단순한 텍스트 검색이 아니라고 주장합니다. 이것은 정확히 "유사한 검색"입니다. 이것이 어디에서나 설명하는 방식이지만 좋아, 원하는 대로 부를 수 있습니다. 가장 중요한 것은. 짧은 인터넷 검색을 통해 소위 "유사 검색"이 텍스트 분석 분야의 새로운 발전임을 빠르게 알 수 있습니다. 이 시스템을 사용하면 의미론적 내용 측면에서 유사한 텍스트를 찾을 수 있습니다. 가장 기뻤던 점은 테스트 쿼리를 수행한 후 이론이 실제와 매우 일치한다는 것이 밝혀졌다는 것입니다! 이 프로그램은 실제로 내용이 유사한 문서를 검색하여 유사성 백분율로 정렬된 목록에 표시합니다.

다음으로 기업 네트워크에서 작업하기 위해 SearchInform이 제공하는 것(특히 기업 버전인 SearchInform Corporate)을 살펴보겠습니다. 응용 프로그램에는 서버 측과 사용자 측의 두 가지 유형이 있습니다. 서버 부분은 지정된 인덱스를 독립적으로 처리하며 사용자는 할당된 액세스 권한에 따라 검색에 사용할 수 있습니다. 사용자는 로그인을 사용하여 자동으로 구성할 수 있습니다. Windows 항목(속담 전문적인 언어, SearchInform은 Windows NTFS 인증을 사용하거나 수동으로(사용자를 별도로 추가해야 함). 각 사용자는 특정 인덱스에 대한 액세스를 허용하거나 거부할 수 있으며 사용자를 그룹으로 결합할 수도 있습니다. 일반적으로 SearchInform의 네트워크 설정은 유연성 측면에서 Google을 앞서고 편리성과 단순성 측면에서 Snoop Server를 앞서고 있습니다.

공식 사이트:
배포 크기: 14.7 Mb인덱싱 속도 비교

검색 시스템인덱싱 시간인덱스 크기
블러드하운드 프로 디럭스 4.538시간 46분19GB
아이시스 데스크탑 7.06시간 13분7.9GB
디티서치 7.06시간 3분8.6GB
Google 데스크톱 검색 기업8시간 17분4.5GB
코페르닉 데스크톱 검색*10시간 51분7GB
검색 정보 1.5.023시간 17분4.4GB

* 러시아어 텍스트가 포함된 대부분의 .html 및 .txt 문서는 색인이 생성되었지만 이름 외에는 찾을 수 없었습니다.

모든 프로그램은 주목할 가치가 있습니다.

검토에 제시된 각 프로그램에 대한 테스트와 신중한 검토를 바탕으로 특정 결론을 도출할 수 있습니다. 따라서 Google 데스크톱 검색 Copernic 데스크톱 검색은 가정 정보 검색 시스템으로 미숙한 사용자에게 매우 적합합니다. 그들은 간단한 요청으로 좋은 일을 하고, 사용자에게 설정을 많이 로드하지 않으며, 게다가 완전히 무료입니다. 구글의 기업 검색 엔진 시장 진출 시도는 아직 완전히 정당화되지 않았다. 본격적인 작업을 위해서는 프로그램을 추가 모듈로 매달아 놓아야 하고 설정이 쉽지 않다. 따라서 데스크톱 검색의 이름을 말하면 Google은 "데스크톱" 검색 엔진의 틈새 시장을 남겨두고 있습니다.

사실, 보다 강력한 솔루션인 dtSearch, iSYS 및 SearchInform도 최신 제품이 아니며 사용자에게 "데스크톱" 버전을 제공합니다. 그러나 Google 및 Copernic의 무료 소프트웨어와 달리 합리적인 가격입니다. 물론 성능, 속도 및 기능에 대한 비용을 지불해야 합니다. 그러나 dtSearch, iSYS 및 SearchInform의 개발자는 물론 기업 부문에 주요 초점을 맞춥니다. 네트워킹, 기능, 인덱싱 및 검색 속도 - 이것이 이 제품을 "경쟁사"와 구별하는 것입니다. 테스트 결과에 따라 즐겨 찾기가 결정되었습니다 - SearchInform. 이 프로그램은 유사한 문서를 검색하는 기능을 제공하고 인덱싱 및 검색 속도가 가장 빠르며 다양한 기능을 갖추고 있습니다.

인터넷에서 올바른 최신 정보를 찾는 것은 때때로 매우 어렵습니다. 웹에 있는 정보 쓰레기의 양은 눈덩이처럼 증가하고 있으며 때로는 전통적인 Yandex와 Google을 사용하여 실제로 필요한 데이터에 도달하는 것이 단순히 불가능합니다. 손에 들고 있는 책은 인터넷에서 정보 검색의 효율성을 몇 배나 높일 것입니다. 전문 정보 검색을 위한 기술, 검색 사이트 및 프로그램에 대해 설명합니다. 범용 검색, 수직 검색, 메타 검색 시스템, 개인 검색 엔진 구축, 시청각 콘텐츠 검색, 숨겨진 인터넷 검색과 같은 현대 인터넷 검색이 고려됩니다. 고려된 모든 시스템에 대해 가장 효율적인 사용을 위한 특성과 팁이 제공됩니다.

소개

인터넷 검색은 웹 작업의 중요한 요소입니다. 현대 인터넷의 정확한 웹 리소스 수는 누구에게도 확실히 알려져 있지 않습니다. 어쨌든, 법안은 수십억에 들어갑니다. 비즈니스 목적이든 오락 목적이든 이 특정한 순간에 필요한 정보를 사용할 수 있으려면 먼저 끊임없이 보충되는 이 자원의 바다에서 정보를 찾아야 합니다. 이것은 현대 웹의 정보가 구조화되어 있지 않아 찾는 데 문제가 있기 때문에 전혀 쉬운 일이 아닙니다. 인터넷 검색 엔진이 이 정보 공간에 대한 일종의 "창"이 된 것은 우연이 아닙니다.

인터넷 사용자 중에는 대규모 범용 검색 엔진을 사용한 적이 없는 사람들이 있을 것 같지 않습니다. Google, Yandex 및 기타 몇 가지 대형 기계라는 이름이 모든 사람의 입에 오르내리고 있습니다. 그들은 잘한다 일일 작업인터넷 검색, 그리고 종종 사용자는 대체품을 찾으려고하지 않습니다. 동시에, 우리 시대의 인터넷 검색 엔진의 수는 수천입니다. 이러한 다양한 대체 기계의 이유에는 다양한 뿌리가 있습니다. 일부 프로젝트는 국가 인터넷 자원과의 세심한 작업을 통해 세계 시장의 리더와 직접 경쟁하려고합니다. 다른 사람들은 기존 검색 엔진에서 찾을 수 없는 쿼리 기능을 제공합니다. 상당수의 대체 기계가 특정 주제 영역 또는 특정 유형의 콘텐츠 검색을 전문으로 하여 이러한 문제를 해결하는 데 있어 인상적인 결과를 얻습니다. 사용자 자신의 인터넷 검색 도구 무기고에 이러한 검색 엔진을 포함하면 품질이 크게 향상될 수 있습니다. 그러나 여기에는 한 가지 뉘앙스가 있습니다. 이러한 기계에 대해 알고 해당 기능을 사용할 수 있어야 합니다.

이 책의 독자는 이미 범용 검색 엔진을 사용하여 검색하는 기술에 매우 익숙하다고 가정합니다. 너무 좋아서 그들은 사용과 관련된 한계를 느꼈습니다. 아마도 그러한 사람들은 이미 특정 추가 도구를 찾고 적용하려고 시도했을 것입니다. 인쇄된 단어는 인터넷 검색의 주제를 우회하지 않습니다. 두 기사가 주기적으로 나타나고 책이 나옵니다. 그러나 그들이 가지고있는 영웅은 원칙적으로 동일합니다 - 여러 주요 범용 검색 엔진. 우리 책은 최신 검색 솔루션의 전체 범위를 다루려고 한다는 점에서 다릅니다. 여기에서 가장 일반적인 검색 작업을 해결하는 데 중점을 둔 최고의 최신 서비스 사용에 대한 설명과 권장 사항을 찾을 수 있습니다. 이 책은 인터넷에서 많은 작업을 하고 웹을 사용하여 비즈니스, 공부, 취미 등 필요한 정보를 찾는 사람들을 위한 것입니다.

인터넷 검색이 성공하려면 두 가지 조건이 충족되어야 합니다. 쿼리는 잘 공식화되어야 하고 적절한 위치에서 질문해야 합니다. 즉, 사용자는 한편으로는 자신의 검색 관심 분야를 검색 쿼리의 언어로 번역할 수 있어야 하고 다른 한편으로는 검색 엔진, 사용 가능한 검색 도구, 장점 및 각각의 특정 경우에 가장 적절한 검색 도구를 선택할 수 있는 단점이 있습니다.

현재 인터넷 검색에 대한 모든 요구 사항을 충족하는 단일 리소스는 없습니다. 따라서 검색에 대한 진지한 접근 방식을 사용하면 필연적으로 가장 적절한 경우에 각각 다른 도구를 사용해야 합니다.

1장

범용 인터넷 검색 엔진

범용 인터넷 검색 엔진은 가장 잘 알려진 인터넷 검색 수단입니다. 이러한 검색 엔진은 다양한 리소스에 대한 최대 범위를 제공합니다. 가장 크고 가장 인기 있는 검색 엔진을 포함하는 보편적인 유형입니다. 이들은 많은 사용자가 종종 알지 못하는 많은 기능과 도구를 포함하는 정말 강력한 솔루션입니다. 범용 검색의 특징과 기능을 이해하면 강점과 약한 측면그러한 시스템과 의식적으로 가장 효과적인 검색 도구를 선택합니다.

범용 검색 엔진 시장은 상당히 큽니다. 이 장에서는 러시아어로 된 쿼리와 함께 적절하게 작동할 수 있는 가장 강력한 시스템만 고려할 것입니다. 이 장은 러시아 검색의 선두 주자인 Google.ru 및 Yandex 시스템에 대한 이야기로 시작됩니다. 이러한 검색 엔진 각각에 대한 책과 많은 기사가 작성되었습니다. 우리는 최종 사용자에게 중요한 주요 특성에 초점을 맞추고 그들의 강점을 식별하려고 노력할 것입니다.

그들은 Microsoft Corporation에서 개발 한 새로운 검색 엔진과 함께합니다. Bing 시스템은 지금까지 눈에 띄게 주목을받지 못했고 유용하고 상당히 강력한 검색 엔진 Exalead는 다음과 같습니다. 좋은 지원유럽 ​​인터넷 리소스에서 검색하십시오. 이 시스템- 우리 사용자의 검색 무기고에서 여전히 드문 손님이므로 다른 사람보다 더 자세히 고려됩니다.

이 장에서 검토할 때 구글 시스템및 Yandex의 경우 웹 검색 기능에만 초점을 맞추고 이러한 프로젝트의 전문 데이터베이스에서의 검색은 이미지 및 비디오 검색에 대한 다음 장에서 설명합니다. 다른 범용 검색 엔진의 경우 멀티미디어 검색에 대한 정보를 알게 되면 즉시 제공됩니다.

이 장의 4명의 영웅 중 3명은 외국 출신이기 때문에 우리는 러시아 버전의 가능성만 분석하고 있음을 즉시 확인합니다. 사실 외국 시스템의 일부 기능, 특히 실험적인 기능은 일반적으로 영어 버전의 서비스 원본에서만 사용할 수 있습니다.

Google

Google 검색 엔진은 현대 인터넷 검색의 세계 선두주자로 인정받고 있습니다. 1998년 설립 Google오늘날까지 인터넷 검색 및 웹 서비스 분야의 선도적인 트렌드세터 중 하나입니다.

Google 개발자는 검색 엔진의 알고리즘 개선에 대한 관심 증가와 현장에서의 합리적인 보수로 항상 구별되었습니다. 사용자 인터페이스. Google에서 쿼리를 컴파일하는 가능성은 고전이라고 할 수 있으며 검색 결과를 표시하는 방법도 일종의 표준이되었습니다. 최근에 구글 개발자이 영역에서 큰 변화를 일으켰습니다. 가장 큰 검색 엔진은 젊은 경쟁자의 배경에 비해 너무 구식으로 보이기 시작했습니다.

Google은 광범위한 정보 소스를 제공하는 세계에서 가장 큰 색인 기반 중 하나를 보유하고 있습니다. Google 색인 정보는 여러 수직 기반으로 요약됩니다. 가장 유명한 웹 데이터베이스 외에도 RSS 피드, 뉴스 데이터베이스 및 온라인 일기를 인덱싱하는 블로그 데이터베이스의 관련 정보 및 메시지 소스와 함께 작동하는 여러 멀티미디어 데이터베이스(사진, 비디오)가 있습니다. 또한 Google은 광범위한 추가 리소스를 제공하며 그 중 지도 서비스, 사이트 디렉토리, 질문 및 답변 서비스에 주목할 가치가 있습니다. 이러한 리소스는 검색 도구로도 생각할 수 있습니다.

웹 데이터베이스에서 Google은 쿼리 컴파일을 위한 단순 및 고급 검색 모드를 제공합니다. 단순 검색 모드에서는 추가 도구 중 가상 키보드. 고급 검색은 더 많은 옵션을 제공합니다. 고급 검색 양식은 거의 모든 Google 검색 제품에서 사용할 수 있으므로 더 자세히 설명하겠습니다(그림 1.1).

얀덱스

1997년에 일반 대중에게 공식 발표된 Yandex 검색 엔진은 성공적으로 개발되었으며 10년 후 처음으로 세계에서 가장 큰 10대 검색 엔진 중 하나가 되었습니다. 인터넷의 러시아 부문에서 그는 경쟁이 치열 함에도 불구하고 포기하지 않을 선도적 인 위치를 차지했습니다. Yandex의 존재 초기부터 고유한 기능은 검색 결과의 관련성을 결정하기 위한 고유한 알고리즘, 쿼리 텍스트 작업을 위한 유연한 도구 및 처리할 때 러시아어 형태의 특성을 고려한 것입니다.

Yandex는 자체 인덱스 데이터베이스에 의존합니다. 웹 문서 검색 외에도 시스템은 전문 리소스와 추가 서비스를 다양하게 제공합니다. Yandex는 현재 이미지, 비디오, 뉴스, 블로그 및 사전과 함께 작동합니다. 강력한 검색 기능은 자체 지도 제작 서비스와 제품 검색 시스템에도 포함되어 있습니다. 또한 Yandex는 자체 웹 사이트 카탈로그를 유지 관리합니다. 강점 Yandex는 사용자에게 특히 중요한 개발된 지역 검색 프로그램입니다. Yandex는 타사 개발자에게 데이터베이스에 대한 액세스를 제공합니다. 결과적으로 많은 러시아 대체 인터넷 검색 프로젝트에서 Yandex 리소스를 어떤 식으로든 사용합니다. 일반적인 검색 시스템 외에도 ya.ru에서 사용할 수 있는 Yandex의 단축 버전도 제공됩니다. 이 버전의 인터페이스는 쿼리 입력 필드와 검색 시작 버튼으로만 구성되어 있습니다.

웹 문서 검색은 단순 검색 모드와 고급 검색 모드를 모두 제공합니다. 단순 검색은 자연어 쿼리를 자동으로 구문 분석하는 기능, 비교적 긴 쿼리의 확실한 처리 및 자동 쿼리 완성 시스템으로 보완되는 필터를 제공하지 않습니다. 최대 쿼리 길이는 40단어입니다.

쿼리 작성을 위한 고급 검색 양식은 하나의 필드만 제공합니다. 쿼리 단어를 연결하는 논리 연산자는 수동으로 입력하는 것이 좋습니다. Yandex에는 상당히 상세한 쿼리 언어가 있습니다. 나머지 고급 검색 양식 도구는 다양한 필터(1.4)입니다.

Microsoft의 인터넷 검색 기록은 호출하기가 쉽지 않습니다. 대중에게 지속적으로 제공되는 서비스는 반복적으로 알고리즘, 사용된 데이터베이스 및 이름을 변경했습니다. 2000년대 초반까지 검색 엔진은 자체 데이터베이스가 없었고 AltaVista, Inktomi 및 Looksmart의 외부 색인으로 작업했습니다. 원래 이름인 MSN Search는 2006년까지 사용되었으며 몇 년 동안 검색 엔진의 이름을 변경하는 것이 Microsoft의 전통이 되었습니다.

자체 인덱스 검색으로의 최종 전환과 함께 MSN Search는 먼저 Windows LiveLive Search로 이름이 변경되었습니다. 마침내 2009년 초여름에 라이브 검색이 새로운 Bing 검색 프로젝트로 대체되었습니다.

"빙은 인터넷에서 정보를 보는 다른 방식을 제공하고 사용자가 중요한 결정을 내리는 데 도움이 될 것입니다." 빙 출시에 대한 Microsoft의 보도 자료는 이러한 성명으로 시작되었습니다. 개발자의 열망은 이해할 수있었습니다. 모든 노력에도 불구하고 서구의 Microsoft 검색 엔진은 Google 및 Yahoo!와 같은 리더보다 인기가 지속적으로 열등했습니다. 이전 Microsoft 검색 프로젝트의 러시아어 버전에 대해 이야기하면 찾은 링크의 수와 품질면에서 대규모 러시아어 검색 엔진보다 훨씬 열등했습니다. 경쟁자를 따라잡기 위해 Bing 개발자는 검색 품질 개선과 신기술 도입에 의존했으며, 이들 중 다수는 이를 만든 회사와 함께 인수했습니다.

다음 사항에 유의해야 합니다. 러시아어 버전 Bing은 대부분의 다른 현지화된 버전과 마찬가지로 상점 검색과 같은 추가 기능이 부족합니다. 그들은 실제로 북쪽에서만 일하기 때문입니다. 미국, 그것에 대해 자세히 이야기하는 것은 의미가 없습니다.

엑살리드

인터넷 검색 분야를 포함하여 유럽의 특징 중 하나는 많은 수의 국가 언어입니다. 유럽의 선두 주자라고 주장하는 검색 엔진은 인터넷의 국가 부문을 잘 색인화하고 가장 큰 언어와 덜 일반적인 언어 모두를 포함하여 수많은 유럽 언어로 된 쿼리를 고품질로 처리할 의무가 있습니다. 이 분야에서 유럽의 발전이 심각하게 받아들여질 수 있습니다. 경쟁 우위강력한 해외 경쟁자들에 비해 Exalead 시스템은 현재 이러한 유럽 검색 엔진의 역할을 진지하게 주장하고 있습니다. 이 프로젝트는 유럽 연합이 자금을 지원하는 Quaere 연구 프로그램의 일부로 개발되었습니다.

Exalead에는 자체 인덱스 데이터베이스가 있습니다. 시스템의 주요 검색 자원은 웹 문서, 이미지, 비디오 및 뉴스의 데이터베이스입니다. 시작 페이지 Exalead는 기회를 제공합니다 개인화. 이 페이지에서 즐겨찾는 사이트에 대한 링크를 배치할 수 있습니다. 이 링크는 그래픽 썸네일-스크린샷으로 표시됩니다. 사실, 이를 위해서는 무료로 계정을 등록해야 하며 브라우저가 Exaled 쿠키를 저장할 수 있도록 허용해야 합니다.

Exalead Web Search는 단순 및 고급 검색 모드를 제공합니다. Bing에서와 같은 고급 검색 양식은 문제 페이지에서 직접 열립니다. Exalead는 일련의 추가 필드가 있는 친숙한 양식일 뿐만 아니라 쿼리를 구체화하는 마법사 역할을 하는 복잡한 드롭다운 메뉴를 제공합니다(그림 1). 1.7). 마법사 메뉴에서 하나 이상의 항목을 선택하면 쿼리 문자열에 새 요소가 추가되고 필요한 경우 연산자와 특수 문자가 추가됩니다.

소개

현재 인터넷은 수십억 개의 서로 다른 사이트와 다양한 종류의 정보가 포함된 개별 파일을 호스팅하는 수억 대의 서버를 통합합니다. 그것은 정보의 거대한 저장소입니다. 인터넷에서 정보를 검색하는 방법에는 여러 가지가 있습니다.

알려진 주소로 검색합니다.필요한 주소는 디렉토리에서 가져옵니다. 주소만 알면 입력 주소 표시 줄브라우저.

예 1. www.gov.ru - 러시아 국가 당국의 서버.

사용자에 의한 주소 구성.인터넷 주소 생성 시스템을 알면 웹 사이트를 검색할 때 주소를 구성할 수 있습니다.

키워드(회사명, 기업명, 단체명 또는 영문 단순 명사)에 주제별 또는 지리적 영역을 추가해야 하며 직관력이 연결되어야 합니다.

예 2 상업용 웹 페이지 주소:

www.samsung.com 삼성),

www.mtv.com (MTV 음악 뉴스).

예 3. 교육 기관 주소:

www.ntu.edu(미국 국립 대학교).

검색 엔진인터넷

인터넷에서 정보를 검색하기 위해 특수 정보 검색 시스템이 개발되었습니다. 검색 엔진은 일반 주소를 가지며 검색 구성을 위한 특수 도구(검색 문자열, 주제 카탈로그, 링크)가 포함된 웹 페이지로 표시됩니다. 검색 엔진을 호출하려면 브라우저의 주소 표시줄에 해당 주소를 입력하기만 하면 됩니다.

통계 서비스 LiveInternet.ru에 따르면 러시아의 검색 엔진 분포는 대략 다음과 같습니다.

2) 구글 - 35.0%

3) Mail.ru 검색 - 8.3%

4) 램블러 - 0.9%

정보 검색 시스템은 정보를 구성하는 방법에 따라 분류(루브리케이터)와 사전의 두 가지 유형으로 나뉩니다.

루브리케이터(분류기)- 정보의 계층적(나무와 같은) 조직을 사용하는 검색 엔진. 정보를 검색할 때 사용자는 주제별 제목을 살펴보고 점차적으로 검색 필드를 좁힙니다(예: 단어의 의미를 찾아야 하는 경우 먼저 분류기에서 사전을 찾은 다음 올바른 단어를 찾아야 합니다. 그 안에).



사전 검색 엔진강력한 자동 소프트웨어 및 하드웨어 시스템입니다. 그들의 도움으로 인터넷의 정보가 표시됩니다(스캔). 이 정보 또는 그 정보의 위치에 대한 데이터는 특별 참고 도서 색인에 입력됩니다. 요청에 대한 응답으로 쿼리 문자열에 따라 검색이 수행됩니다. 그 결과, 사용자는 스캐닝 당시 검색된 단어 또는 단어 그룹이 발견된 주소(URL)를 제공받습니다. 제안된 링크 중 하나를 선택하면 찾은 문서로 이동할 수 있습니다. 대부분의 최신 검색 엔진은 혼합되어 있습니다.

가장 유명하고 인기 있는 검색 엔진:

검색을 전문으로 하는 시스템이 있습니다. 정보 자원다양한 방향으로.

https://my.mail.ru

https://ru-ru.facebook.com

https://twitter.com

https://www.tumblr.com

https://www.instagram.com 등

주제 검색 엔진:

소프트웨어 검색:

카탈로그(주석이 있는 주제별 링크 모음):

http://www.atrus.ru

쿼리 실행 규칙

각 검색 엔진의 도움말 섹션에서 검색 방법, 쿼리 문자열 구성 방법에 대한 정보를 얻을 수 있습니다. 다음은 일반적인 "평균" 쿼리 언어에 대한 정보입니다.

간단한 요청

검색 주제를 정의하는 한 단어를 입력하십시오. 예를 들어 Rambler.ru 검색 엔진에서는 자동화를 입력하는 것으로 충분합니다.

요청에 지정된 단어가 포함된 문서를 찾았습니다. 모든 형태의 러시아어 단어가 인식되며 일반적으로 문자의 경우는 무시됩니다.

쿼리에 "*" 또는 "?" 문자를 사용할 수 있습니다. 징후 "?" 키워드에서 한 문자가 대체되고 그 자리에서 모든 문자가 대체될 수 있으며 문자 "*"는 일련의 문자입니다.

예를 들어 automaton* 쿼리는 automatic, automatic 등의 단어가 포함된 문서를 찾습니다.

복잡한 요청

결합해야 하는 경우가 많다. 키워드더 구체적인 정보를 위해. 이 경우 추가 연결어, 기능, 연산자, 기호, 대괄호로 구분된 연산자의 조합이 사용됩니다.

예를 들어, music &(beatles beatles) 쿼리는 사용자가 music 및 beatles 또는 music 및 beatles라는 단어가 포함된 문서를 찾고 있음을 의미합니다.

검색 서버 및 디렉토리 목록

주소 설명
www.excite.com 노드 리뷰 및 가이드가 있는 검색 엔진
www.alta-vista.com 검색 서버, 고급 검색 기능 사용 가능
www.hotbot.com 검색 서버
www.ifoseek.com 검색 서버(사용하기 쉬운)
www.ipl.org 월드빌리지 사업의 일환으로 운영되는 공공도서관 인터넷공공도서관
www.wisewire.com WiseWire - 인공 지능을 사용한 검색 구성
www.webcrawler.com WebCrawler - 사용하기 쉬운 검색 서버
www.yahoo.com AltaVista 서버에서 전체 텍스트 검색에 액세스하기 위한 웹 카탈로그 및 인터페이스
www.aport.ru Aport - 러시아어 검색 서버
www.yandex.ru Yandex - 러시아어 검색 서버
www.rambler.ru Rambler - 러시아어 검색 서버
인터넷 도움말 리소스
www.yellow.com 인터넷 옐로우 페이지
몽크.newmail.ru 다양한 프로필의 검색 엔진
www.top200.ru 상위 200개 웹사이트
www.allru.net
www.ru 러시아 인터넷 리소스 카탈로그
www.allru.net/z09.htm 교육 자료
www.students.ru 러시아 학생 서버
www.cdo.ru/index_new.asp 원격 학습 센터
www.open.ac.uk 오픈 유니버시티 영국
www.ntu.edu 미국 국립 대학교
www.translate.ru 전자 텍스트 번역기
www.pomorsu.ru/guide.library.html 넷 라이브러리에 대한 링크 목록
www.library.ru 과학 전자 도서관
www.citforum.ru 전자도서관
www.infamed.com/psy 심리 테스트
www.pokoleniye.ru 인터넷교육연맹 홈페이지
www.metod.narod.ru 교육 자료
www.spb.osi.ru/ic/distant 인터넷에서 원격 학습
www.examen.ru 시험 및 시험
www.kbsu.ru/~책/ 컴퓨터 과학 교과서
메가.km.ru 백과사전 및 사전

인터넷에서 전문적인 정보 검색

정보 검색은 가장 일반적이면서 동시에 가장 도전적인 작업모든 사용자가 웹에서 처리해야 합니다. 그러나 네트워크 커뮤니티의 일반 구성원의 경우 효과적인 정보 검색 방법에 대한 지식이 바람직하지만 의무적인 품질과는 거리가 멀다면 정보 전문가에게는 인터넷 리소스를 빠르게 탐색하고 필요한 소스를 찾는 능력 중 하나입니다. 기본 자격 기술.

인터넷에서 정보검색이 어려운 이유는 크게 두 가지 요인에 의해 결정된다. 첫째, 웹에 있는 소스의 수는 매우 많습니다. 2001년 말에 가장 대략적인 추정치에 따르면 전 세계 서버에 있는 대략적인 75억 개의 문서가 있습니다. 둘째, 웹에 있는 정보의 양은 방대할 뿐만 아니라 매우 역동적입니다. 이 섹션의 첫 번째 줄을 읽는 30분 동안 가상 세계에 약 100개의 새롭거나 변경된 문서가 나타났고 수십 개의 문서가 새 주소로 이동했으며 단위는 영원히 존재하지 않게 되었습니다. 우리의 행성이 결코 "잠자기"하지 않는 것처럼 인터넷은 결코 "잠자기"하지 않습니다. 이에 따라 인간 비즈니스 활동의 물결은 시간대의 변화에 ​​따라 지속적으로 굴러갑니다.

라이브러리에 있는 안정적이고 통제된 문서 모음과 달리 웹에서 우리는 거대하고 끊임없이 변화하는 정보 배열을 다루고 있으며 데이터 검색은 매우 복잡한 프로세스입니다. 상황은 종종 건초 더미에서 바늘을 찾는 잘 알려진 작업을 연상시키며 때로는 찾기가 어렵다는 이유로 큰 가치가 있는 정보가 요구되지 않는 경우가 있습니다.

대부분의 글로벌 사용자는 컴퓨터 네트워크. 아마추어와 전문가 모두 종종 동일한 도구를 사용합니다. 그러나 검색 결과와 검색에 소요된 시간은 크게 다릅니다.

이 섹션의 목적은 정보 검색 도구와 방법에 대해 자세히 알아보고 모든 형식의 텍스트에서 비디오 및 애니메이션에 이르기까지 모든 유형의 데이터를 웹에서 전문적으로 검색할 수 있는 지속 가능한 기술을 개발하는 것입니다.