ТГТУ
Институт дистанционного образования ТГТУ
 
 
 
 
 
 
 
 

Сегодня, 19 Сентября 2017
Пн
Вт
Ср
Чт
Пт
Сб
Вс
    
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
 
Как работают поисковые машины?
Поисковые машины состоят из пяти отдельных программных компонент:
  1. spider (паук): браузероподобная программа, которая скачивает веб-страницы.
  2. crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.
  3. indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
  4. the database (база данных): хранилище скаченных и обработанных страниц.
  5. search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Spider:
Паук — это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler:
Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Его задача — определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer:
Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
Database:
База данных — это хранилище всех данных, которые поисковая система скачивает и анализирует. Часто требует огромных ресурсов.
Search Engine Results Engine:
Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск. Именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. Алгоритмом называется метод, по которому она принимает решение. Профессиональные оптимизаторы (SEO) иногда употребляют термин «algos» — это и есть то, о чем мы говорим.

Не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:

  • Title (заголовок): Присутствует ли ключевое слово в заголовке?
  • Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?
  • Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,:) текстовых заголовках?
  • Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
  • MetaInformation (мета данные): Хотя многие отрицают, некоторые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).
  • Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
  • Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется "внестраничный" критерий, потому что автор страницы не всегда может им управлять.
  • Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница?
Как видите, поисковой машине необходимо делать множество уточняющих запросов, используя скаченную страницу целиком.

Это сокращенное описание функционирования поисковой машины.

Brett_Tabke. How Search Engines Work (http://www.webmasterworld.com)
Перевод: dimok (http://dimok.ru)

Для откликов и предложений обращаться сюда mailto..

Я вполне сознаю, что могу увлечься ложным, обманчивым, пойти по пути, который заведет меня в дебри; но я не могу не идти по нему, мне ненавистны всякие оковы моей мысли, я не могу и не хочу заставить ее идти по дорожке, практически важной, но такой, которая не позволит мне хоть несколько более понять те вопросы, которые мучают меня... И это искание, это стремление — есть основа всякой научной деятельности.
Владимир Иванович Вернадский
 
Cервер дистанционного образования ТГТУ Тамбовский поисковый сервер
Copyright © 2005-2013, Управление информатизации ТГТУ, ТамбовЦНИТ, отдел ЦТО