Поисковые машины состоят из пяти отдельных программных компонент:
- spider (паук): браузероподобная программа, которая скачивает веб-страницы.
- crawler : «путешествующий» паук, который автоматически идет по
всем ссылкам, найденным на странице.
- indexer (индексатор): «слепая» программа, которая анализирует
веб-страницы, скаченные пауками.
- the database (база данных): хранилище скаченных и обработанных страниц.
- search engine results engine (система выдачи результатов): извлекает
результаты поиска из базы данных.
Spider:
Паук — это программа, которая скачивает веб-страницы. Он работает точно
как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу.
Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы
можете наблюдать, когда просматриваете некоторую страницу и когда выбираете
«просмотр HTML-кода» в своем браузере.
Crawler:
Как и паук скачивает страницы, он может «раздеть» страницу и найти
все ссылки. Его задача — определять, куда дальше должен идти паук,
основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer:
Индексатор разбирает страницу на различные ее части и анализирует их.
Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных
элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются
и анализируются.
Database:
База данных — это хранилище всех данных, которые поисковая система
скачивает и анализирует. Часто требует огромных ресурсов.
Search Engine Results Engine:
Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.
Именно система выдачи результатов решает, какие страницы
удовлетворяют запросу пользователя. Когда пользователь вводит ключевое слово и
делает поиск, поисковая система отбирает результаты на основании постоянно
меняющихся критериев. Алгоритмом называется метод, по которому она принимает
решение.
Профессиональные оптимизаторы (SEO) иногда употребляют термин
«algos» — это и есть то, о чем мы говорим.
Не смотря на то, что поисковые системы сильно изменились, большинство до сих
пор отбирают результаты поиска на основании примерно следующих критериев:
- Title (заголовок): Присутствует ли ключевое слово в заголовке?
- Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или
в адресе страницы?
- Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD:
если место на странице, где ключевое слово использовано в жирных, курсивных или
Hx (H1, H2,:) текстовых заголовках?
- Density (плотность): Как часто ключевое слово употреблено на странице?
Количество ключевых слов относительно текста страницы называется плотностью
ключевого слова.
- MetaInformation (мета данные): Хотя многие отрицают, некоторые поисковые
системы до сих пор читают мета ключевые слова (meta keywords) и мета описания
(meta description).
- Outbound Links (ссылки наружу): На кого есть ссылки на странице и
встречается ли ключевое слово в тесте ссылки?
- Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный
сайт? Каков текст ссылки? Это называется "внестраничный" критерий, потому что
автор страницы не всегда может им управлять.
- Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта
содержит ссылки эта страница?
Как видите, поисковой машине необходимо делать множество уточняющих запросов,
используя скаченную страницу целиком.
Это сокращенное описание функционирования поисковой машины.
Brett_Tabke. How Search Engines Work (http://www.webmasterworld.com)
Перевод: dimok (http://dimok.ru)
Для откликов и предложений обращаться сюда