Статистика
 

Сегодня в Интернете доминируют поисковые машины, работа которых основана на принципах индексирования. Формирование индекса (указателя ссылок по ключевым словам) состоит из трех этапов:

o Сбор адресов веб-страниц.

Для этого в поисковом кластере есть каталог ресурсов, в который информация добавляется вручную (с html-формы веб-страницы).

o Выкачивание веб-страниц.

Чтобы вытащить ключевые слова (индекс) с веб-страниц сайта, необходимо получить находящийся на них текст.

o Индексирование веб-страниц.

Поисковая машина выбирает из считанных текстов все ключевые слова и располагает их в алфавитном порядке вместе с номерами страниц, помещая их в «индекс». Производятся синтаксический и лингвистический разбор слов. Слова не заносятся в индекс в том виде, в котором они приведены в тексте, а заносятся вместе со своими координатами слов на странице, что обеспечивает релевантность многословных поисковых запросов.

Поисковый индекс представляет собой вывернутую «наизнанку» копию страниц Интернета. Т.е. если в обычном тексте при просмотре пользователь идет от страницы к словам, то в индексе поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным (обращенным или перевернутым). В то же время копия хранимой веб-страницы называется прямым индексом. Именно из нее берутся цитаты при выдаче ссылок, и есть возможность показать страницу, которая уже удалена с сайта и является недоступной.

Процесс индексации (переиндексации) в mnoGoSearch выполняет процесс indexer. Вызванный без всяких параметров командной строки (по умолчанию), он переиндексирует только устаревшие документы. В настройках поисковой машины indexer.conf задается так называемый «период старения» при помощи команды Period. Устаревшими считаются документы, проиндексированные ранее указанного срока «старения».

Запрашивая документы, не относящиеся к «устаревшим», indexer сравнивает считанные http-заголовки с теми, которые записаны и хранятся в базе данных в результате предыдущих индексаций. Когда indexer получает очередной документ, он вычисляет контрольную сумму документа и сравнивает ее со старой контрольной суммой, записанной в базе данных. Если контрольные суммы совпадают, документ заново не разбирается (считается неизменённым). Есть вариант работы индексера (с ключем «-m»), когда разбирается заново каждый документ, независимо от того, изменён он или нет.

В процессе индексации на каждый документ mnoGoSearch получает HTTP-статусы и прописывает их в БД. Значения кода статуса:

0 - новый (еще ни разу не индексированный) документ

Если статус не 0, он равен коду HTTP ответа, некоторые коды ответов HTTP:

200 - "OK" (url успешно проиндексирован)

301 - "Moved Permanently" (переадресован на другой URL)

302 - "Moved Temporarily" (переадресован на другой URL)

303 - "See Other" (переадресован на другой URL)

304 - "Not modified" (url не модифицирован со времени предыдущего индексирования)

401 - "Authorization required" (нужен login/password для этого документа)

403 - "Forbidden" (нет доступа к этому документу)

404 - "Not found" (указанный документ не существует)

500 - "Internal Server Error" (ошибка в cgi, и т.д.)

503 - "Service Unavailable" (Хост недоступен, таймайт соединения)

504 - "Gateway Timeout" (таймаут при получении документа)

Код ответа HTTP 401 обозначает, что документ защищён паролем. В этом случае, если известен логин и пароль для доступа к документу, можно в indexer.conf указать login:password для URL (использовать команду AuthBasic). Код ответа HTTP 404 означает, что на одной из страниц есть ссылка на несуществующий документ, или есть ошибка в указании URL. Если на запрос документа mnoGoSearch получает HTTP-статусы переадресации 301,302,303, он попытается проиндексировать URL, указанный в заголовке Location ответа сервера.

Cервер дистанционного образования ТГТУ Тамбовский поисковый сервер
Copyright © 2005-2013, Управление информатизации ТГТУ, ТамбовЦНИТ, отдел ЦТО