ТГТУ
Тамбовский виртуальный университет
 
 
 
 
 
 
 
 

Сегодня, 25 Октября 2021
Пн
Вт
Ср
Чт
Пт
Сб
Вс
    
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Российские поисковые машины
Деление поисковых средств на каталоги и поисковые машины несколько условное, так как многие поисковые системы являются одновременно и каталогом, и поисковой машиной и развиваются в обоих направлениях (например, «Яndex», «Апорт» и др.).
Яндекс http://www.yandex.ru/
Он появился на свет в сентябре 1997 года. По своим «сыскным способностям» «Яndex» («языковой индекс») не уступает самым крутым поисковикам Запада. К тому же он специально рассчитан на русскоязычные запросы и, например, учитывает особенности нашей лексики (при вводе «бежать» находит, соответственно, «бежал», «бежит»...), к тому же поддерживает шесть кодировок.

Возможностей для интеллектуального поиска «Яndex» предлагает даже больше, чем, например, знаменитая американская «AltaVista». Он четко идентифицирует регистры написания знаков - при заданном «Госпожа» проигнорирует все склонения этого слова,написанного со строчной буквы - «госпожа». Более того, «Яndex» значительно облегчает работу использованием специальных символов.

Так, набрав в строке несколько слов, не заключив их при этом в кавычки, но разделив пробелами, мы указываем машине, что каждое из этих слов должно входить в один абзац искомого документа. Тот же самый эффект произведет употребление символа «&». Например, в результате поиска по вводным «виды журналистики» или «виды&журналистики» мы получим список документов, в которых в одних и тех же абзацах содержатся оба слова...

Итак, ряд простейших приемов ввода ключевых слов в поисковые строки значительно оптимизирует поиск. Например, если между словами поставить запятые, поисковая машина Яndex выдаст лишь те документы, которые содержат хотя бы одно из введенных слов. Тильда «~» позволяет искать документы, содержащие в абзаце первое слово, но не содержащие второго. Например, по запросу «газета ~ журнал» будут найдены все документы, содержащие слово «газета», рядом с которым в пределах абзаца нет слова «журнал». Если же требуется осуществить поиск не в первом абзаце (по его содержанию, как правило, можно судить о том, нужный ли текст вы нашли), а по всему документу, необходимо просто удвоить соответствующий знак. Одинарные знаки-операторы «&» и «~» ищут в пределах абзаца, двойные «&&» или «~~», соответственно, - во всем документе. То есть, по запросу «газета && журнал&кaquo; поисковое средство отберет все документы, содержащие оба введенных слова где бы то ни было.

В Яndex возможен уникальный в своем роде вид поиска - по заданному расстоянию. Если представить, что все слова в тексте пронумерованы, а расстояние между ними есть разница между их порядковыми номерами, то расстояние между соседними словами слева направо будет условно равно единице, справа налево - минус единице. То же самое относится и к абзацам. Если между двумя словами поставлен слэш - знак «/», за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов. Например, задав фразу «бульварная /5 газета», мы даем машине команду найти документы, в которых содержатся оба слова, но расстояние между ними должно быть не более пяти слов и они должны находиться в одном абзаце.
Вместо одного слова в запросе можно подставить целое выражение. Но для этого его надо взять в скобки. Вводим запрос «(серьезная, желтая) /+1(пресса | газеты)». В итоге мы получим список документов, которые содержат любую из следующих фраз «серьезная пресса», «желтая пресса», «серьезные газеты» и «желтые газеты».

Короче говоря, овладев нехитрыми приемами поиска, мы значительно сократим время работы в Интернете. Необходимо лишь помнить, что разные поисковые системы используют отличные друг от друга инструменты оптимизации поиска. Получить описание языка поисковых запросов или руководство по поиску в любой системе можно, как правило, выбрав гиперссылку, например «Помощь» или «Справка», с первой страницы системы.

В последнее время Яndex является лидером в Рунете по количеству обрабатываемых запросов. Благодаря серьезным нововведениям в области алгоритмов поиска и продуманной маркетинговой политике Яndex обрабатывает около половины всех поисковых запросов Рунета.

Rambler http://www.rambler.ru/
Старейшая российская поисковая машина Рамблер начала свое существование с 1996 года. На сегодняшний день она является одной из самых популярных в Рунете, уступая лишь Яндексу. По оценкам SpyLog на Рамблер приходится 20-30% от всех поисковых запросов РуНета.

Поисковая система Рамблер при поиске учитывает морфологию русского языка, что дает больше возможностей для эффективного поиска информации. Реализована также система так называемых «перевязок», которая позволяет выдавать в результатах поиска не только страницы содержащие запрос, но и слова, которые являются синонимами запроса. Еще одной функцией «перевязок», думаю более значимой, является выдача контекстной рекламы не только по конкретному запросу, но и по запросам, которые тесно связаны с исходным, это позволяет перекрыть большее количество целевой аудитории.

В 2003 году была изменена структура поисковой системы Rambler. В новой версии Rambler индексная база разбита на восемь частей. Семь из них представляют собой поисковые индексы, каждый из которых построен по седьмой части Рунета. Ежедневно обновляется одна из частей индекса Rambler. Таким образом, с момента скачивания страницы роботом до ее появления в поиске проходит от 2 до 8 дней.

Восьмая часть индекса Rambler представляет собой «быструю базу», построение которой занимает два часа. В быструю базу входят страницы, содержащие счетчик Rambler Тор100. Каждый раз, когда в рейтинге Rambler Тор100 появляется новая страница, которой еще нет в индексе, она отправляется в очередь на обработку. Перед обработкой страницы фильтруются, из них отбираются наиболее посещаемые. С июля 2003 года быстрая база обновляется 2 раза в сутки и чаще.

Поиск по всем восьми базам Rambler осуществляется параллельно, результаты поиска объединяются. За счет этого поиск в Rambler происходит в несколько раз быстрее по сравнению с поиском по монолитной индексной базе. Каждая из семи частей основной базы Rambler размещена на семи серверах. Такое распределение обеспечивает устойчивость и стабильность работы поисковой системы Rambler при повышении нагрузки или авариях. В подобных случаях из результатов поиска не пропадают соответствующие части индекса, так как поток запросов динамически перенаправляется на наименее нагруженные машины.

Апорт http://www.aport.ru/
Апорт - поисковая система по российским web-ресурсам с логически завершенной тематической структурой и развитой системой ссылок на наиболее интересные и острые материалы портала в целом.

Поиск ведется с учетом русской морфологии, а также с переводом запроса на английский язык и наоборот. Вывод результатов производится с выделением контекстов найденных слов. Для Апорта характерно уточнение поиска по разделам каталога и серверам.

Особенностью Апорта является то, разработчики системы не стремятся к максимально полной индексации всего российского Интернета. Принципиальный подход Апорта к выбору документов для индексации состоит в поиске оптимального компромисса между полнотой базы (от которой зависит полнота результатов поиска) и качеством проиндексированной информации (влияющим на точность результатов поиска).

Принципы сортировки найденных сайтов в Апорте, то есть почему одни сайты появляются на первой странице результатов поиска, а другие, также содержащие слова из запроса пользователя на первые страницы выдачи не попадают, можно посмотреть на странице http://www.aport.ru/info.php/.

На Апорте есть возможность небесплатной раскрутки своего сайта, а точнее целый ряд эффективных вариантов направленной рекламы, в полной мере использующих специфику поисковой системы http://www.aport.ru/adv, однако купить более высокое место для своего сайта в результатах поиска невозможно.

Поиск@Mail.ru http://www.mail.ru/
Новый проект Поиск@Mail.ru был запущен в июне 2003 года, в качестве поискового механизма была выбрана технология Google WebSearch. Новый поисковый сервис на портале @Mail.ru был запущен летом 2003-го года. В качестве поискового механизма была выбрана технология Google WebSearch, которая осуществляет индексацию ресурсов всего мирового интернета, а не только около 8% русскоязычных страниц. Поскольку механизм компании Google не был до конца адаптирован к особенностям грамматики русского языка, команда разработчиков компании @Mail.ru создала дополнительный программный модуль, усовершенствующий его работу. Теперь Поиск@Mail.ru умеет учитывать все возможные формы слова в одном запросе, причем эта возможность доступна только пользователям портала @Mail.ru. Пользователь может по своему желанию включать и отключать эту возможность, в зависимости от конкретной задачи. По мнению пресс-службы компании @Mail.ru, особенно помогает поиск с учетом морфологии при поиске информации, которая в Сети представлена плохо. Например, при запросе «румынские поэты биография» поисковая машина выдает 7 документов в режиме «без учета морфологии» и 126 документов «с учетом морфологии». Напротив, если результатов поиска слишком много и они не очень релевантны, морфологию можно отключить, сузив, таким образом, область поиска.


Используемая литература: Для откликов и предложений обращаться сюда mailto..
Ни один наставник не должен забывать, что его главнейшая обязанность состоит в приучении воспитанников к умственному труду и что эта обязанность более важна, нежели передача самого предмета.
Константин Дмитриевич Ушинский
 
Cервер дистанционного образования ТГТУ Тамбовский поисковый сервер
Copyright © 2005-2013, Управление информатизации ТГТУ, ТамбовЦНИТ, отдел ЦТО