Алгоритм поиска и поисковые роботы |
Алгоритм поиска можно рассмотреть как большую формулу. Поисковая система при помощи этого алгоритма, грубо говоря «забирает» проблему, а на выходе возвращает её «решение» после анализа всех возможных решений по данному запросу. Алгоритм поисковой системы использует как ключевые слова, так и исходные данные и предоставляет наиболее релевантные поисковые результаты в выдаче. Ключевые слова определяются поисковыми роботами, которые анализируют содержание страницы и содержание ключевых слов сайта на основе математической формулы. Процесс индексирования заключается в нахождении и последующей переработке страниц сайта с последующим её хранением. Индекс поисковой системы, например Яндекса, основывается на инвертированных файлах т.е текст документа хранится в виде списка встречающихся в нем слов с указанием позиции на каждое слово. Как правило, адрес позиции каждого слова является весьма относительным. Каждая поисковая система имеет в своем арсенале две основные части – HTTP робота, который собирает доступную информацию на сайте и модуля обработки запроса пользователя. Роботы поисковых систем перерабатывают собранные сведения и их классифицируют, разделяя на несколько групп, а уже потом модуль обработки запроса на основании данных собранных роботами перебирает сайты, при этом учитывается возраст сайта, его URL, язык сайта, объем страниц, объем искомых ключевых слов на нем и на самих страницах сайта, влияет даже размер шрифта, которым написаны ключевые слова и ещё множество факторов. После того как страницы соответствующие поисковому запросу найдены, поисковая система должна определить, по каким же принципам необходимо будет вывести информацию, чтобы вначале списка находились страницы самые полезные для посетителя. Для этого и существуют очень сложные алгоритмы, которые учитывают сотни факторов, на основании которых выводится наиболее релевантный запрос. Каждый робот подчиняется файлу robots.txt который явным образом указывает, какие документы запрещены к индексации, чтобы избежать дубликатов в базе поисковой системы, но в том случае если на эти страницы есть входящие ссылки, доступ на них все же будет открыт для робота ПС однако они не будут занесены в индекс. Ограничители поисковых роботов. Поисковые системы используют принцип гиперсылочной структуры Интернета, для поиска новых страниц и обновления уже существующих. Когда робот в очередной раз просматривает сайт в поисках обновлений, он замечает на нём все ссылки, некоторые из них ему уже знакомы(т.е. адреса этих сайтов уже есть в его базе данных), а некоторые он видит впервые. Во втором случае робот либо немедленно переходит по новой ссылке, либо заносит её себе в «задания» и вернётся к ней через некоторое время. Очень часто встречаются сайты, структура которых может быть построена так, что содержание страниц полностью или частично будет недоступно поисковым роботам. Примеры таких структур: 2. Страницы, у которых более 100 исходящих ссылок на другие ресурсы. 3. Страницы находящиеся дальше трех переходов с главной страницы сайта. 4. Страницы доступные через динамический javascript меню. 5. Страницы использующие фреймы. 6. Страницы которые используют редирект и авторизацию. 7. Страницы доступные только после подписки через форму. Основное достоинство автоматического поиска с помощью поисковых систем состоит в том, что он обеспечивает просмотр большого количества информации находящейся в Интернете в единицу времени. Однако сложность точного описания запроса, адекватно отражающего информацию на ваш поисковый запрос, а также еще большая сложность задачи автоматического определения степени соответствия вашему запросу просматриваемых страниц, приводит к тому, что количество страниц, отобранных с первого раза, как правило, или очень мало, или чрезмерно велико. В целом поиск с использованием поисковых систем представляет собой итерационный (многоходовой) процесс, в результате которого постепенно уточняется и дополняется форма запроса. |