Индексация сайта поисковыми системами: их повадки теория и практика
Как происходила индексация моего сайта поисковыми системами?
С момента создания моего сайта прошло определённое количество времени перед тем, как мой сайт заметили поисковые системы, начав его активно индексировать.
Сегодня мне бы хотелось вам рассказать о поведении различных поисковых систем на моём сайте. Изучать их повадки, признаюсь, довольно интересно, особенно когда много о поисковых системах читаешь.
Получается своего рода практика, которая постоянно сопоставляется теории, что позволяет делать новые интересные выводы о том, как же проходит сам процесс индексирования и ранжирования собственных документов в разных поисковых системах.
Я думаю, логично рассказывать появление поисковых систем в хронологическом порядке.
Первым мой сайт посетил Google, проиндексировав все страницы сайта. Это меня, собственно, не очень-то и удивило, т. к. я к тому времени уже знал о быстрой индексации новых сайтов этой поисковой системой.
Помимо подачи заявки на добавление сайта в интерфейсе веб-мастеров Google, одновременно на одном из моих сайтов была поставлена прямая ссылка с главной страницы для надёжности процесса индексации. Примерно через неделю-две сайт появился в индексе этой поисковой системы.
Вот что можно сказать об особенностях индексации моего сайта этой поисковой системой:
Робот посещает мой сайт реже, чем это делают наши "отечественные" поисковые роботы. Я замечал, что Googlebot приходит ко мне не чаще, чем раз в 3 дня (на проверку файла robots.txt приходит чаще), что, собственно, и отображается в Интерфейсе веб-мастеров Google.
Причём, каждый визит робота сопровождается кэшированием информации в хронологическом порядке. Этот хронологический порядок сохраняется при апдейтах поисковой выдачи системы.
Я провёл своего рода эксперимент: через определённые промежутки времени менял заголовок Title. Удивительным мне показалось то, что Google запомнил хронологию их изменения и выдавал с каждым апдейтом порядковые title (а также содержание самой страницы), присвоенные странице в разные промежутки времени.
Также была замечена ещё одна особенность Google: один раз я забыл по какой-то причине упомянуть запрет индексации одной из директорий сайта, что привело к её индексации. Сколько бы я не менял текст в robots.txt данная директория не исчезала из результатов поиска. Единственный действенный метод удаления ненужных проиндексированных страниц находится в центре веб-мастеров Google, чем я и воспользовался.
С индексацией в поисковой системе "Яндекс" было гораздо сложнее. Форма добавления ресурса на сайте "Яндекса" была заполнена в тот же день, что и форма Google, однако сайт в индексе не появлялся (даже несмотря на наличие внешних ссылок на сайт).
Возможно, медленной индексации сайта способствовало и то, что домен находится в зоне .info. В Интернете ходят слухи, что эта зона индексируется реже поисковой системой.
Проблему решила простая и в то же время эффективная вещь: поскольку мой сайт собой представляет нечто похожее на блог, я решил добавить RSS-ленту в сервисе blogs.yandex.ru с надежой на то, что мой сайт, наконец, проиндексирует хотя бы один из роботов "Яндекса".
И это сработало: сначала ко мне пришёл робот-индексатор rss, а за ним, как по цепочке, пришёл и основной индексирующий робот Yandex/1.01.001 (compatible; Win16; I).
В следующий апдейт поисковой выдачи мой сайт уже был в индексе этой поисковой системы. Прошло примерно 3 недели с момента запуска проекта. Не знаю, сколько бы индексация длилась, если бы я им не воспользовался.
Как ведёт себя "Яндекс" на моём сайте?
Вполне неплохо, робот заходит ко мне каждый день в поисках новой информации, индексирует её, в последствии она отображается в списке проиндексированных страниц. Обновления раннее проиндексированных страниц сайта проходят реже, чем включения новых страниц на сайте. Возможно, "Яндексу" помогает информация из RSS, этот факт, конечно, я проверить не смог.
"Рамблер", третья по популярности в Рунете поисковая система, меня заметил совсем недавно. Хотя форма добавления для индексации сайта в поисковой системе была мной заполнена давно.
Мне была не понятна задержка этой поисковой системы, поэтому я решил действовать дальше, вдумчиво вчитываясь в информацию, которая была предоставлена владельцам сайтов на сайте "Рамблера".
В первую очередь, по рекомендации самих разработчиков на сайте, мой проект был добавлен в Рамблер-Top 100. А также было написано письмо в службу поддержки Рамблера о том, что мой домен .info русскоязычный.
Не знаю, что повлияло именно на индексацию сайта в этой поисковой системе: рейтинг, письмо или же внешние ссылки – в любом случае, сайт мой появился в индексе "Рамблера" после этих мер довольно быстро. Я даже не ожидал.
После включения моего сайта в индекс, робот "Рамблера" стал появляться на проекте каждый день по несколько раз. Каждое обновление страницы или добавление новой сразу же отражалось в индексе на следующий день после добавления информации на сайт (Проиндексированные страницы находились очень хорошо по тегу title).
Я конечно и раньше слышал о возросшей "реактивности" "Рамблера", но представить это себе не мог. У меня есть мысли, что поисковая система вычленяет ссылки из RSS, направляя робота на индексацию новых страниц. Как-то раз разработчики упоминали такую возможность поисковой системы. Такую скорость индексирования пока не имеет ни один поисковик на моём сайте. Сейчас же, в январе, это не происходит. Не знаю, что там происходит у "Рамблера", но его визиты я стал замечать всё реже и реже.
Теперь хочется вкратце рассказать о других поисковых системах, которые индексировали мой сайт.
Yahoo довольно быстро меня нашёл. Форму добавления ресурса на их сайте я не заполнял. Вполне возможно, что поисковая система нашла меня по ссылкам. После публикации ресурса в Интернете мой сайт был проиндексирован ею через 3 недели.
Однако индексация сайта прошла неверно: то ли мой сайт ей показался странным, то ли она перешла с какой-то ссылки. В индексе поисковой системы показывались 3 довольно странные ссылки на мой ресурс. В таком состоянии это существовало довольно долго.
Пришлось принимать меры: в файле robots.txt было прописано поле Sitemap, которое указывало на мой файл Sitemap, откуда поисковые системы могут узнать о структуре индексируемых сайтов. Как оказалось, это сработало. Все страницы были корректно проиндексированы.
Поисковая система на моём сайте появляется довольно редко. Раз в 2 недели. Новые страницы исправно добавляются в индекс, но с неё идёт пока что очень мало трафика.
MSN меня тоже нашёл сам. По внешним ссылкам. Индексирует мой сайт редко, но в отличие от Yahoo, корректно это сделал с первого раза. Трафика с него пока что не наблюдается.
С поисковыми системами WebAlta и Gogo.ru пока что туго. Их поисковые роботы пока не появились на моём сайте. Возможно, ситуацию улучшит регистрация в каталоге Open.WebAlta и Каталог.Mail.ru. Но пока что будем за ними наблюдать. На дворе январь, роботы так и не появились на моём сайте.