Ne v kontakte Asocial programmer's blog

Robomap Project: подводим итоги.

Пожалуй, пришло время подвести результаты проекта RoboMap. За прошедшие три недели была собрана довольно занимательная статистика о поведении различных поисковиков и теперь я попробую ее проанализировать.

Бесспорным лидером оказался Google. С самого начала расковыряв большую часть видов ссылок, он удержал лидерство до конца. Так же интересно заметить, что он подгрузил CSS, использованные на странице. Напрашивается вывод, что это ему необходимо для проверки на скрытые блоки текста и прочие приемы черной оптимизации, основанные на CSS.

Как ни странно, второе место занял MSN/Live от великой корпорации Майкрософт. Он сумел опознать php-редирект и js-ссылку при помощи window.open(). Тем не менее, налицо неспешность и полное отсутствие любопытства к обновлению контента. В частности, сборщик статистики не зафиксировал его обращения к главной странице, а так же проверок на обновления.

Yandex, Rambler и Yahoo поделили третье место: прошли только по редиректу и на том успокоились. В то же время, все они повели себя по-разному. Вкратце обрисую ситуацию по каждому из них.

Yandex выделился своим собственным вариантом интерпретации robots.txt. Страницы со статистикой были намеренно запрещены для индексации, но директивы Disallow шли после “Allow: /”. Ну и согласно мнению Яши, решение о возможности индексации страницы надо принимать по первому правилу, совпадающему с адресом. В итоге статистика попала в индекс. CSS он вроде как не грузил.

Rambler вообще ничего интересного о себе не рассказал. Впрочем в связи с покупкой Рамблера Гуглем, это уже не слишком актуально.

Yahoo загрузил только одну CSS из двух. С какой целью он это сделал, не совсем понятно, но есть подозрение, что он догружает их каким-то особым ботом, который сборщиком статистики не определился.

Вот такие вот результаты… Если у кого-то появится желание провести подобное исследование, я могу опубликовать исходный код проекта.