Ne v kontakte Asocial programmer's blog

RoboMap: привет из прошлого.

Feature image

Чуть больше двух лет назад я запустил один небольшой эксперимент с кодовым названием RoboMap.txt. Суть его заключалась в том, чтобы на практике выяснить какие ссылки способны опознать поисковики. Спустя три недели после начала эксперимента я подвел итоги и забыл о нем. До сегодняшнего дня.

В прошлое воскресенье мне пришло уведомление от хостера о том, что я выбрал 80% квоты трафика. Я слегка удивился, поскольку все мои сайты, размещенные на этом аккаунте (включая этот блог =) особой популярностью не пользуются, глянув на календарь, решил не дергаться, ведь месяц подходил к концу и квота скоро должна была возобновиться. Я оказался почти прав, квота таки кончилась, но в самый последний день месяца. Именно поэтому вчера весь день мой блог был недоступен. Поскольку целый день я бегал вдали от компа, обнаружил я проблему только к вечеру и решил не дергаться и просто подождать конца суток.

Сегодня утром я первым делом убедился, что сайт снова онлайн, и стал разбираться, в чем причина. Каково же было мое удивление, когда я увидел, что 70% квоты трафика пришлось на robomap.nevkontakte.org.ru - тот самый проект двухлетней давности! Я тут же полез смотреть его собственную статистику и увидел, что лог посещений поисковиками за два года раздулся до полутора сотен тысяч записей, при чем последние записи датировались сегодняшним днем!

Вот тут-то на мнея и снизошло озарение. Изначально я запретил поисковикам индексировать лог посещений, но в результате небольшой ошибки в robots.txt Яндекс таки проиндексировал эти страницы. Мне стало интересно, будут ли остальные поисковики их индексировать, и я убрал запрет вообще.

Оказалось, что будут и еще как. Google и Rambler принялись с таким энтузиазмом жрать страницы, что в июле выкачали с сайта 16 Гб абсолютно неинтересного, генерированного контента. Почему? Хотел бы я знать, но в индексе Google в данный момент сидит 5 тысяч страниц, а у Рамблера - 14. Яндекс оставил только заглавную и еще парочку, а на остальных я не смотрел.

Есть ли от этого практическая польза? Думаю, нет. Об этом говорит статистика Liveinternet. С другой стороны я даже не пытался оптимизировать все это под какие-то запросы, так что может профи бы и сумел извлечь из этого хороший результат.

Тем не менее, сейчас я возвращаю запрет на индексацию лога, чтобы не грузить бесполезным трафиком сервер. Эксперимент удался и закрыт.

PS. Все чаще встречаю на блогах вместо стандартных комментариев комментарии от сервиса Disqus. Лично у меня они вызывают противоречивые чувства, но если кому интересно, то вот: установка плагина Disqus на Wordpress.