Ne v kontakte Antisocial programmer's blog

RoboMap: привет из прошлого.

RoboMap: привет из прошлого.

    projects     robomap     notes

Чуть больше двух лет назад я запустил один небольшой эксперимент с кодовым названием RoboMap.txt. Суть его заключалась в том, чтобы на практике выяснить какие ссылки способны опознать поисковики. Спустя три недели после начала эксперимента я подвел итоги и забыл о нем. До сегодняшнего дня.

В прошлое воскресенье мне пришло уведомление от хостера о том, что я выбрал 80% квоты трафика. Я слегка удивился, поскольку все мои сайты, размещенные на этом аккаунте (включая этот блог =) особой популярностью не пользуются, глянув на календарь, решил не дергаться, ведь месяц подходил к концу и квота скоро должна была возобновиться. Я оказался почти прав, квота таки кончилась, но в самый последний день месяца. Именно поэтому вчера весь день мой блог был недоступен. Поскольку целый день я бегал вдали от компа, обнаружил я проблему только к вечеру и решил не дергаться и просто подождать конца суток.

Сегодня утром я первым делом убедился, что сайт снова онлайн, и стал разбираться, в чем причина. Каково же было мое удивление, когда я увидел, что 70% квоты трафика пришлось на robomap.nevkontakte.org.ru - тот самый проект двухлетней давности! Я тут же полез смотреть его собственную статистику и увидел, что лог посещений поисковиками за два года раздулся до полутора сотен тысяч записей, при чем последние записи датировались сегодняшним днем!

Вот тут-то на мнея и снизошло озарение. Изначально я запретил поисковикам индексировать лог посещений, но в результате небольшой ошибки в robots.txt Яндекс таки проиндексировал эти страницы. Мне стало интересно, будут ли остальные поисковики их индексировать, и я убрал запрет вообще.

Read more →

Robomap Project: подводим итоги.

    projects     robomap

Пожалуй, пришло время подвести результаты проекта RoboMap. За прошедшие три недели была собрана довольно занимательная статистика о поведении различных поисковиков и теперь я попробую ее проанализировать.

Бесспорным лидером оказался Google. С самого начала расковыряв большую часть видов ссылок, он удержал лидерство до конца. Так же интересно заметить, что он подгрузил CSS, использованные на странице. Напрашивается вывод, что это ему необходимо для проверки на скрытые блоки текста и прочие приемы черной оптимизации, основанные на CSS.

Как ни странно, второе место занял MSN/Live от великой корпорации Майкрософт. Он сумел опознать php-редирект и js-ссылку при помощи window.open(). Тем не менее, налицо неспешность и полное отсутствие любопытства к обновлению контента. В частности, сборщик статистики не зафиксировал его обращения к главной странице, а так же проверок на обновления.

Yandex, Rambler и Yahoo поделили третье место: прошли только по редиректу и на том успокоились. В то же время, все они повели себя по-разному. Вкратце обрисую ситуацию по каждому из них.

Read more →

RoboMap Project: статистика за 3 дня.

    projects     robomap

С момента предыдущего отчета картина изменилась не слишком радикально.

Гугль ничем новым не порадовал, успокоившись на достигнутом еще в первые сутки так ни разу и не зашел с тех пор. Yahoo! несколько раз проверял уже проиндексированные страницы, но ничего нового не нашел. Все прочие поисковики оказались слегка подинамичнее. Рамблер таки добрался до редиректовой странички, но JS ссылки ему оказались не по зубам. Яндекс со свойственной ему неспешностью проиндексировал только главную, чем и ограничился, а творение Microsoft вообще отличилось - скачало только robots.txt и ушло.

RoboMap Project: первые результаты.

    projects     robomap

Не прошло и суток, а первые результаты уже появились.

Наибольшую активность проявил Google, который нашел почти все страницы из тех, что были созданы. В частности, он продемонстрировал отличную способность отыскивать ссылки в JavaScript и следовать редиректам. Не опознал он текстовую ссылку, переход JavaScript, приделанный к тегу , обычные JS переходы с помощью window.open() и document.location.href и ссылку в robots.txt.

Вторым с изрядным опозданием идет Rambler. Он проиндексировал главную страницу и и сделал вялую попытку пройти по редиректу, но до цели так и не дошел.

Yahoo ограничился просмотром главной страницы и дальше не пошел.

Read more →

RoboMap Project: детальное исследование индексации поисковиками.

    projects     robomap

На разных SEO форумах неоднократно возникали обсуждения, касающиеся того, какие ссылки поисковики индексируют, а какие - нет. Тем не менее, однозначных выводов нигде так и не было сделано. Чтобы в деталях разобраться, какие поисковики и как индексируют ссылки я запустил небольшой проект под названием RoboMap. Ниже цитирую описание с его главной страницы:

Основная цель проекта RoboMap - это исследовать тонкости индексирования сайта поисковиками и влияние файла robots.txt на этот процесс.

В частности, будет выяснено, как поисковики обрабатывают инструкции Allow в robots.txt и разные типы ссылок. Для этого был создан набор страниц, на каждую из которых ссылается только один тип ссылок. Вот список разновидностей ссылок, которые будут исследоваться:

  • Текстовая ссылка
  • Простая JavaScript ссылка через window.open()
  • Простая JavaScript ссылка через document.location.href
  • JavaScript ссылка с url в контексте вызова: my_open_function('http://mysite.ru/page.html')
  • JavaScript ссылка с url вне контекста вызова: open_my_site()
  • JavaScript редирект, не ассоциированный с тегом <a>
  • HTTP Redirect.
  • Директива Allow в файле robots.txt

Read more →