Ne v kontakte Asocial programmer's blog

Robomap Project: подводим итоги.

Пожалуй, пришло время подвести результаты проекта RoboMap. За прошедшие три недели была собрана довольно занимательная статистика о поведении различных поисковиков и теперь я попробую ее проанализировать.

Бесспорным лидером оказался Google. С самого начала расковыряв большую часть видов ссылок, он удержал лидерство до конца. Так же интересно заметить, что он подгрузил CSS, использованные на странице. Напрашивается вывод, что это ему необходимо для проверки на скрытые блоки текста и прочие приемы черной оптимизации, основанные на CSS.

Как ни странно, второе место занял MSN/Live от великой корпорации Майкрософт. Он сумел опознать php-редирект и js-ссылку при помощи window.open(). Тем не менее, налицо неспешность и полное отсутствие любопытства к обновлению контента. В частности, сборщик статистики не зафиксировал его обращения к главной странице, а так же проверок на обновления.

Yandex, Rambler и Yahoo поделили третье место: прошли только по редиректу и на том успокоились. В то же время, все они повели себя по-разному. Вкратце обрисую ситуацию по каждому из них.

Yandex выделился своим собственным вариантом интерпретации robots.txt. Страницы со статистикой были намеренно запрещены для индексации, но директивы Disallow шли после “Allow: /”. Ну и согласно мнению Яши, решение о возможности индексации страницы надо принимать по первому правилу, совпадающему с адресом. В итоге статистика попала в индекс. CSS он вроде как не грузил.

Rambler вообще ничего интересного о себе не рассказал. Впрочем в связи с покупкой Рамблера Гуглем, это уже не слишком актуально.

Yahoo загрузил только одну CSS из двух. С какой целью он это сделал, не совсем понятно, но есть подозрение, что он догружает их каким-то особым ботом, который сборщиком статистики не определился.

Вот такие вот результаты… Если у кого-то появится желание провести подобное исследование, я могу опубликовать исходный код проекта.

RoboMap Project: статистика за 3 дня.

С момента предыдущего отчета картина изменилась не слишком радикально.

Google ничем новым не порадовал, успокоившись на достигнутом еще в первые сутки так ни разу и не зашел с тех пор.

Yahoo! несколько раз проверял уже проиндексированные страницы, но ничего нового не нашел. Все прочие поисковики оказались слегка подинамичнее.

Рамблер таки добрался до редиректовой странички, но JS ссылки ему оказались не по зубам.

Яндекс со свойственной ему неспешностью проиндексировал только главную, чем и ограничился, а творение Microsoft вообще отличилось - скачало только robots.txt и ушло.

Покажи свою берлогу!

Дмитрий Ветров проводит акцию “Покажи свою берлогу

После некоторых колебаний, я решил присоединиться. Тем более, что у меня в фотоархиве завалялась чудесная фотка на эту тему:

Берлога

Конечно, обычно все не так запущено, но бардака всегда хватает :)

RoboMap Project: первые результаты.

Не прошло и суток, а первые результаты уже появились.

Наибольшую активность проявил Google, который нашел почти все страницы из тех, что были созданы. В частности, он продемонстрировал отличную способность отыскивать ссылки в JavaScript и следовать редиректам. Не опознал он текстовую ссылку, переход JavaScript, приделанный к тегу , обычные JS переходы с помощью window.open() и document.location.href и ссылку в robots.txt.

Вторым с изрядным опозданием идет Rambler. Он проиндексировал главную страницу и и сделал вялую попытку пройти по редиректу, но до цели так и не дошел.

Yahoo ограничился просмотром главной страницы и дальше не пошел.

Самым ленивым оказался Яндекс. Он посмотрел лишь содержимое robots.txt в момент отправки формы добавления и на этом успокоился.

Для большей наглядности я создал два скрипта, отображающих текущую статистику по поисковикам: http://robomap.nevkontakte.org.ru/stat.php - список посещенных поисковиками страниц. http://robomap.nevkontakte.org.ru/pages.php - подробный журнал посещений поисковиками.

RoboMap Project: детальное исследование индексации поисковиками.

На разных SEO форумах неоднократно возникали обсуждения, касающиеся того, какие ссылки поисковики индексируют, а какие - нет. Тем не менее, однозначных выводов нигде так и не было сделано. Чтобы в деталях разобраться, какие поисковики и как индексируют ссылки я запустил небольшой проект под названием RoboMap. Ниже цитирую описание с его главной страницы:

Основная цель проекта RoboMap - это исследовать тонкости индексирования сайта поисковиками и влияние файла robots.txt на этот процесс.

В частности, будет выяснено, как поисковики обрабатывают инструкции Allow в robots.txt и разные типы ссылок. Для этого был создан набор страниц, на каждую из которых ссылается только один тип ссылок. Вот список разновидностей ссылок, которые будут исследоваться:

  • Текстовая ссылка
  • Простая JavaScript ссылка через window.open()
  • Простая JavaScript ссылка через document.location.href
  • JavaScript ссылка с url в контексте вызова: my_open_function('http://mysite.ru/page.html')
  • JavaScript ссылка с url вне контекста вызова: open_my_site()
  • JavaScript редирект, не ассоциированный с тегом <a>
  • HTTP Redirect.
  • Директива Allow в файле robots.txt

Анализироваться будут наиболее популярные в рунете поисковики:

  • Яндекс
  • Google
  • Рамблер
  • MSN/Live
  • Yahoo
  • Webalta

Как зарегать красивый домен *.co.cc

Сегодня вообще довольно остро стоит “проблема” с бесплатными доменами - после введения RIPN’ом капчи при регистрации доменов *.net.ru, *.org.ru и *.pp.ru вкупе с лимитом 4 домена в час простые смертные практически лишились возможности получить домен в этих зонах. Поэтому где-то вскоре после этого памятного события в моду стали входить домены на кокосовых островах - *.co.cc. Сами поселиться там не можем, так хоть доменов нарегаем.

Фишка этой зоны в том, что стоимость домена определяется в зависимости от “красивости” домена. Поэтому домен www.google.co.cc там стоит 2,464 бакса, а www.sdgfsghfs.co.cc отдают на халяву. Некоторые даже заявляли, что зарегать что-нибудь толковое там нельзя в принципе и вообще все грустно… Все это действительно печально, но хотелось бы получить какой-нибудь домен и при том бесплатно. К счастью, при достаточной изобретательности это вполне реально, благо, любую автоматику легко обмануть.

Первый из них: если к какому-нибудь красивому слову добавить приставку “pro-” или “my-”, то он почти наверняка будет бесплатным. Из свободных на данный момент - www.pro-film.co.cc, а пару дней назад я успешно зарегал www.pro-blog.co.cc.

Второй: Если между логическими частями интересующего нас домена добавить дефис, то он наверняка окажется бесплатным, или, в худшем случае, бдет стоить пару баксов, что, по сути, не деньги. В качестве примера - www.mp-3.co.cc.

Третий: Суффикс “2u” (расшифровывается как “to you” (англ. “тебе”)). Это вообще довольно странно при том, что они учли суффикс “4u” (“для тебя”). Но тем не менее домен www.php2u.co.cc беслатен, хотя за www.php4u.co.cc просят $12. Четвертый: Слова, написанные транслитом. Взять, например www.spamim.co.cc. Шикарный домен, не правда ли? ;-)

Ну и в качестве бонуса приведу небольшой список доменов, которые мне самому регить было лень, но показались интересными:

  • www.my-homepage.co.cc - для какого-нибудь мелкого хостинга - самое то. Или для домашней странички.
  • www.my-sin.co.cc - “Мой грех”. Просто находка для какого-нибудь гота. или, извиняюсь, онлайн проституток
  • www.my-ad.co.cc - баннерная сеть, партнерки и прочая реклама…
  • www.pro-spam.co.cc - без комментариев.
  • www.pro-spamim.co.cc - вообще находка и “профессионально спамим” и “проспамим” в одном флаконе.
  • www.splin-it.co.cc - для поклонников Сплинов :)
  • www.live-free.co.cc - живите свободно, господа!
  • www.metallica-fan.co.cc - металлисты, не зевайте!
  • www.write-story.co.cc - сайт клуба писателей. Или продажа контента для сайтов, как выйдет.
  • www.build-world.co.cc - а этот домен неплохо пошел бы для какой-нибудь онлайновки.
  • www.uvizhu.co.cc - увижу своими глазами - самое то для журналистов.
  • www.solntze.co.cc - астрономы следят за солнцем :S
  • www.sledim.co.cc - сайт Большого Брата. Который следит.
  • www.stsuko.co.cc - сцуко, домен :D

PS. Все упомянутые выше домены были свободными и бесплантыми на момент написания поста. И не моя вина, если кто-то зарегал их до вас ;) PPS. А еще у них есть неплохая фишечка, предлагающая похожие домены. Там тоже можно нарыть кое-чего полезного.

Кросспостинг

Почитав разные блоги других авторов, в частности, Ctrl+C, проникся мыслью о пользе кросспостинга и решил настроить его и для своего блога. По ходу дела вылезла проблема - мало какие сервисы умели импортировать записи из RSS, хотя и дружили с ЖЖ. Казалось бы - в чем проблема: настроить ЖЖ как надо и все дела. Но Drupal не умеет корсспостить в ЖЖ (для вордпресса есть такой плагин, а для Друпала нету :( ), а ЖЖ не умеет самостоятельно импортировать что бы то ни было откуда бы то ни было. Положение спас multiply.com, который умел и RSS импортировать и экспортировать в ЖЖ. К сожалению, в ЖЖ почему-то записи добавились в обратном порядке и во все сервисы, синхронизирующиеся с ЖЖ тоже. Надеюсь, хоть последующие посты нормально добавятся.

И так, вот список “зеркал” моего блога:

http://nevkontakte.multiply.com/journal http://ne-v-kontakte.livejournal.com/ http://live.cnews.ru/ne_v_kontakte/ http://nevkontakte.blog.ru/ http://nevkontakte.moskva.com/ http://livehh.ru/za2

Еще вроде как настроил импорт на ливинтернет, но старые записи он не скушал… Посмотрим, добавит ли новые. http://www.liveinternet.ru/community/2684512/

Палю тему: Google Cache Browser

Речь пойдет о проекте Google Cache Browser Судя по всему, этот проект появился в сети совсем недавно, так как в поисковиках мне его обнаружить не удалось. Я сам узнал о нем совершенно случайно - друг за бутылочкой пива рассказал, что читал анонс этого сервиса на форуме какого-то хостинга, где девелопер обещал, что сайт вот-вот появится. Но это все лирика.

Что же на самом деле представляет собою этот сервис? Вот что говорится на странице описания проекта:

Google Cache Browser - это инструмент, позволяющий легко и быстро просматривать страницы из кеша Google. Принцип действия от части похож на веб-прокси (анонимайзер): Google Cache Browser (далее GCB) загружает страницу из кеша Google и заменяет ссылки в документе так, чтобы они приводили к загрузке новых страниц из кеша снова через GCB.

Иными словами, мы можем просматривать кеш гугля в режиме обычного серфинга. Удобно :)

Надо отметить, что сервис доступен на двух языках - русском и английском. Надо полагать, что у владельца есть далеко идущие планы на развитие сайта и бесплатный домен - это только первая ступенька лестницы. Еще одно наблюдение, за верность которого я поручиться не могу, но подозреваю, что не слишком далек от истины: В копирайте значится “Spider Cache Browser” и домен SCB.net.ru наводят на мысль, что автор собирается реализовать аналогичный сервис и для других поисковых систем.

Еще хочется отметить, что там очень грамотно, на мой взгляд, реализована система сообщения об ошибках - на каждой странице в правом верхнем углу есть ссылка на форму баг-репорта, в которой автоматом прописывается адрес проблемной страницы и надо только написать описание ошибки.

Избранное с блогов вебмастеров рунета в одном месте!

Дмитрий Рогов в своем блоге запустил один интересный проект. Идея проста до гениальности - собрать в одном месте ссылки на наиболее полезные статьи в блогах вебмастеров рунета.

Вот несколько ссылок, которые мне показались наиболее интересными с программистской точки зрения: Морфологический анализатор для PHP-скриптовКак избавиться от наказания за дублированный контентПроверка ТиЦ на PHP - ещё быстрее. и Определяем Google PR и Яндекс ТиЦ в PHP

FF3: Марш!

Наконец у меня дошли руки поставить себе третий FireFox. Из новшеств наиболее заметно то, что при вводе в адресную строку поиск подходящих сайтов ведется еще и о заголовкам страниц и порою это пригождается. По скорости он, на мой взгляд, теперь не слишком уступает даже Опере, которая долгое время лидировала в этом направлении.

Порадовало то, что большинство необходимых расширений уже доступны для новой версии и прекрасно с нею работают. В общем, разработчикам троекратное ура и поздравления с очередным хорошим релизом!