Ne v kontakte Asocial programmer's blog

Скрипты: Google Cache Dumper & Bing Cache Dumper

Пострадавшим от 3fn.ru посвящается.

UPD (22.01.2013): Две новости:

  1. оба скрипта более не продаются;
  2. теперь они распространяются бесплатно через GitHub ;-)

Google Cache Dumper v 3.0

Google Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша Google по заданному домену.

Возможности:

  • Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
  • Задание интервала между запросами (в секундах)
  • Адресация запросов разным датацентрам
  • Поддержка работы через прокси и чередование запросов между произвольным количеством прокси.

Требования:

  • Веб-сервер
  • PHP5 с поддержкой curl и allow_url_fopen=On

Установка и настройка:

  1. Распакуйте архив в папку веб-сервера (не обязательно в корень).

  2. В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).

  3. Файлы index.php, dc.txt, proxy.txt должны быть доступны веб-серверу на чтение.

  4. В файл proxy.txt поместите список прокси, которые будете использовать при парсинге, по одному прокси на строку, формат ip_адрес:порт.

    ВНИМАНИЕ! Если оставить файл пустым, то проски использоваться не будет, но возрастет риск бана запросов со стороны Google.

  5. Настройка завершена! Откройте скрипт через браузер и приступайте!

Лицензия: WTFPL.

GitHub (скачать последнюю версию).

Bing Cache Dumper v 1.0

Bing Cache Dumper - это инструмент, позволяющий максимально просто вытащить все содержимое кеша поисковика Bing по заданному домену.

Возможности:

  • Ограничение количества обрабатываемых страниц выдачи, либо обработка всех, сколько есть.
  • Задание интервала между запросами (в секундах)

Требования:

  • Веб-сервер
  • PHP5 с allow_url_fopen=On

Установка и настройка:

  1. Распакуйте архив в папку веб-сервера (не обязательно в корень).

  2. В той же папке должна быть подпапка out, доступная веб-серверу на чтение и запись (обычно подходят права доступа 0777).

  3. Настройка завершена! Откройте скрипт через браузер и приступайте!

Лицензия: WTFPL.

GitHub (скачать последнюю версию).

PS. Ну и небольшой подарок тем, кто сам умеет кодить и не хочет платить. Я уже публиковал первую версию Google Cache Dumper. В том виде, в каком она там есть она довольно легко попадает в бан, но доработать ее совсем несложно ;)

UPD. Актуальный список датацентров для Google Cache Dumper: dc.txt