Мысли по поводу уникального контента. Практическая реализация.
Некоторое время назад я изложил идею о том, как можно получать хороший, уникальный контент в больших количествах. А теперь наконец дошли руки до реализации.
Google Cache Dumper парсит выдачу гугла по запросу site:example.com и пытается выкачать из кеша гугла все найденные страницы. На вход принимаются домен, количество страниц выдачи, подлежащих парсингу и задержка между запросами. На выходе - папка со кешированными страницами.
На данный момент существует только одна проблема - через некоторое время гугль палит, что его пытаются доить, и перестает отдавать требуемые страницы. Как с этим бороться я пока не придумал.
Тем не менее, желающие могут скачать и пользоваться: gcache.php.txt
Кроме того, в комментариях к тому посту была высказана идея парсить вебархив. В принципе здесь даже проще, чем с гуглом, зато существует проблема найти сайт с достаточно большим количеством сохраненных страниц. Все проверенные мною домены содержали не более 10 страниц, что явно недостаточно. Так что если кто предложет эффективный способ - с меня реализация в виде кода :)
UDP
Появилась идея отправлять запросы разным датацентрам по очереди. Надо будет попробовать.