Ne v kontakte Asocial programmer's blog

Генератор текстов по Маркову

На днях решил слегка расширить сферу деятельности и поэкспериментировать с дорвеями. Естественно, встала нужда в промышленном генераторе говнотекстов. Обзор существующих инструментов привел к неудовлетворительным результатам, ибо они были либо медленные, либо феноменально неудобные.

Угадайте, что я сделал? Да, именно так. Написал свой генератор, с блекджеком и шлюхами. В результате имеем:

  • Минималистичный интерфейс.
  • Кросс-платформенность, благодаря тому, что он написан на python.
  • Поддержка словоформ (русифицированный стеммер Портера). Опционально.
  • Работает пока только с текстами в utf-8.

Тест на скорость показал следующий результат:

  • Вход: 1,8 мб, стемминг включен, процессор Core2Duo 3ГГц.
  • Выход: 150000 слов, 1,6 мб, 1 минута.

Без стемминга выходит еще быстрее, что в принципе неудивительно.

Скачать и следить за обновлениями можно на странице проекта.