>Вероятность распознания 95-99%.
Сорри конечно но 95% для яндекса мне кажется многовато. Демку что ли показали бы. Методы - нейронные сети ? Сколько времени будет одна каптча распознаваться ?
Как например открыть 10 страницу в новостной ленте ? Решения конечно есть... но разве не лучше использовать базу данных ? Это будет объективно быстрее и удобнее.
>у меня 17000 страниц более 4000 уников в сутки
>все работает нормально
>А на что вы там хотите смотреть?
Статика ?
Посмотрю я как будет работать сайт на текстовых файлах с несколькими тысячами страниц :) Реализовать нормальные индексы в текстовых файлах очень сложно.
А кстати. Почему на логотипе одна буква строчная другая прописная ? Почему название компании начинается с маленькой буквы ? :)
Кто вас научил одну букву вырисовывать разными цветами ? Логотип не читается совершенно. Если убрать круг и сделать "P" черной может что и получится.
>От того, что Вы несколько слов замените, он уникальным не станет.
Если хотя бы одно слово в предложении заменить - будет уникальный. У меня такая штука есть только все равно даже с учетом не плохой базы качество оставляет желать лучшего.
alex_s, Дробышев, написал в личку прошу извинить если отправил два сообщения - не разобрался до конца. В плане настройки - это достаточно сложно так как все настраивается напрямую в текстовых файлах (мудулях). Но для создания простого модуля потребуется не более 10 минут.
Самое большое отличие моего скрипта от аналогов - отсутствие привязки к какой либо системе. Далее в newsgrabber`е нет возможности обхода нескольких страниц, нет возможности сложной обработки текста (ну например в тексте иногда встречается рекламный блок с динамическими ссылками), куксы наверное тоже подставить не может ? Шаблона вывода тоже нет (ну к примеру на сайте доноре картинка выводится справа при этом заключена в абстрактный блок, а вам что бы не нарушать дизайн надо вывести скажем по центру в полной новости под текстом). Примеров можно привести массу. На некоторых сайтах (правда уже не вспомню на каких) была интересная защита - динамическая верстка то есть при каждом заходе на сайт применялись разные классы, id или просто разные кавычки в тегах мой скрипт это обрабатывал. Вот примерно такая разница.
>В свободном распространении есть несколько подобных модулей. ИМХО 150 дороговато
Это не модуль. А отдельно стоящий скрипт. Насколько я знаю в свободном доступе есть RSS граберы ну в лучшем случае очень примитивные HTML. Возможно и дороговато но я не хочу глобального распространения скрипта. Кстати если есть примеры с радостью посмотрел на аналоги. Я видел newsgrabber, content master (вроде так), кучу парсеров RSS в той или иной форме. Действительного универсального решения не встречал.