... может планка приемлимости слишком высока ? 🙄
Ну то, что проще делать парсер не универсальный, а специализированный, это понятно... А вот:
Я же написал... Не маловато, а совсем мало :(. Мне нужны промышленные объемы текстов, ну такая схема работы у меня 🙄.
Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).
Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)
Потестил несколько минут... Косяков не заметил. Есть исключения... но это мелочи (пример, mail.ru , собака как-то пролазит через ваши регулярки).
Хорошенько бы оттестировали и все ок, почти готовый продукт :).
А насчет применения и так понятно :). Умный, быстрый парсер никогда не был лишним ☝. Мой нынешний (писался лезвием на заказ) меня, например, не устраивает (часто пропускает теги... часто траблы с кодировкой).
Да в курсе он... Тут в другом дело ;)
Скидки еще больше, выполнение заказов еще оперативнее. Остаюсь работаь с вами:2cents:.
Кол-во исходного по идее должно соотносится с количеством сгенеренного :)
В рб два алгоритма генерации, да и качество исходного текста играет не последнюю роль... как впрочем и его количество ;)
Многие из высказывающихся считают, что редирект палится яндексом по факту, через тулбар (я до недавнего времени тоже был в их числе). В рамблере же нет тулбара, а разница жизни дора с редиректом и без тоже наблюдается ;).
Вообще... сдался вам этот редирет? И с безредиректными проблем хватает 😂.
Сам юзаю сутру, но статистики по поисковым системам как в ливере не встречал 🙄