Добрый дорвейщик

Добрый дорвейщик
Рейтинг
83
Регистрация
11.12.2007
response:
я не верю в приемлимые результаты от универсального парсера.

... может планка приемлимости слишком высока ? 🙄

response:

проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо.

Ну то, что проще делать парсер не универсальный, а специализированный, это понятно... А вот:

response:

Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).

Я же написал... Не маловато, а совсем мало :(. Мне нужны промышленные объемы текстов, ну такая схема работы у меня 🙄.

response:

а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.

Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).

ciber:
Если не ошибаюсь кодак. 30 листочкоф в минуту.

Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))

ЧерныйKот:
Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.

Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

ЧерныйKот:
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?

Потестил несколько минут... Косяков не заметил. Есть исключения... но это мелочи (пример, mail.ru , собака как-то пролазит через ваши регулярки).

Хорошенько бы оттестировали и все ок, почти готовый продукт :).

А насчет применения и так понятно :). Умный, быстрый парсер никогда не был лишним ☝. Мой нынешний (писался лезвием на заказ) меня, например, не устраивает (часто пропускает теги... часто траблы с кодировкой).

Елистратов:
Походу ТС не в курсе, что сейчас выскакивает у яндекса капча при большем количестве запросов.

Да в курсе он... Тут в другом дело ;)

Скидки еще больше, выполнение заказов еще оперативнее. Остаюсь работаь с вами:2cents:.

savo:
алгоритм "офигенный" :) Кол-во ~ 20 метров. Тематика - эро рассказы.

Кол-во исходного по идее должно соотносится с количеством сгенеренного :)

savo:
заранее благодарен за советы :)

В рб два алгоритма генерации, да и качество исходного текста играет не последнюю роль... как впрочем и его количество ;)

Многие из высказывающихся считают, что редирект палится яндексом по факту, через тулбар (я до недавнего времени тоже был в их числе). В рамблере же нет тулбара, а разница жизни дора с редиректом и без тоже наблюдается ;).

Вообще... сдался вам этот редирет? И с безредиректными проблем хватает 😂.

Лёлик:
Да сутру tds купи и не мучайся 😆

Сам юзаю сутру, но статистики по поисковым системам как в ливере не встречал 🙄

Всего: 238