Комментарии - Добрый дорвейщик - Профиль вебмастера - Форум об интернет-маркетинге

15 марта 2008, 08:13

response:
я не верю в приемлимые результаты от универсального парсера.

... может планка приемлимости слишком высока ? 🙄

response:

проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо.

Ну то, что проще делать парсер не универсальный, а специализированный, это понятно... А вот:

response:

Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).

Я же написал... Не маловато, а совсем мало :(. Мне нужны промышленные объемы текстов, ну такая схема работы у меня 🙄.

response:

а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.

Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).

Оцените пожалуйста парсер страницы.

14 марта 2008, 17:16

ciber:
Если не ошибаюсь кодак. 30 листочкоф в минуту.

Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))

Оцените пожалуйста парсер страницы.

14 марта 2008, 09:45

ЧерныйKот:
Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.

Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)

Оцените пожалуйста парсер страницы.

14 марта 2008, 06:33

ЧерныйKот:
Скрипт распознает статью на странице. Урл - ссылка на страницу со статьей:
Ссылка: http://seshop.ru/parser/
Может быть у кого есть мысли как это можно получше заюзать?

Потестил несколько минут... Косяков не заметил. Есть исключения... но это мелочи (пример, mail.ru , собака как-то пролазит через ваши регулярки).

Хорошенько бы оттестировали и все ок, почти готовый продукт :).

А насчет применения и так понятно :). Умный, быстрый парсер никогда не был лишним ☝. Мой нынешний (писался лезвием на заказ) меня, например, не устраивает (часто пропускает теги... часто траблы с кодировкой).

captcha.yandex.net

13 марта 2008, 10:44

Елистратов:
Походу ТС не в курсе, что сейчас выскакивает у яндекса капча при большем количестве запросов.

Да в курсе он... Тут в другом дело ;)

Ru домены под дорвеи.

12 марта 2008, 02:59

Скидки еще больше, выполнение заказов еще оперативнее. Остаюсь работаь с вами:2cents:.

Из результатов поиска исключены слишком похожие страницы.

15 февраля 2008, 12:05

savo:
алгоритм "офигенный" :) Кол-во ~ 20 метров. Тематика - эро рассказы.

Кол-во исходного по идее должно соотносится с количеством сгенеренного :)

Из результатов поиска исключены слишком похожие страницы.

15 февраля 2008, 11:31

savo:
заранее благодарен за советы :)

В рб два алгоритма генерации, да и качество исходного текста играет не последнюю роль... как впрочем и его количество ;)

Общие признаки распознавания дорвеев поисковыми системами

14 февраля 2008, 03:54

Многие из высказывающихся считают, что редирект палится яндексом по факту, через тулбар (я до недавнего времени тоже был в их числе). В рамблере же нет тулбара, а разница жизни дора с редиректом и без тоже наблюдается ;).

Вообще... сдался вам этот редирет? И с безредиректными проблем хватает 😂.

уставновить счетчик li на simple tds

8 февраля 2008, 16:13

Лёлик:
Да сутру tds купи и не мучайся 😆

Сам юзаю сутру, но статистики по поисковым системам как в ливере не встречал 🙄

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Добрый дорвейщик