- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
я не верю в приемлимые результаты от универсального парсера.
... может планка приемлимости слишком высока ? 🙄
проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо.
Ну то, что проще делать парсер не универсальный, а специализированный, это понятно... А вот:
Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).
Я же написал... Не маловато, а совсем мало :(. Мне нужны промышленные объемы текстов, ну такая схема работы у меня 🙄.
а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.
Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).
Оно работает недостаточно качественно, это да. Чтобы текст был "безмусорным" для меня, достаточно, чтобы он состоял из предложений не длиннее Х символов, начинался с большой буквы и заканчивался ...|.|!|?|!?. Вот такие скромные запросы :).
у меня примерно такие же. я тут давно выкладывал нечто подобное.. там прога по ключевику лезла в серп яши, брала оттуда урлы топа, и выдирала с морд этого топа все "хорошие" предложения (вот примерно такие же, как ты описал).
В принципе у меня есть несколько гигов насканенных рунетовских текстов (просто бот ходил по сайтам и сохранял html морд). Можно оттуда попробовать выдрать весь текст.
Сам бот еще есть, его можно запустить. просто раньше у него ограничения были в виде того, что не парсить жжшки, еще что-то там, ну в общем через какое-то количество сайтов (а скачивались и парсились только морды, соот. и линки на новые сайты искались только с морд), он типа как обошел все, весь набор взаимоперелинкованных сайтов, в который входил первоначальный (стартовый) набор урлов.
response добавил 15.03.2008 в 19:26
посмотрел, там в общем три гига всего. не знаю, сколько оттуда выйдет хороших предложений.
посмотрел, там в общем три гига всего. не знаю, сколько оттуда выйдет хороших предложений.
Три гига немного, но уже что-то. А варианты продажи бота не расматриваешь?
Три гига немного, но уже что-то. А варианты продажи бота не расматриваешь?
слушай, он не очень готов для паблика чисто с точки зрению юзабилити - там все настройки в коде, обязательна mysql через dsn (с файлами не работает) и пр. И самое главное - он кравлит линки только с морд. Весь сайт не шерстит.
Так что доделок там надо сделать порядочно перед тем, как за него деньги просить.
В текущем виде могу отдать за так, в принципе, сконфигурив при компиляции.
зы
"с файлами не работает" - в смысле что инфу об урлах он пихает тока в базу. Кэш самих страниц, конечно, в файлах на диске.
ну так себе:
ждем появления ен_слона, который скажет, что у него целая команда разработчиков и ноу-хау механизм для создания роботов, и он сейчас все разрулит, если вы согласитесь работать с ним в доле 😂
Та-да!!! А вот и я. Долю никому не предлагаю, но механизм действительно есть. ТС правильно подметил, что сложность заключается не в кроулинге или парсинге, а именно в алгоритме определения статьи, или иными словами большого блока текста на странице.
ТС. поясни как работает твой алгоритм?
eN_Slon добавил 19.03.2008 в 19:08
А насчет текста - все щее доступен мой сервис - 87.252.228.252/.
не сочтите за рекламу, я с него не зарабатываю