для сапы лучше каталожную организацию. сплоги в сапе не то чтобы плохо идут, но не рулят имхо.
а ластовский никак контент не модифицирует? один к одному копипастит?
как умеете.
хз, не юзал.
Россия для Онотолия!
и да!!1адинадинадин
Попячсо! Онотоле наше все!!11
есть смысл. это круче доров.
я говорю только то, что лично я его не куплю, не более.
я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо. Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).
а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.
могу сказать, куда тебе.
сравнил, тоже, попу с пальцем, копание в грязном белье пачки клонов и отлов невероятно эффективно спрятанного кодированием редиректа на onload, который всей тусой где-то тут пару месяцев назад изобретали, мухаха 😂
ну так себе:
а применение, по-моему, напрашивается само собой: спарсить весь смысловой контент рунета. Если есть бот, который правильно определяет как рипнуть смысловое содержимое без предварительной ручной подготовки к парсингу (забивание сигнатур, и пр), то его предназначение - рипать все подряд (поскольку в "подряд" его основная фишка). Я бы пустил его по инету гулять, через пару месяцев у вас на руках был бы огромный текстовый корпус. А если еще и обдуманно направлять его в кравлинге, то вообще красота.
зы
ждем появления ен_слона, который скажет, что у него целая команда разработчиков и ноу-хау механизм для создания роботов, и он сейчас все разрулит, если вы согласитесь работать с ним в доле 😂