Никанет

Никанет
Рейтинг
131
Регистрация
26.07.2010
Интересы
Internets
В походе, дома, на работе не забывайте об одном. Огонь - он может быть и другом, но также может быть врагом!

sasha_123, уже хуже :) Что за парсер-то у Вас?

x0xa, легко сказать "обрезать". Мне же не один и тот же сайт нужно спарсить.

sasha_123:
Покажите пример страницы для парсинга.

вот

sasha_123, если хотите что-то предложить по теме, делайте это более конкретно. А верстка слишком простая. Будь все сайты такими, я бы тупо юзал content downloader с тегом p.

Еще про zparser. Он парсит все сайты выдачи, а мне достаточно по одному. А потом разбивает спарсенное на статьи. Т.е. получается если задашь 1000 знаков, а на первом сайте 200, прога к этому же текст добавит 800 со следующего сайта. Вывод - не подходит. С таким же успехом можно парсить сниппеты.

kaizer:
Чё то не вижу никакой проблемы. Это парсинг рсс и чистка от мусора.м Я тебе хоть щас пару видео покажу того о чём ты говоришь.
Это парсинг чужого контента по урлам. И парсинг по кеям .

Давай, а то я тоже тебя не понял) Опиши весь процесс подробнее. Какая программа может выдирать конкретную статью из rss (которая была в выдаче)? Это если вообще есть на сайте rss и статьи там отображаются полностью.

---------- Добавлено 26.10.2012 в 18:41 ----------

sasha_123, а смысл? Эти страницы могут быть какие угодно. В этом вся проблема. Забейте любую фразу в выдаче и будет пример :) То что список есть я сказал условно.

---------- Добавлено 26.10.2012 в 18:44 ----------

В общем, кто желает помочь за разумное вознаграждение, стучите в личку.

Пара человек, опровергнувших несуществование ИИ, к сожалению отказались помочь.

ПростоЯ, это и есть ютубовская партнерка. Никто не может со стороны запихнуть в ютубовский плеер свою партнерку. Формат преролл называется. Дело в том, что есть различные агрегаторы-посредники, которые принимают слабораскрученные каналы с небольшим числом подписчиков и платой за это является процент, а иногда более серьезные проблемы, если посредник не сильно порядочный.

Конкретно никого рекламировать не буду, гуглите, если интересно.

Uspeshniy:
А что там в ручную настраивать? Нажать в браузере Ctrl+U посмотреть границы парсинга и указать их программе. :) Предварительно 1 раз, для всех сайтов, можно настроить шаблон сохранения.

Вы внимательно прочитали мое предыдущее сообщение?


daymos:
ТС, чего Вы крутите?
Если хорошо подумать головой можно регулярками отсеять все лишнее что бы с вероятностью 70-80% получить чистый текст.
Не подходит такое вхождение - ну извините...

Сколько стоит?


vawsan, Описание достаточно вкусное, посмотрим что она может.

---------- Добавлено 26.10.2012 в 15:34 ----------

Только zparser вроде как не может парсить ключи по списку. Это огромный минус.

Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)

Интересно, что там за игра. Подписаться что-ли? :D

Collapse:
Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.

У меня есть мысль. Надо не только фильтровать по тегам, типа <p>, но и задавать минимальное количество знаков между тегами. Чтобы анкоры и всякий мусор не парсился, а текст парсился. 100% работать не будет, но качество повысится. В CD этой возможности нет.

---------- Добавлено 24.10.2012 в 15:07 ----------

maxwell:
Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.

У меня эта штука трудится день и ночь, собирая нужный мне контент.

Руки растут криво, гуглить лень 🤪 Возможно как-то по-другому решить этот вопрос?

Всего: 1762