Комментарии - Никанет - Профиль вебмастера - Форум об интернет-маркетинге

Как парсить с разных сайтов чистый текст?

26 октября 2012, 19:47

sasha_123, уже хуже :) Что за парсер-то у Вас?

Как парсить с разных сайтов чистый текст?

26 октября 2012, 18:55

x0xa, легко сказать "обрезать". Мне же не один и тот же сайт нужно спарсить.

Как парсить с разных сайтов чистый текст?

26 октября 2012, 18:08

sasha_123:
Покажите пример страницы для парсинга.

вот

Как парсить с разных сайтов чистый текст?

26 октября 2012, 17:22

sasha_123, если хотите что-то предложить по теме, делайте это более конкретно. А верстка слишком простая. Будь все сайты такими, я бы тупо юзал content downloader с тегом p.

Как парсить с разных сайтов чистый текст?

26 октября 2012, 13:40

Еще про zparser. Он парсит все сайты выдачи, а мне достаточно по одному. А потом разбивает спарсенное на статьи. Т.е. получается если задашь 1000 знаков, а на первом сайте 200, прога к этому же текст добавит 800 со следующего сайта. Вывод - не подходит. С таким же успехом можно парсить сниппеты.

kaizer:
Чё то не вижу никакой проблемы. Это парсинг рсс и чистка от мусора.м Я тебе хоть щас пару видео покажу того о чём ты говоришь.
Это парсинг чужого контента по урлам. И парсинг по кеям .

Давай, а то я тоже тебя не понял) Опиши весь процесс подробнее. Какая программа может выдирать конкретную статью из rss (которая была в выдаче)? Это если вообще есть на сайте rss и статьи там отображаются полностью.

---------- Добавлено 26.10.2012 в 18:41 ----------

sasha_123, а смысл? Эти страницы могут быть какие угодно. В этом вся проблема. Забейте любую фразу в выдаче и будет пример :) То что список есть я сказал условно.

---------- Добавлено 26.10.2012 в 18:44 ----------

В общем, кто желает помочь за разумное вознаграждение, стучите в личку.

Пара человек, опровергнувших несуществование ИИ, к сожалению отказались помочь.

партнерки для youtube?

26 октября 2012, 09:49

ПростоЯ, это и есть ютубовская партнерка. Никто не может со стороны запихнуть в ютубовский плеер свою партнерку. Формат преролл называется. Дело в том, что есть различные агрегаторы-посредники, которые принимают слабораскрученные каналы с небольшим числом подписчиков и платой за это является процент, а иногда более серьезные проблемы, если посредник не сильно порядочный.

Конкретно никого рекламировать не буду, гуглите, если интересно.

Как парсить с разных сайтов чистый текст?

26 октября 2012, 09:26

Uspeshniy:
А что там в ручную настраивать? Нажать в браузере Ctrl+U посмотреть границы парсинга и указать их программе. :) Предварительно 1 раз, для всех сайтов, можно настроить шаблон сохранения.

Вы внимательно прочитали мое предыдущее сообщение?

daymos:
ТС, чего Вы крутите?
Если хорошо подумать головой можно регулярками отсеять все лишнее что бы с вероятностью 70-80% получить чистый текст.
Не подходит такое вхождение - ну извините...

Сколько стоит?

vawsan, Описание достаточно вкусное, посмотрим что она может.

---------- Добавлено 26.10.2012 в 15:34 ----------

Только zparser вроде как не может парсить ключи по списку. Это огромный минус.

Как парсить с разных сайтов чистый текст?

25 октября 2012, 12:20

Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)

SeriousPartner.ru v.3 - Эволюция конверта. Дейтинг и развлекательные платники(+МТ) -2

24 октября 2012, 22:38

Интересно, что там за игра. Подписаться что-ли? :D

Как парсить с разных сайтов чистый текст?

24 октября 2012, 10:05

Collapse:
Глупо думать, что их алгоритм на 100% верно отделяет "нужный" контент от "не нужного". Это в принципе невозможно.

У меня есть мысль. Надо не только фильтровать по тегам, типа <p>, но и задавать минимальное количество знаков между тегами. Чтобы анкоры и всякий мусор не парсился, а текст парсился. 100% работать не будет, но качество повысится. В CD этой возможности нет.

---------- Добавлено 24.10.2012 в 15:07 ----------

maxwell:
Есть библиотека simple_html_dom.php в открытом доступе. Немного глючная, но если погуглить и руки растут откуда надо, все работает прекрасно.

У меня эта штука трудится день и ночь, собирая нужный мне контент.

Руки растут криво, гуглить лень 🤪 Возможно как-то по-другому решить этот вопрос?

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Никанет