Как парсить с разных сайтов чистый текст?

1 234 5
D
На сайте с 29.10.2009
Offline
128
#21

ТС, чего Вы крутите?

Если хорошо подумать головой можно регулярками отсеять все лишнее что бы с вероятностью 70-80% получить чистый текст.

Не подходит такое вхождение - ну извините...

Шаблоны Pandorabox, Шаблоны Zennoposter (http://zennolab.com/discussion/threads/shablony-daymos-70096689.15233/) скайп daymos1
[Удален]
#22

искусственный интеллект уже есть просто вам не сказали:)

;)

vawsan
На сайте с 20.10.2011
Offline
8
#23
Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше. Сохранение абзацев в принципе не важно. Какие есть инструменты? Content Downloader не берет. Ибо на всех сайтах разная верстка и границы не задашь. А автоматическое распознавание че-то не пашет.

Было бы еще лучше парсить сразу через ПС по определенным кеям.

С контент доунлоадером замучаетесь, если все сайты на разных движках.

Поэтому советую выбирать один из универсальных парсеров контента, т.е.который самостоятельно определяет границы содержательной части контента каждой страницы.

Их сейчас достоточно много развелось, но я пользуюсь вот этим - Zparser

Собственно, вам и думать то не придется, нажал пару кнопок и поехало)

А пробив только вы сможете проверить, я не знаю какие у вас там движки.

Прогончики (http://www.maultalk.com/topic126332.html) XseoNчиком | URLCreator (http://www.maultalk.com/topic124061.html) Лучшие Windows VPS (http://vpsnow.ru/client/aff.php?aff=258) по цене/качеству | Код A258EX0 --> скидка 5%
Никанет
На сайте с 26.07.2010
Offline
131
#24
Uspeshniy:
А что там в ручную настраивать? Нажать в браузере Ctrl+U посмотреть границы парсинга и указать их программе. :) Предварительно 1 раз, для всех сайтов, можно настроить шаблон сохранения.

Вы внимательно прочитали мое предыдущее сообщение?


daymos:
ТС, чего Вы крутите?
Если хорошо подумать головой можно регулярками отсеять все лишнее что бы с вероятностью 70-80% получить чистый текст.
Не подходит такое вхождение - ну извините...

Сколько стоит?


vawsan, Описание достаточно вкусное, посмотрим что она может.

---------- Добавлено 26.10.2012 в 15:34 ----------

Только zparser вроде как не может парсить ключи по списку. Это огромный минус.

K
На сайте с 09.06.2006
Offline
113
#25

Чё то не вижу никакой проблемы. Это парсинг рсс и чистка от мусора.м Я тебе хоть щас пару видео покажу того о чём ты говоришь.

Это парсинг чужого контента по урлам. И парсинг по кеям .

Вопрос в том,что дальше будешь делать со спаршенным.

Сео-автопилот (http://tbp3.ru/) Элитный вордпресс плагин (http://trafficboosterprov3.ru/)
[Удален]
#26
Никанет:
Есть список адресов страниц разных сайтов. Как спарсить с них текстовый контент? Исключая весь код и лишние слова (ссылки навигации и т.п.) Т.е. с каждой страницы нужно получить только основную статью и ничего больше.

Покажите пример страницы для парсинга.

Никанет
На сайте с 26.07.2010
Offline
131
#27

Еще про zparser. Он парсит все сайты выдачи, а мне достаточно по одному. А потом разбивает спарсенное на статьи. Т.е. получается если задашь 1000 знаков, а на первом сайте 200, прога к этому же текст добавит 800 со следующего сайта. Вывод - не подходит. С таким же успехом можно парсить сниппеты.

kaizer:
Чё то не вижу никакой проблемы. Это парсинг рсс и чистка от мусора.м Я тебе хоть щас пару видео покажу того о чём ты говоришь.
Это парсинг чужого контента по урлам. И парсинг по кеям .

Давай, а то я тоже тебя не понял) Опиши весь процесс подробнее. Какая программа может выдирать конкретную статью из rss (которая была в выдаче)? Это если вообще есть на сайте rss и статьи там отображаются полностью.

---------- Добавлено 26.10.2012 в 18:41 ----------

sasha_123, а смысл? Эти страницы могут быть какие угодно. В этом вся проблема. Забейте любую фразу в выдаче и будет пример :) То что список есть я сказал условно.

---------- Добавлено 26.10.2012 в 18:44 ----------

В общем, кто желает помочь за разумное вознаграждение, стучите в личку.

Пара человек, опровергнувших несуществование ИИ, к сожалению отказались помочь.

K
На сайте с 09.06.2006
Offline
113
#28
Никанет:
Еще про zparser. Он парсит все сайты выдачи, а мне достаточно по одному. А потом разбивает спарсенное на статьи. Т.е. получается если задашь 1000 знаков, а на первом сайте 200, прога к этому же текст добавит 800 со следующего сайта. Вывод - не подходит. С таким же успехом можно парсить сниппеты.


Давай, а то я тоже тебя не понял) Опиши весь процесс подробнее. Какая программа может выдирать конкретную статью из rss (которая была в выдаче)? Это если вообще есть на сайте rss и статьи там отображаются полностью.

.

http://www.youtube.com/watch?feature=player_embedded&v=dOwxvcPtUF4

источником может быть любой рсс на любом языке. Если у источника нет рсс,то юзаем сервисы делания рсс и парсим их. Если рсс короткий а надо выпарсить полный текст,то юзаем сервис вытягивания полного текста и парсим его.

Например езинартикл http://www.youtube.com/watch?feature=player_embedded&v=WQ6u5NN8sjY

Это касаемо парсинга урлов было.

По поводу парсинга по кею, парсятся http://tbp3.ru/promo2.php причём по заданным параметрам. Можно настраивать сколько страниц топа парсить за раз и т.д.

И это делается не разово,а на постоянной основе. Т.е. софт если настроил,автоматом каждый день ходит смотрит есть ли свежак,если есть,парсит.

Но почему я спрашивал для чего надо. Так как он парсит и складывает в базу вордпреса.Откуда потом берёт по одной статье и постит,либо если надо объединит статьи или видео и запостит.

И получается круговорот, каждый день само ищет,само парсит,само постит. И так всегда.

Зы,и это не реклама,это логика по которой программа устроена. 🤣

[Удален]
#29
Никанет:
sasha_123, а смысл? Эти страницы могут быть какие угодно. В этом вся проблема. Забейте любую фразу в выдаче и будет пример

Забил 😂

Страница: http://www.mukhin.ru/new_house/Repairing_and_repair/how_to_lay_linoleum.html (ремонт для меня сейчас актуален :))

Вот что выдал парсер, написанный ещё лет 5 назад:

Как настелить линолеум Починка и ремонт Настелить линолеум в маленькой комнате, например кухне или ванной, не составит никакого труда. Другое дело, если речь идет о большой комнате, тут вам, скорее всего, придется позвать кого-нибудь на помощь. Чаще всего, в любой комнате можно отыскать хотя бы одну более или менее прямую стену. Вот эта стена и должна стать для вас отправной точкой, начните от нее, оставив всю мелкую канитель на потом. А канители этой у вас будет немало, особенно в туалете и ванной комнате! Вам потребуются: Линолеум Кусочек рейки Гвоздь Молоток Слесарное зубило Мощные ножницы Острый поделочный нож Совет. Перед тем как начать укладывать линолеум, подержите его в своей комнате не менее - часов, чтобы материал полностью приспособился к температуре и влажности вашего дома. Возьмите кусок рейки вбейте в нее гвоздь. Он должен располагаться примерно в см от края рейки, а острый кончик гвоздя должен торчать насквозь. Это будет ваш чертежный инструмент, с помощью которого можно будет начертить на линолеуме точную линию нижнего края стены. Это только кажется, что стены в доме прямые, на самом деле они все неровные, причем каждая стена свой манер. Положите полосу линолеума параллельно первой стене, на расстоянии приблизительно, см от нее. Приложите к стене свой чертежный инструмент и проведите им вдоль полосы линолеума на ней останется неровная линия, повторяющая конфигурацию стены. Возьмите мощные ножницы и отрежьте край линолеума по прочерченной линии. Приложите линолеум вплотную к стене и, если нужно, подгоните точнее его край. Теперь вам нужно раскатать линолеум до угла и сделать квадратный или треугольный надрез, чтобы расправить линолеум на полу. Прижмите край линолеума к углу, образованному полом и стеной комнаты. Помогите себе слесарным зубилом. Теперь возьмите поделочный нож и отрежьте линолеум по получившейся складке. Не спешите. Действительно, линолеум материал плотный, но перенапрягать свои силы при этом не следует. По пути вам непременно встретятся преграды, например станина унитаза или раковины. Отогните линолеум от стены, а затем прижмите лист линолеума к основанию преграды. Сделайте один надрез, идущий от верхнего края листа почти до уровня пола. Возьмите поделочный нож. Двигаясь от основания препятствия к верхнему краю листа линолеума, прорежьте треугольные«язычки». Эти язычки должны окружать всю преграду, после чего лист линолеума словно«обтечет ее. Срежьте верхнюю часть«язычков так, чтобы линолеум плотно облегал основание преграды. Если вам нравится, как лёг линолеум, срежьте«язычки до самого основания. Таким способом можно обойти преграду любой формы, но в некоторых случаях, например вокруг дверного косяка, линолеум можно настелить, вырезав его по приготовленным шаблонам. Настилайте линолеум в защитных перчатках, которые снимайте только на то время, когда будете пользоваться поделочным ножом. Oleg V. Mukhin.Ru
Никанет
На сайте с 26.07.2010
Offline
131
#30

sasha_123, если хотите что-то предложить по теме, делайте это более конкретно. А верстка слишком простая. Будь все сайты такими, я бы тупо юзал content downloader с тегом p.

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий