Как парсить с разных сайтов чистый текст?

[Удален]
#31
Никанет:
sasha_123, если хотите что-то предложить по теме, делайте это более конкретно

10 символов

sasha_123:
Покажите пример страницы для парсинга.
Никанет
На сайте с 26.07.2010
Offline
131
#32
sasha_123:
Покажите пример страницы для парсинга.

вот

X
На сайте с 11.07.2011
Offline
57
#33

обрезать меню и элементы, повторяющиеся на всех страницах

найти кол-во внутренних ссылок (для определения категорий)

вырезать теги, скрипты (кроме нужных)

смотреть на результат и думать дальше

тут почитать

Никанет
На сайте с 26.07.2010
Offline
131
#34

x0xa, легко сказать "обрезать". Мне же не один и тот же сайт нужно спарсить.

[Удален]
#35

Никанет, вот:

Дорвей Википедия Материал из Википедии свободной энциклопедии Перейти к Дорвей от doorway входная дверь, портал или входная страница вид, специально под один или несколько с единственной целью е попадания на высокие места в по этим запросам. Иногда дорвеем называют и целый веб-сайт, состоящий из таких страниц. Основные сведения Как правило, содержимое дорвея не представляет никакой информационной ценности для посетителя страницы, и содержит в себе ссылку или автоматическую переадресацию редирект на некоторую другую целевую страницу или сайт, раскручивающийся при помощи таких дорвеев. Редирект технически может быть реализован при помощи сценариев, и других технологий. В последнее время многие поисковые боты научились отслеживать быстрый редирект. Поэтому создателям дорвеев приходится использовать более изощренные методы перенаправления пользователей на целевой ресурс. Например, принуждаяk их нажимать на кнопку Входk или изображение-ссылку. Оптимизация страницы осуществляется путем искусственного увеличения факторов ранжирования страницы поисковой системой, например за счет создания страницы с текстом с большой частотой вхождения фразы нужного запроса. Дорвеи, как и другие виды поискового спама, относятся к так называемой и поэтому стремятся автоматически вручную исключать их из своих, как сайты, не имеющие никакой смысловой нагрузки для людей, а используемые исключительно для обмана поисковых роботов и, в большинстве случаев, для извлечения прибыли. Генераторы дорвеев Программы для автоматического создания дорвеев на жаргоне известны как доргеныk. Часто они используют такие статистические методы, как, для создания множества страниц с бессмысленным текстом на основе списка ключевых слов и тематических текстов. Такой подход позволяет без участия человека что было бы трудозатратно создавать страницы с уникальным содержимым, не определяющиеся поисковыми системами как дубликаты других страниц. Тексты получаются локально, на уровне соседних слов, похожими на естественный текст, что затрудняет их обнаружение поисковыми системами, но в последнее время успешно разрабатываются методы для их обнаружения. Использование для получения уникального текста из существующего текста заменой слов на их синонимы. Такие тексты часто легко обнаружить по появлению словосочетаний, нехарактерных естественному тексту. Так, например, Новый годk может быть заменён на свежий годk, а друг от другаk на товарищ от другаk. Некоторые генераторы даже не утруждаются поправлять окончания у слов при замене. Склейка из результатов поиска по целевым запросам. Использование систем. Созданные страницы могут быть связаны ссылками между собой и, иногда, с другими сайтами, размещающими дорвеи. Некоторые генераторы дорвеев способны динамически, во время запроса, создавать страницы или целые сайты и сочетать их с такими приёмами, как, другие же генерируют статический набор HTML-страниц. Также среди дорвейщиков популярен спам ссылок на свои дорвеи для поднятия позиций в выдаче поисковика. Примечания См. также SMO Дорвеи ссылки на сайт Источник k: Поиск Последнее изменение этой страницы октября. Текст доступен по; в отдельных случаях могут действовать дополнительные условия. Подробнее см. Wikipedia зарегистрированный товарный знак некоммерческой организации
Никанет
На сайте с 26.07.2010
Offline
131
#36

sasha_123, уже хуже :) Что за парсер-то у Вас?

[Удален]
#37

Самопис,

sasha_123:
написанный ещё лет 5 назад
10 символов
Никанет
На сайте с 26.07.2010
Offline
131
#38

sasha_123, распространяете его?

[Удален]
#39
Еще про zparser. Он парсит все сайты выдачи, а мне достаточно по одному. А потом разбивает спарсенное на статьи. Т.е. получается если задашь 1000 знаков, а на первом сайте 200, прога к этому же текст добавит 800 со следующего сайта. Вывод - не подходит. С таким же успехом можно парсить сниппеты.

Кто вам такое сказал! Я сам лично использую эту программу, она работает совершенно не так как вы думаете, программа на не чего не разбивает не на какие статьи. Она сохраняет каждую статью в отдельный файл, можно парсить как ко поисковому запросу из поисковика так и сайт целиком, или вообще задать свои страницы с которых парсить.

Никанет
На сайте с 26.07.2010
Offline
131
#40

tofitar, но по списку запросов она не может парсить, только по одному.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий