UpiterSoft

Рейтинг
1
Регистрация
07.02.2010
kxk:
UpiterSoft, Дай мне за отзыв :)

мне отзыв не нужен :)

кому надо - решит со мной подходит ему или нет моя прога.

кому не надо - отзыв ничего не изменит

snatch:
ээ, лично мне прога не нужна, но
Google News за 1990-2010 годы по Вашему ключевику, заходит по ссылкам, берет полный текст статьи с сайтов
вот то, что болдом, стоит несколько сотен зелени, однако, неизвестно как это реализовано у ТС, если всё так и есть, то это даже очень неплохой "универсальный" парсер.
ИМХО, ТС, нужно выложить скрины, примеры спарсенных текстов и оригиналы сайтов (урлов страниц) откуда парсилось.

зы: возможно, стоит отдать прогу за отзыв какому-либо заинтересованному мемберу с форума с большой репой, разумеется если найдёшь, у кого ещё нет универсалки )

snatch добавил 08.02.2010 в 13:29

мда, разумеется, если в качестве источника, спайдер будет кормить алгоритм определения текста статей, с любых сайтов
то есть, отдаёшь список урлов сайтов, на выходе получаешь все статьи с этих источников

Так и есть, парсер находит текст статьи, чистит от HTML. При желании скормить список URL можно не только с Google News. Правильно находит текст статьи в 95%+ случаев. Сейчас складывает все в 1 файл (мне было нужно именно так), но если кому-то нужно в разные - это менять 5 минут.

Скрины, примеры сделаю чуть позже.

BLACK_DANTE:
Парсит в один файл или как? Чисто или "грязно" ? Пример нескольких статей можно увидеть в личку?

Сейчас кидает все в один файл, могу сделать что б в отдельные.

Оставляет только текст (без HTML)

Сейчас в личку отправлю кусок того что спарсил

moneySEO:
UpiterSoft, можно парсить на английском и других языках?

заточено под кирилицу, если нужен другой язык - сделаю

Georgyi:
Такую херню на фриланс-бирже можно в 2 раза дешевле заказать (недавно подобное заказывал). Какого фига покупать ее за 50?

Берите у школьников на фриланс-бирже за копейки, не вопрос.

moneySEO:
Без прокси парсер не стоит и 3-х долларов.
гугл внесет ваш IP в спам базу очень быстро.

Гугл не вносил мой IP в спам базу, при круглосуточном парсинге. При достаточной задержке он этого никогда не сделает.

Задержка на гугле не тормозит весь процесс, т.к. основное время уходит на парсинг 50к статей, на которые указывает гугл.

Если есть реальное желание купить, но не устраивает цена - пишем на мыло.

SBot:
Чем Rapidget не устраивает? Тот же функционал+, но фрии.

Если речь о PHP Rapidget, то он не предназначен для пакетной заливки доров на те же фрихосты (или они забыли об этом написать на своем сайте)

Если речь о Rapidshare Rapidget, то он, кажется, тут вообще не причем, т.к. предназначен для работы с сервисом rapidshare.de