quickmouse

quickmouse
Рейтинг
86
Регистрация
29.06.2009

Готов скинуться, нужны еще люди)

надо ветку в раздел аккаунты переименовать))

кто хочет обменяться источниками проксей, пишите в личку

Тоже интересует вопрос: если код тизеров с одной площадки на другие повесить, санкции будут?

куплю яндекс за 50 баксов...

потерто......

не могу зайти в бегун: в доступе отказано, восстановил пароль, ввожу его, все равно отказано, как попасть в админку?

и парсил))

Для парсинга понадобятся 2 программы:

1. Download Master (бесплатная).

2. Extract Link (скачать). Программа не требует установки, просто скачиваете и запускаете.

Допустим, нам нужна база блогов. Покажу на примере рейтинга блогов, как ее получить.

1. Прокручиваем страницу рейтинга вниз и копируем ссылку на последнюю страницу:

2. Открываем Download Master и добавляем группу закачек:

3. Вставляем скопированный урл последней страницы, заменяем «111» на «$» и говорим, что переменная должна меняться от 0 до 111, нажимаем ОК, потом еще раз:

4. Выбираем, куда сохранить html-файлы и начинаем закачку:

5. После того, как все html-страницы сохранились, нам нужно выдрать из них ссылки на блоги, для этого используем Extract Link. Нажимаем кнопку «New Search», выбираем папку с сохраненными html-страницами, на вкладке Option отметьте галочками «Remove duplicate results» и «Remove duplicate base», на вкладке Exclude/Exclude Text напишите построчно feedburner.com и blograte.ru, чтобы в базе было меньше ненужных урлов:

6. После парсинга html-страниц получим список урлов, встречающихся на сохраненных страницах. У меня получилось 3343 урлов вместо 3337 (6 ссылок на главной странице лишние). Результат сохраняете в txt или excel-файл:

Аналогично можно парсить выдачу поисковиков

rasiell:

Это так сказать первая версия граббера со временем он обрастет функционалом.

До такого скоро обрастёт?)

Всего: 227