Парсер контента с форумов-Подскажите

argocom
На сайте с 18.08.2006
Offline
107
1083

Подскажите программу, с помощью которой можно напарсить контент с форумов

ewg777
На сайте с 04.06.2007
Offline
225
#1

wget. А почему нет?

Удивительно
На сайте с 07.07.2009
Offline
215
#2
ewg777:
wget. А почему нет?

Не слить, а напарсить )

ТС, пиши в аську, пишу такие штуки под заказ ;)

Качественная семантика недорого ( https://moab.tools/ )
demko73
На сайте с 14.01.2009
Offline
52
#3

это называется РУКИ.

пишешь прогу и она парсит.


<?
set_time_limit(0);
function post($url,$refer)
{
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; dem 2010)");
curl_setopt($ch, CURLOPT_REFERER, $refer);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
return $result;
}

#2031 - всего статей , но рекомендую отрывками, ибо долго, некоторые #статьи по 2страницы, я это не учитывал, если надо, то всё просто_)
for ($ii=1;$ii<2031;$ii++)
{
$ce='http://arbuz.tj/'.$ii;
$result = post($ce,'http://www.arbuz.tj/');
preg_match('/<div class="Post">(.*?)<\/div>/is',$result, $n1);
#preg_match('/<div class="Nav">(.*?)/is',$result, $n2);
$ei= iconv("utf-8","windows-1251",$n1[1]);
$fh = fopen('bdd.txt', "a+");
$success - fwrite($fh, $ei."\r\n");
fclose($fh);
$end_result++;

sleep(8);
}

?>

пример, парсинга сайта на дле, ну можно модифицировать, но для быстрого сбора контента сойдёт_)

Лучше не бывает (http://porno-engine.ru)
Rkt
На сайте с 11.09.2008
Offline
139
Rkt
#4

а с авторизацией?)

ewg777
На сайте с 04.06.2007
Offline
225
#5
Rkt:
а с авторизацией?)

Букавки из поста demko73 копи-пастяться и меняются. Куда лучше (идея)

Удивительно, потом можно обработать грепом

wget -r -l 0 -k /

Вы, наверное, о таком даже не слышали?

demko73
На сайте с 14.01.2009
Offline
52
#6
ewg777:
Букавки из поста demko73 копи-пастяться и меняются. Куда лучше (идея)
Удивительно, потом можно обработать грепом
Вы, наверное, о таком даже не слышали?

grep вроде с линукса . но таким методом не пользуюсь_)

response
На сайте с 01.12.2004
Offline
324
#7

Есть много готовых баз с популярных форумов, остальные можно распарсить под заказ. По времени: 20 минут, плюс время на скачивание страниц на 20мбс. На выходе SQL.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий