Попробуйте спарсить главную страницу. Обошел все страници сайта. Перейти по первой ссылке на страницу. Вывести эту страницу на экран - Веб-строительство

24

Busgame

30 декабря 2012, 13:36

#51

Нужен именно бесконечный, читайте выше.

L9

53

levka9

30 декабря 2012, 14:06

#52

Busgame:
Нужен именно бесконечный, читайте выше.

Зачем бесконечный, в чём смысл ?

Обошёл все страници сайта, и что опять повторить цикл.

1

Программирую на ASP.NET, MVC, C#, ANGULAR JS

24

Busgame

30 декабря 2012, 14:07

#53

Сайт постоянно обновляется, парсить нужно постоянно.

DV

644

DenisVS

30 декабря 2012, 14:18

#54

Лучше не надо бесконечный, возможны бесконтрольные состояния.

Я такие вещи по крону запускаю.

Чтобы не было параллельных процессов, можно создавать PID файл.

1

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )

L9

53

levka9

30 декабря 2012, 15:06

#55

Busgame:
Сайт постоянно обновляется, парсить нужно постоянно.

Тогда парсте сайт полностю, а потом повторяйте обход каждые X минут.

Иначе будет постоянный бесконечный цикл вокруг повторяющихся урлов и многие из них сканироватся вобще не будут(или очень редко).

В конце ваша коллекция переполница и программа повалит сервер.

1

Вышла новая версия CS Яндекс.Вебмастер обновил раздел «Статистика Яндекс.Вебмастер поможет найти дубли

24

Busgame

30 декабря 2012, 15:18

#56

Хм, логично. Но лучше просто:

а) занести страницу в индекс.

б) считывать данные спарсенной страницы со страницы - оригинала.

в) пополнять индекс.

Буду реализовывать.

L9

53

levka9

30 декабря 2012, 15:29

#57

то что я вам и писал:

Опредилитесь с колекциями.

1. Dictionary O(1) - отсканированые ссылки.

2. Queue (1) - содержит и пополняет себя новыми и не отсканироваными ссылками.

1

24

Busgame

30 декабря 2012, 15:39

#58

Угу, просто немного сложно для восприятия. А так большое спасибо.

D

153

Dinozavr

30 декабря 2012, 15:47

#59

Busgame:
$mas = array(
$a = 'a';
$b = 'b';
)

ну вообще то

$mas=array("a"=>"a","b"=>"b");

для вашего случая:

$spisok=array("index");

for($i=0;~;$i++){

$url=array_shift($spisok);

$site=curl($url);

$urls=daj_mne_urls($site);

$spisok[]=$urls;

}

http://php.net/manual/en/function.array-shift.php

24

Busgame

30 декабря 2012, 15:57

#60

Dinozavr, я набросал по быстрому просто, в целом все понятно.

Сейчас в качестве теста попробую:

1. Спарсить главную страницу.

2. Извлечь все ссылки.

3. Перейти по первой ссылке на страницу.

4. Вывести эту страницу на экран.

О результатах напишу.

---------- Добавлено 30.12.2012 в 20:18 ----------

Сейчас, собсно, имеем такой код:


$res - полученная курлом страница



$htmldoc = phpQuery::newDocument($res); //создали новый док



$urlosearch = $htmldoc->find('a'); //нашли все ссылки на странице



$massive = array($urlosearch); //заключили в $massive



$firstlink = array_shift($massive); //извлекли первую ссылку этого массива, но при выводе, браузер отображает все ссылки ($urlosearch в массиве $massive), а не только первую



$perehod = curl_setopt($ch, CURLOPT_URL, $firstlink); // попытка передачи урла



echo $perehod; //выводится "1" (без ковычек)

По моей логике: array_shift не может вывести элементы массива отдельно, поэтому выводит все элементы как один (т.е. в массиве всего один элемент, который содержит все ссылки). Отсюда и недоступность к переходу. Возможно, все ссылки нужно собрать в ручную, а полученный массив передать курлу?

---------- Добавлено 30.12.2012 в 20:23 ----------

Возможно, все ссылки нужно собрать в ручную, а полученный массив передать курлу?

Хотя если так сделать с главной страницей, то с внутренними будет аналогично. Тогда этот вариант не подходит.

Как получить больше трафика Клики, показы и позиция Денис Кабалкин «Воронка конверсии

Все что нужно знать о DDоS-атаках грамотному менеджеру

Курс биткоина превысил $50 тысяч

Как создать такой парсер?