Chukcha

Рейтинг
291
Регистрация
04.02.2005

Busgame, а показать? или религия не позволяет?

var_dump($urlosearch)

Я не знаю что возвращает $htmldoc->find('a') - и лень лезть в библиотеку.

SELECT *

FROM star as s,

(SELECT COUNT(t1.*),t3.id FROM post t1, star_option t2, star t3 WHERE t1.id = t2.id AND t2.star_id= t3.id GROUP BY t3.id) as s1

WHERE s.id=s1.id

Не проверял

$urlosearch = $htmldoc->find('a'); //нашли все ссылки на странице

Это уже массив

$massive = array($urlosearch); //заключили в $massive

а это

$massive[0] - массив

function exampleFunc() {

alert(arguments[0]);

alert(arguments[1]);

alert(arguments[2]);

}

exampleFunc(1, 2, 3);

Правда ума не приложу как эти курлы заставить по ссылкам переходить.

А как вы эту курлу заставляете посетить первую страницу?

Основная задача будущего парсера - гулять по страницам, сравнивать, заносить в бд. Парсер должен быть сравнительно быстрым (заносить примерно 50 - 100 страниц в день).

Это не скорость - это черепаха.

в бд, проверятся всего будет примерно около 2000 - 4000 страниц в день.

Это не объем.

загрузив скриптом страницу =- вы загружаете всего лишь одну страницу без каких-либо других элементов (стили, изображения, скрипты)

Отпарсив одну страницу и собрав ссылки - вы сканируете на наличие только одной страницы. И...

Так что смело укладывайте ссылки в базу, помечайте их"проиндексированными" и каждый день запускайте свой парсер.

Язык парсера - безразличен.

function ui_play(data, hid) {


//обычно cur_song_id, prev_song_id, next_song_id - одно число

cur_song_id=data;
next_song_id=parseInt(cur_song_id)+1;
prev_song_id=parseInt(cur_song_id)-1;

first_song_id=$('#playlist').find('li').first().attr('data-num');
last_song_id=$('#playlist').find('li').last().attr('data-num');

if (hid != 'undefined') { //но если существует аргумент hid, то next_song_id и prev_song_id должны содержать в себе два аргумента для дальнейшего вызова функции ui_play(next_song_id) или ui_play(prev_song_id)
next_song_id=$('#my_live_playlist').find('li[data-id="'+(parseInt(hid)+1)+'"]').attr('data-num')+","+(parseInt(hid)+1);
prev_song_id=$('#my_live_playlist').find('li[data-id="'+(parseInt(hid)-1)+'"]').attr('data-num')+","+(parseInt(hid)-1);
}

1.Сканирование страницы и сбор ссылок с укладыванием в массив

2.Уникализация массива

4. Проверка на наличие непосещенной страницы для выхода из цикла.

3.Проход по ссылкам из массива, с пометкой о посещении, возврат на п.1

Минус- неоптимально

Плюс - простота решения

возможен вариант, когда на первой странице нет ссылок.

Все так...

Отдать 404 ответ, это еще не значит, что браузер должен что-то вывести

Страница с 404 ошибкой может выглядеть как угодно, и контент на ней может быть какой угодно. Но КОД ОТВЕТА сервера должен быть 404

Сделайте

header("HTTP/1.1 404 Not Found");

echo "bla-bla-bla";

exit;

Всего: 2548