Busgame

Busgame
Рейтинг
24
Регистрация
10.07.2011

Принцип, то понятен, спасибо. Но убирать каждую отпарсенную в ручную - бред. Придется подумать над этим вопросом. За одно и над другими языками подумаю.

отпарсенную ссылку из массива выкидываем.

каждую отпарсенную или только главную?

вся загвоздка в п.1!

Во-первых, где взять список неотпарсенных ссылок.

Во-вторых, этот список постоянно обновляется. Причем с такой скоростью, что вручную это делать не возможно (хотя я сразу говорил, что вручную должен лишь написать этот скрипт).

---------- Добавлено 30.12.2012 в 16:23 ----------

DenisVS, спасибо за ваш туториал, тоже смотел в сторону Python, пока думаю: PHP, Perl или Python. Но, скорее всего возьму первый вариант.

Dinozavr:
Busgame, без разницы.
вы знаете, что такое цикл?

Конечно знаю

---------- Добавлено 30.12.2012 в 16:02 ----------

Вы задавайте сразу несколько вопросов, а то серч ругается на короткие ответы.

Dinozavr:
Busgame, вы можете вытащить со страницы ссылки?

Да, но делаю это в основном phpQuery. Могу и на регулярных, но с библиотеками удобней.

Dinozavr, знаю. Но работа с ними порой затруднительна. Сейчас читаю книгу Джеффри Фридла по ним.

---------- Добавлено 30.12.2012 в 15:32 ----------

А как вы эту курлу заставляете посетить первую страницу?

curl_setopt($ch, CURLOPT_URL, $url);

Но тут то мы задаем этот урл, а нужно что бы он брался автоматически из тех, что находядтся на главной странице.

---------- Добавлено 30.12.2012 в 15:35 ----------

Dinozavr, могу отлучиться минут на 5 - 10, но плотно слежу за темой.

Парсер должен работать без выключения и всегда выполнять свою работу, еще раз подчеркну, сайт постоянно обновляется, следовательно и парсер должен работать постоянно. В принципе, если php для такого количества подходит, то буду использовать его. Правда ума не приложу как эти курлы заставить по ссылкам переходить.

Да, решений много конечно, но вас немного не туда понесло, хотя всех благодарю еще раз, за отзывчивость. Сайт, с которого будет происходить парсинг постоянно обновляется. Поэтому формирования единого сайтмапа не рационально. Парсинг будет бесконечным. Т.е. по сути дела, нужен небольшой бот - индексатор. Но при индексировании он не должен запоминать ключевых слов и урлы к этим ключам, как у поисковых систем. А всего навсего:

Проверка страницы - занесение фрагмента этой страницы в индекс - отображение пользователю.

Недавно вот прочел (тут), что реализовывать такую идею на php не стоит. Все ядро советуют делать на C, а веб-интерфейс на php.

Хотелось бы еще спросить, на чем написаны индексаторы Яндекса и Гугла. Возможно, выберу именно их язык, ведь он уже проверен. Основная задача будущего парсера - гулять по страницам, сравнивать, заносить в бд. Парсер должен быть сравнительно быстрым (заносить примерно 50 - 100 страниц в день). 100 страниц в день - не так уж много, но вы не забывайте что это число для занесения в бд, проверятся всего будет примерно около 2000 - 4000 страниц в день.

С удовольствием выслушаю ваши предположения и мысли. Еще раз спасибо за помощь.

P.S.: числа выше - стартовые, со временем они увеличатся.

Список ссылок составить - не самое сложное. Как заставить скрипт переходить на внутренние страницы с этих ссылок - основной вопрос. Уже гуглил, cURL позволяют лишь по четко заданной ссылке переходить. Но мне нужно, чтобы ссылку для перехода он брал с той страницы, на которой находится сейчас сам (например, главной). Главная страница, естественно задается, но гулять по внутренним он должен самостоятельно.

Большое всем спасибо, все кто отписался в теме, очень помогли.

Всего: 121