Dinozavr

Рейтинг
153
Регистрация
14.01.2007

Busgame, вы понимаете, что весь ваш парсер - это бесконечный цикл, который состоит из:

1. взять ссылку из списка неотпарсенных

2. скормить ссылку curl

3а. проверить содержимое на соответствие вашему шаблону

3б. собрать ссылки и добавить их в список неотпарсенного

4. goto 1

?

Busgame, без разницы.

вы знаете, что такое цикл?

Busgame, вы можете вытащить со страницы ссылки?

Busgame, ладно, будем по буквам.

только обещайте отвечать на мои вопросы!

вы знаете, что такое регулярное выражение?

делайте на том языке программирования, который знаете.

10000 страниц в день это вообще ни о чём, справится любой язык

rammlied, ага, сделайте сначала карту сайта. например: www.123people.com . посмотрите site в google

Busgame:
При помощи чего можно запоминать посещенные ссылки?

вариантов мульон:

1. array

2. file

3. DB

4. Memcache

...

Busgame, так скажите в чём у вас проблема? там больше curl и regexp ничего не надо

а в чём проблема с

Busgame:
работаю в php, изучал cURL
?

вам скачать или линк у себя поставить?

если скачать, то качайте по линку, если линк поставить, то никак.

Но опять же это ИМХО. как оно на самом деле, неизвестно

Всего: 1286