Фильтрация урлов по содержимому

M5
На сайте с 12.08.2009
Offline
221
M25
388

Господа, день добрый.

Вопрос вот у меня такой: на сайте-магазине в результате фильтра имеется много (очень) разных урлов вида _site.ru/tovar/a=1&b=12&c=31&...&..&... В общем параметров прилично.

Нужно исключить (или наоборот, выбрать - допустимо и так) те из них, по которым в html коде выводится некая фраза, допустим "нет в наличии" или "ничего не найдено".

Посоветуйте, каким софтом можно это реализовать? Перебрать несколько тысяч урлов - не проблема, безлимитка быстрая, хостинг шустрый. Вопрос времени также решаем - пару дней ради такого потерпеть можно.

P.s.: Даже не знал, как тему назвать, пусть будет так.

► Рейтинг серверов — ТОП10 ◄
Ragnarok
На сайте с 25.06.2010
Offline
239
#1

я бы сделал так:

1. делаем таблицу в мускуле (через phpmyadmin), где будут нужные урлы, может быть, ещё какая-то инфа со страниц.

2. делаем таблицу в мускуле (через phpmyadmin), где будут урлы, которые надо проверить

3. делаем php-скрипт, который будет генерировать урлы по каким-то критериям и вставлять их в таблицу из п.2

4. Запускаем php-скрипт, который через curl будет дёргать страницы по адресам из таблицы п.2, и в зависимости от результата, помещать что-то в таблицу п.1, отмечая попутно в таблицу из п.2, что урл "проверен".

скрипт 3 запустить, чтобы сгенерить урлы страниц

скрипт 4, повесить на крон или типа того. можно циклом, по 10-100 страниц за запуск (только время исполнения скрипта увеличить)

//TODO: перестать откладывать на потом
M5
На сайте с 12.08.2009
Offline
221
M25
#2

Ragnarok, спасибо за идею. "Пометил" себе на будущее, если не найду что-то десктопное. Подозреваю, что такое где-то должно быть.

Кстати третий скрипт не нужен, так как уже нагенерировал старым добрым экселем

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий