Скрипт? Который вытащит список страниц вне индекса

ЗахарOFF
На сайте с 25.05.2008
Offline
182
798

Искал, но что-то не особо понял, хотя возможно искал не по тем ключевым словам...

Задача в следующем:

1. Есть сайт. Условно 2000 страниц, из них 1000 страниц с индексе Яндекса.

2. Как получить список страниц сайта, которых нет в индексе? Такое реально автоматически сделать?

P.S. Интересующие меня страницы находятся в одной рубрике и имееют структуру: сайт.ру/rubric/ID/

где ID - числовой идентификатор.

Милованов Ю.С
На сайте с 24.01.2008
Offline
196
#1

В теории это возможно.

1)Получить список страниц которые в индексе.

2)через регулярки спарсить сами урлы(айди, которая за рубрикой), удовлетворяющие условию. Можно записать в файл в формате (1, 3, 10, 123), чтобы применить для IN(во множестве) мускульного.

3)Сделать по этому ИН выборку, только с отрицанием(то есть "выбери мне все айдишники, которых нет в этом множестве").

Я решение Вашей задачи вижу как-то так. МейБи уже велосипед изобретен:)

Подпись))
d4k
На сайте с 02.03.2010
Offline
146
d4k
#2

Что мешает вычесть из списка всех урлов список проиндексированных? или наоборот...

Чтобы все подряд урлы спарсить есть куча решений начиная от teleport pro и т.п. софта, и заканчивая Page Weight от разработчика с этого форума. Далее, в том же Excel'е просто вычитаем урлы из всего списка. Как-то так.

Ezekiel
На сайте с 11.08.2010
Offline
28
#3

пхп:

магическим способом получаем список всех урлов и записываем в переменную $all

магическим способом получаем список проиндексированных урлов и записываем в переменную $indexed

делаем $noindex = array_diff($all, $indexed)

в $noindex у нас есть НЕпроиндексированные урлы

---------- Добавлено 22.06.2012 в 15:22 ----------

список проиндексированных страниц можно взять на http://webmaster.yandex.ua/check.xml

Обмен WebMoney (http://bit.ly/kqBOlV) Продам инвайт на Хабр (http://www.plati.ru/asp/pay.asp?idd=1529255)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий