Удаление страниц из Sape, непроиндексированных Яндексом

LRoman
На сайте с 12.11.2006
Offline
43
1206

Многиe сталкивались с тем, что модеры Сапы не принимают сайты, у которых присутствуют страницы непроиндексированные Яндексом.

Сталкнулся и я с этим. Сапа проиндексировала 1400 страниц, а в яндексе всего 850. Начал искать решение проблемы, так как ручками проверять 1400 страниц ну очень долго. Нашел несколько программ и скриптов. Ни один из вариантов не работал правильно.

Пришлось придумывать самому что делать.

Вообщем у меня получилось немного упрастить этот процесс. Но все же может можно еще доработать мой алгоритм, тем самым уменшить затраты времени и сил.

Выкладываю алгоритм, может кто нибудь посоветует как его упростить.

1. В Олсубмитере создаем новую базу. В строке URL пишем http://www.yandex.ru/yandsearch?&p=2&serverurl=www.Ваш сайт&numdoc=400. Параметр 400 надо менять в зависимости от конкретного сайта, что бы выдавались все проиндексированные страницы. У меня на сайтах этот параметр был кол-во проиндексированных страниц яндексом/2.

2. Потом в Олсубмитере Базы данных -> Импортировать из IE. Не забудте убрать галочку "Исключить дубликаты доменов" и в поле "Исключить ссылки на сайты" написать yandex.

3. Экспортируйте базу из Олсубмитера в текстовый фаил.

4. В САПе на странице со всеми вашими страницами выберете все страницы(галочка вверху).

5. Сделайте все ваши страници "Исключить страницы". Они станут с пометкой DEL.

6. Скопируйте все ссылки из созданного текстового файта (пинкт 3) В ПОЛЕ "Введите УРЛы страниц (с новой строки, с http://):" и нажмите кнопку "поставить галочки".

7. Сделайте страницы где стаят галочки "Активными страницами".

8. Удалите страницы со статусом DEL. Делать это предется в ручную. Удобнее будет если список страниц отсортировать по СТАТУСу.

Вообщем все. Кто что может предложить как упрастить этот алгоритм?

fima32
На сайте с 12.01.2006
Offline
132
#1

Делать можно так:

В списке проиндексированных саповским ботом страниц жмете внизу на экспорт всех страниц. Далее сохраняете свой список в .txt формате.

Потом берете вот этот скрипт - /ru/forum/140215

(правда придется установить перл).

Далее чекаете свой список на проиндексированность и список непроиндексированных страниц загоняете в окошко "Введите УРЛы страниц", потом просто удаляете отмеченные галочкой страницы.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий