Еще существует проблема удаления ссылок, со страниц, которые выпали из Яндекса.
Т.е. если страница выпала, то проверка покажет, что ее нет в индексе и удалит ссылку, но таким образом можно удалить и хорошие страницы, которые вернутся в следующий апдейт.
Поэтому алгоритм можно доработать таким образом:
Сначала программа проверяет:
1)индексацию страниц в Гугле
2)индексацию страниц в Яндексе
3)доступность страницы со ссылкой
4)доступность ссылки на странице
5)тег noindex
6)атрибут nofollow
7)robots.txt
8)Meta robots noindex, nofollow
Далее прога выбирает ссылки, которые нужно удалять:
Ссылку нужно удалять если:
1)Ее нет ни в Гугле ни в Яндексе (если хоть где-то есть, удалять не нужно)
and
2)Страница доступна, но ссылка не найдена на странице (если страница не доступна, то удалять не надо -вдруг просто сервер временно не доступен)
4) noindex, nofollow, robots.txt, Meta robots noindex, nofollow - что-то из этого найдено
Для каждой ссылки можно сделать массив с историей, который допустим сохраняет 3 последние проверки. Если три раза ссылка находится только в Гугле, значит Яндекс ее забанил и ссылку можно удалять (при условии, что ссылка проверяется не чаще раза в неделю). (или дать возможность выбирать пользователю, удалять или не удалять такие ссылки)
Если три раза страница не доступна, значит ссылку тоже можно удалять.
Ну и конечно нужно дать возможность использовать прокси, иначе больше 1000-2000 ссылок в день проверить вряд ли получится.
И совсем айс, если в прогамме уже будет список бесплатных прокси и перед каждой проверкой, прога будет обходить прокси проверять их работоспособность, неработспособные прокси будут исключаться из проверки.
С такими функциями и без серьезных глюков я бы купил прогу прямо сейчас:D
Не совсем понял смысл вот этих строк. Если можно, напишите более развернуто, что вы имели ввиду.
NRozina
Спасибо большое за ответ!
Именно такая информация мне нужна.
Специально значит, специально разрабабатывать схему перелинковки: какая страница, куда и как ссылаться будет.
Неспециально: есть у Вас 10 статей на сайте и Вы решили в каждой статье для удобства пользователя ссылки поставить на другие страницы своего сайта, при этом специально Вы не рассчитвали структуру переликовки, количество ссылок на странице и т.д.
мануалы я видел, мне интересен опыт: т.е. какой мануал Вам больше всего нравится? Может быть у вас свой мануал?
В Яндекс.каталог добавиться можно. Вот ссылка: http://advertising.yandex.ru/catalog.xml
В выдачу можно добавиться Директом: http://direct.yandex.ru/
Но это, конечно, не индекс.
И вот ссылка на advertising.yandex.ru - все варианты "платного" размещения на Яндексе.
Нет. Насколько мне известно, домены третьего уровня при подсчете тИЦ не учавствуют, если они расположены на бесплатных хостингах:
Яндекс: "Также при подсчете CY не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, в случае если они не описаны в Яндекс.Каталоге"
Это не новость. Новости уже не первый день в выдаче выводятся.
Не совсем корректный, может быть, вопрос, но все же:
Пароли и логины не ворует? (Вопрос в первую очередь для тех, кто тестирует)
И еще:
Каким образом программа проверяет наличие ссылок?
Проверяет ли она на наличие запрещающих тегов noindex, атрибутов nofollow, robots.txt?
Опишите, если можно, поподробней алгоритм проверки.
Есть ли возможность использовать прокси?
Но вроде яндекс запретил пользоваться анонимными прокси:
http://help.yandex.ru/mail/?id=409485
Открытыми прокси пользоваться невозможно - тормозят сильно.
Может Вы посоветуете сервис?
Спасибо за ответы.
Если скрипт с сервера хостера запускается, то получается, что хостер ни за что пострадает? Хостеры не борятся со слишком активными скриптами? Как клиент и хостер разбираются между собой, если вдруг на IP хостера по вине клиента накладывается бан?