Я вижу возможность проверки на непот в первом приближении так:
1. Проиндексирована ссылка? Найден ли Реципиент «по ссылке»?
Посылаем текст ссылки в кавычках (исключая спецсимволы). Ищем Донора. Ищем Реципиента. Если не находим одного из них – останавливаем проверку. Проверяем, является ли найденный текст на доноре ссылкой (парсим сохраненную копию). Если все ок - п.2.
2. Есть ли дубли?
Получаем список всех сайтов, посылая текст ссылки в кавычках. По сохраненным копиям смотрим, куда ведут ссылки. Если ни одной, кроме донора не ведет на реципиент – ссылка уникальна. При первом нахождении урла реципиента останавливаем проверку (ссылка не уникальна).
Будет работать если анкоры ссылок не встречаются часто в рунете (т.к. парсить 5 558 сайтов, найденных по запросу кондиционер (http://www.yandex.ru/yandsearch?text=%EA%EE%ED%E4%E8%F6%E8%EE%ED%E5%F0)– невесело)
Вы просто находите странице на которых встречается адрес сайта www.kashirin.ru. Запрос не найдет ссылку <a href="http://www.kashirin.ru/">Каширин</a>
Смотря какой анкор ссылки. Если анкор - "кондиционер" - проверка на уникальность - основная проблема.
Добавили возможность просмотра ранее проверенных сайтов. Задаете список урл, и нажимаете выполнить.
Если какие-либо урлы проверялись, системой будет предложена возможность их перепроверки ранее выполненных проверок.
В принципе и так можно посмотреть на этот вопрос... Согласен. Что меня смущает здесь - довольно часто в Я криво сохраняются копии страниц. Можно реализовать проверку по сохраненным копиям как опцию.
У меня сервис выдал вот что:
донор *****.ru
ссылок 8
идексировано 4
уникальных анкоров 3
найдено по ссылке 3
работают 3
не работают 0
проверить не удалось 5
Кинте урл в личку
Сервис покажет, что работоспособность ссылки проверить не удалось, т.к. она не проиндексирована, а не то что она нерабочая...
А что в этом плохого? Все равно результаты индексации ссылок через Яндекс смотрятся, если блок закрыт от индексации, то и при проверке они покажутся как не проиндексированные.
Сервис просто показывает, что они не проиндексированы Я. Он же не ставит им "-", что означает что они не работают, а ставит "?" - проверить не удалось.
Вы считаете надо их вообще фильтровать при проверке?