Прочитал тему и тут же увидел, что http://radikal.ru/ себе поставили этот бобук. Интересно, а их как развели?
Но не нужно. Вы не в Роспотребнадзоре работаете?
Некоторые сетки агрегаторов определяет, а в основном они всё равно сапу покупают. Советую вот этим воспользоваться http://www.recipdonor.com/rds-api
С редиректом или без? Если по этой ссылке страница отдает 200, то неважно, какая открывается. Ну и в принципе, главная по таким открываться не должна, должна открываться 404я
Сомнительно. Но даже если поможет, то склеиваться домены будут очень долго, а после склейки придётся ждать АП ТИЦа.
Это странно, если страницы проиндексированы. Такое может быть, если ссылки мигнули (вы счет пополнять не забывали), или глюк с сохранёнкой яндекса, у него бывает, но вы пишете, что в гугле та же история.
Для парсинга гугла ********и мало, если много запросов, то нужны прокси
Согласен, достоверно не посмотреть, поэтому я положился на теорию вероятности - ядро большое, поэтому скорее всего встретятся такие страницы в индексе.
Но по-хорошему - нужно сразу настраивать редиректы на нужную версию для каждого проекта.
Я снял топ 300 через XML по "%продвигаемый запрос"% site:%продвигаемый сайт%", а потом пробежался поиском. В принципе, если так https не нашелся, то я думаю, что никак не найдётся
По поводу автоматизации - у меня самописный скрипт снимает позиции и релевантные при каждом скане, настроил оповещение на https. Если снимаете через сервис или программу - пишите разработчикам, чтобы добавили такую фичу
1. Есть и реально, это 2-3 месяца - среднее время выхода
2. Если много естественных бэков - некоторые можно оставить, можно попробовать просто снимать не все, а частями, а потом ждать их переиндексации, но выход может затянуться.
3. Выгружайте ссылки из ВМ и смотрите их