Как автоматизировать поиск дублей

T0
На сайте с 10.06.2010
Offline
93
572

Всем здравствуйте!

Есть сайт с несколькими миллионами страниц в индексе. Задача – автоматом найти и удалить дубли страниц, которые не в индексе, и их довольно много (контент генерится пользователями). Сайт в топах по ВЧ, и есть подозрение, что релевантные урлы в Яндексе и Гугле не всегда совпадают.

Может, кто сталкивался с подобным? Как автоматизировать поиск дублей, которые не в индексе Я или Г?

Sergh545
На сайте с 24.02.2011
Offline
124
#1

На каком движке сайт или самопис?

Оплата зарубежных сервисов, виртуальные бурж карты, получение и отправка SWIFT переводов. ( https://capitalist.net/reg?from=4e4c64388f )
T0
На сайте с 10.06.2010
Offline
93
#2

Сайт -- самопис

S
На сайте с 09.06.2011
Offline
36
#3

вебмастер гугл сам найдет

T0
На сайте с 10.06.2010
Offline
93
#4

Тут вопрос малость в другом. Поскольку страниц очень много, отбирать их руками – дело неблагодарное.

Хочется понять, какой алгоритм можно использовать для создания скрипта-чистильщика. Чтобы пакетно определял дубли не в индексе обоих поисковиков и удалял их.

H4
На сайте с 19.07.2015
Offline
18
#5
tr00ba:
Тут вопрос малость в другом. Поскольку страниц очень много, отбирать их руками – дело неблагодарное.

Хочется понять, какой алгоритм можно использовать для создания скрипта-чистильщика. Чтобы пакетно определял дубли не в индексе обоих поисковиков и удалял их.

Врят ли такая есть, у меня на битриксе есть но не удобная довольно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий