Спарсить адреса своего сайта из индекса Гугла - нервный срыв!

AM
На сайте с 13.03.2013
Offline
20
646

Ребята, помогите плс спарсить все адреса сайта, которые есть в гугле.

У меня есть сайт на котором 105 стр. из них Джумла мне замутила ок 3000!!!. С помощью плясок с бубном (склеиванием дублей в хта, изменением ссылок страниц) мне удалось победить большинство, но осталось еще ок. 200 дублей в индексе. и они там болтаются ч. знает сколько. Пытаюсь до всего дойти сам но сейчас уже не осилю.

Я поменял показы гугла по 100 результатов на странице, потом смотрю исходник и из него вытягиваю все адреса, отфильтровываю нужные и так мне удается поймать 1-3 в день, но это же маразм. Гугл показывает 100 +10..15 страниц и все. хотя пишет что найдено 319 страниц. Уже пару месяцев никакого эффекта от моей работы нет.

не могу найти программу, рабочий скрипт, которые мне в этом помогут - начинаю нервно курить :smoke:.

Если кто может, протяните руку помощи плс. :beer:

site:nsgroup<@>info

SM
На сайте с 07.06.2012
Offline
30
#1
AndreyMakarow:
Ребята, помогите плс спарсить все адреса сайта, которые есть в гугле.
У меня есть сайт на котором 105 стр. из них Джумла мне замутила ок 3000!!!. С помощью плясок с бубном (склеиванием дублей в хта, изменением ссылок страниц) мне удалось победить большинство, но осталось еще ок. 200 дублей в индексе. и они там болтаются ч. знает сколько. Пытаюсь до всего дойти сам но сейчас уже не осилю.
Я поменял показы гугла по 100 результатов на странице, потом смотрю исходник и из него вытягиваю все адреса, отфильтровываю нужные и так мне удается поймать 1-3 в день, но это же маразм. Гугл показывает 100 +10..15 страниц и все. хотя пишет что найдено 319 страниц. Уже пару месяцев никакого эффекта от моей работы нет.
не могу найти программу, рабочий скрипт, которые мне в этом помогут - начинаю нервно курить 🚬.
Если кто может, протяните руку помощи плс. 🍻
site:nsgroup<@>info

Ручной способ поиска дублей - рутина конечно...

Проще всего добавить сайт в WMT и он, если будет находить дубли, будет их медленно и нудно переодически доставать и показывать...

По мере поступления, удалять нафик... Как?

301 - если нужно сохранить и передать вес старницы и/или на нее были внешние

302 - если есть внешние ссылки с трафиком, и/или не хотите склейки

410 - сообщить гуглу что страницы больше нет (лучше, чем 404, потому что 404 ошибку по ней гугл будет "вспоминать" месяцами)

или, внутри страницы ставить мета-noindex, что заставит робот убить ее везде...

301 в последнее время начал глючить... лучше применять остальные методы, по возможности... глюк в следующем - у меня, например, страницы, которые вроде все под 301, в индексе гугла, а нормальные, нет... может явление временное и пройдет, но у меня уже 2 недели не отпускает

Если есть прокешированные страницы, а на сайте их давно нет, то в том же WMT есть удаление страниц... Указываете какую и убиваете из индекса и из кеша этого паразита...

Прокешированные дубли проверяются так, команда в гугле site:ссылка_проверяемой_страницы

В выдаче будут кроме нее дубли... их и убивайте

1-3 месяца и победите всех, если будете все верно делать :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий