Как бороться с ошибкой индексации??

K1
На сайте с 12.05.2005
Offline
32
914

Здравствуйте!

есть такая проблема с индексацией правильной:

Сайт - интернет магазин, использующий PhpSessionId методом GET

Естественно, в базе яндекса скопилось море одинаковых страниц.

Моя задача, очистить базу яндекса от дубликатов, то есть от всех

вхождений вида www.magic-flower.ru/rules_order.php?id=000292001115775339

и www.magic-flower.ru/info_lang.php?id=704707001115572138 и т.п.

Соответственно, я запретил в robots.txt индексацию файлов

rules_order.php

info_lang.php

и других, где появлялось ?id=xxxxxxxxxxxxxxx

В итоге, количество проиндексированных страниц снизилось с 16000 до

6. Прогресс, но в базе есть так же вхождения главной страницы

www.magic-flower.ru/index.php?&id=907748001110464866

и www.magic-flower.ru/?id=713474001116134649 (пример тут)

Запрещать к индексации index.php очень не хочется :)

Что делать не совсем ясно.

Есть способ убрать из базы URL www.magic-flower.ru/?id=xxxxxxxxxxxxxxx

и www.magic-flower.ru/index.php?&id=xxxxxxxxxxxxxxx

так, что бы www.magic-flower.ru в ней остался?

Заранее благодарю за помощь.

R
На сайте с 09.06.2005
Offline
90
#1

Ты лучше расскажи как ты по слову "заказ цветов" вытащил на первое место ?

а я пока подумаю как тебе помочь!

D
На сайте с 21.11.2003
Offline
65
#2
Есть способ убрать из базы URL

Просто запретите этот URL в robots и все...

Сайт про Индию (http://bharat.ru).
K1
На сайте с 12.05.2005
Offline
32
#3
Ты лучше расскажи как ты по слову "заказ цветов" вытащил на первое место ?
а я пока подумаю как тебе помочь!

Romsel, просто очень хотелось вытащить. Что может быть приятней чем возиться с цветами? вот я и возился. много и в удовольствие... :)

Dharbari, не хочется мне главную страницу сайта запрещать к индексации.

Можно попробовать провести экспиремент - различает ли в robots.txt яндекс index.htm от index.htm?param=123***

Но что-то мне подсказывает, что не отличает. Хотя... по хорошему должен.

Может кто-то уже проверял?

C
На сайте с 19.09.2001
Offline
120
#4
Есть способ убрать из базы URL www.magic-flower.ru/?id=xxxxxxxxxxxxxxx
и http://www.magic-flower.ru/index.ph...xxxxxxxxxxxxxxx
так, что бы www.magic-flower.ru в ней остался?

Можно попробовать в robots.txt так:

User-agent: *

Disallow: /?id=

Disallow: /index.php?&id=

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
R
На сайте с 09.06.2005
Offline
90
#5

Почему я спросил как ты вытащил цветы? :)

Сам занимаюсь несколькими сайтами по цветам.

А ты не пробовал помочь своему скрипту ?

Знаешь как на порталах организовывают систему SEF Advance, так вот... Формирование псевдостатичных адресов (URL) страниц для их лучшей индексации поисковыми системами. (Пример: Оригинал адреса (было): www.имя_сайта.ru/index.php?page=34345&id=34&abc=null. Стало (с псевдостатичным названием адреса страницы: www.имя_сайта.ru/company

Я считаю не стоит ичего мудрить с роботс.тхт, а проще правильно организовать скрипт.

K
На сайте с 10.03.2004
Offline
254
#6

ki123,

прислушайтесь к совету Cherny, а можно и вот такой роботс:

User-agent: *

Disallow: /?id=

Disallow: /?&id=

тут объем меньше ;)

Белых оптимизаторов, работающих над внешними факторами, не бывает. И да, мой блог (http://blog.skobeeff.ru/).
RK
На сайте с 03.06.2005
Offline
5
R&K
#7

ИМХО

я для своих ресурсов, для страниц там где нужны сессии и уникальные ID (но не требуется их индексация) в скриптах генерю мета с "ноиндекс" для таких страниц - и пока полный порядок, яшка берет только то что нужно и без всяких роботсов

C
На сайте с 19.09.2001
Offline
120
#8
тут объем меньше

Kostya, объем-то меньше, да только вторую ссылку, приведенную в вопросе, так не закроешь.

генерю мета с "ноиндекс" для таких страниц - и пока полный порядок, яшка берет только то что нужно и без всяких роботсов

Робот берет все, что найдет, только потом в базу не включает. Минус управления индексацией с помощью мета роботс -- для того, чтобы прочитать этот мета, робот с сервера документ запросит, а значит получит ответ с кодом 200 и очередь до действительно важных документов может долго идти...

M
На сайте с 12.05.2005
Offline
133
#9
ki123:
Запрещать к индексации index.php очень не хочется :)
Что делать не совсем ясно.

При первом вхождении из вне на страницу index.php поисковик ничего не знает о идентификаторе сессии получает его только после прогулки по сайту. Т.е. можно спокойно запрещать индексирование /index.php?&id=

ki123:
Есть способ убрать из базы URL www.magic-flower.ru/?id=xxxxxxxxxxxxxxx
и www.magic-flower.ru/index.php?&id=xxxxxxxxxxxxxxx
так, что бы www.magic-flower.ru в ней остался?

Сомневаюсь

Общее решение вопроса - Использовать клоакинг в легальной версии, т.е. не инициировать сессию если пришел поисковик.

Самое интиресное, что большинство поисковиков корректно склеивают страницы с разными идентификаторами сессий, т.е. спокойно делают вид, что принимают куки... этим отличаются google и Рамблер, про остальных не знаю.

K
На сайте с 10.03.2004
Offline
254
#10
Kostya, объем-то меньше, да только вторую ссылку, приведенную в вопросе, так не закроешь.

верно, спасибо за правку, только что попробовал, я ошибся.

в роботсе не возможно закрыть раздел, если мы не указываем запрещение с первого символа раздела

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий