- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте!
есть такая проблема с индексацией правильной:
Сайт - интернет магазин, использующий PhpSessionId методом GET
Естественно, в базе яндекса скопилось море одинаковых страниц.
Моя задача, очистить базу яндекса от дубликатов, то есть от всех
вхождений вида www.magic-flower.ru/rules_order.php?id=000292001115775339
и www.magic-flower.ru/info_lang.php?id=704707001115572138 и т.п.
Соответственно, я запретил в robots.txt индексацию файлов
rules_order.php
info_lang.php
и других, где появлялось ?id=xxxxxxxxxxxxxxx
В итоге, количество проиндексированных страниц снизилось с 16000 до
6. Прогресс, но в базе есть так же вхождения главной страницы
www.magic-flower.ru/index.php?&id=907748001110464866
и www.magic-flower.ru/?id=713474001116134649 (пример тут)
Запрещать к индексации index.php очень не хочется :)
Что делать не совсем ясно.
Есть способ убрать из базы URL www.magic-flower.ru/?id=xxxxxxxxxxxxxxx
и www.magic-flower.ru/index.php?&id=xxxxxxxxxxxxxxx
так, что бы www.magic-flower.ru в ней остался?
Заранее благодарю за помощь.
Ты лучше расскажи как ты по слову "заказ цветов" вытащил на первое место ?
а я пока подумаю как тебе помочь!
Просто запретите этот URL в robots и все...
а я пока подумаю как тебе помочь!
Romsel, просто очень хотелось вытащить. Что может быть приятней чем возиться с цветами? вот я и возился. много и в удовольствие... :)
Dharbari, не хочется мне главную страницу сайта запрещать к индексации.
Можно попробовать провести экспиремент - различает ли в robots.txt яндекс index.htm от index.htm?param=123***
Но что-то мне подсказывает, что не отличает. Хотя... по хорошему должен.
Может кто-то уже проверял?
и http://www.magic-flower.ru/index.ph...xxxxxxxxxxxxxxx
так, что бы www.magic-flower.ru в ней остался?
Можно попробовать в robots.txt так:
User-agent: *
Disallow: /?id=
Disallow: /index.php?&id=
Почему я спросил как ты вытащил цветы? :)
Сам занимаюсь несколькими сайтами по цветам.
А ты не пробовал помочь своему скрипту ?
Знаешь как на порталах организовывают систему SEF Advance, так вот... Формирование псевдостатичных адресов (URL) страниц для их лучшей индексации поисковыми системами. (Пример: Оригинал адреса (было): www.имя_сайта.ru/index.php?page=34345&id=34&abc=null. Стало (с псевдостатичным названием адреса страницы: www.имя_сайта.ru/company
Я считаю не стоит ичего мудрить с роботс.тхт, а проще правильно организовать скрипт.
ki123,
прислушайтесь к совету Cherny, а можно и вот такой роботс:
User-agent: *
Disallow: /?id=
Disallow: /?&id=
тут объем меньше ;)
ИМХО
я для своих ресурсов, для страниц там где нужны сессии и уникальные ID (но не требуется их индексация) в скриптах генерю мета с "ноиндекс" для таких страниц - и пока полный порядок, яшка берет только то что нужно и без всяких роботсов
Kostya, объем-то меньше, да только вторую ссылку, приведенную в вопросе, так не закроешь.
Робот берет все, что найдет, только потом в базу не включает. Минус управления индексацией с помощью мета роботс -- для того, чтобы прочитать этот мета, робот с сервера документ запросит, а значит получит ответ с кодом 200 и очередь до действительно важных документов может долго идти...
Запрещать к индексации index.php очень не хочется :)
Что делать не совсем ясно.
При первом вхождении из вне на страницу index.php поисковик ничего не знает о идентификаторе сессии получает его только после прогулки по сайту. Т.е. можно спокойно запрещать индексирование /index.php?&id=
Есть способ убрать из базы URL www.magic-flower.ru/?id=xxxxxxxxxxxxxxx
и www.magic-flower.ru/index.php?&id=xxxxxxxxxxxxxxx
так, что бы www.magic-flower.ru в ней остался?
Сомневаюсь
Общее решение вопроса - Использовать клоакинг в легальной версии, т.е. не инициировать сессию если пришел поисковик.
Самое интиресное, что большинство поисковиков корректно склеивают страницы с разными идентификаторами сессий, т.е. спокойно делают вид, что принимают куки... этим отличаются google и Рамблер, про остальных не знаю.
верно, спасибо за правку, только что попробовал, я ошибся.
в роботсе не возможно закрыть раздел, если мы не указываем запрещение с первого символа раздела