- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
и SID каждый раз один и тот же был?
Жень, ситуация была примерно такая. На сайте было около 2000 дублей с SIDами. С того момента как скрипт начал выдавать 404 и до исключения этих страниц из индекса прошло не меньше месяца. На протяжении этого месяца бот регулярно заходил 1-2 раза в неделю. Было это еще в те времена, когда был лимит на индексацию 500. Каждый раз бот брал 500 страниц с "200 ок" и 500 и более страниц с 404, которые в лимит соответственно не входили.Естественно я все урлы не сравнивал, сравнивать SIDы скучное занятие :) , но общее кол-во съеденных страниц с 404 горащдо больше 2000, отсюда и вывод о том, что эти страницы были съедены неоднократно.
Думаю весьма логично удалять страницы не сразу, после первого же 404 отклика, а проверять еще как миниму раз. Мало ли что могло отвалиться. А что тебя в этой ситуации смущает?
Да просто всегда думал, что робот получая 404 сразу даёт команду на удаление. Вот и пытаюсь разобраться, может не прав был... пока что мнение не изменил :)
Откуда известно?
Как-то удалял страницы с идентификаторами, запрещая их в robots.txt К тому моменту идентификаторы уже не выдавались, страниц таких было мало. И получилось очень интересно - только из индекса пропадёт запрещенная страница, как на её месте появляется другая, с другим идентификатором. Я это к тому, что страницы эти имеют минимальные отличия, если вообще имеют, потому они могут склеиваться и их число могло оказаться гораздо большим.
Хотя и не так важно их число, ведь правильно сказал, 404-е в лимит робота не входят.
Я логику Яндекса всегда понимал как "поменьше телодвижений" - нет страницы и ладно, удаляем, трафик на повторную проверку тратить не очень-то нужно :)
Может ты и прав. Основной довод - страницы робот ел, апдейты были, а общее количество страниц в течении месяца не уменьшалось. Новые страницы в это время не добавлялись, следователь старые не удалялись.
Хотя мысль со склейкой дублей мне в голову не приходила. Может быть одни дубли удалялись, а на их место вставали зеркала. Возможно дело в этом.
Сколько раз робот заходил на сайт в период времени, когда сайт был с сессиями - столько и есть в базе копий страниц, но только с разными SID. И если в Яндексе просить показать какие страницы проиндексированы, то он показывает не все страницы с SID, а только с каким-то одним определённым SID (почему так не знаю, но проверено на собственном горьком опыте - удалял постранично через их веб-интерфейс и потом после, как я понял, слияния баз появлялись страницы с новым SID).
Но потом был ещё новый фортель. Я уже обрадовался что всё вычистил, но видно у Я слетела база и они восстанавливались из бэкапа(тоже лишь предположение) и опять появились страницы с уже бывшим когда-то SID.
Так что не торопитесь убирать проверку на наличие SID в урле.
BooBooKING, неверно - в базе одна страница с сидом - та что была при заходе робота. У меня их сечас штук 500 - и все с одним сидом.
А верно как раз таки то, что удаляет не сразу.
Мы сейчас сделали проверку на наличие SID'а и выдачу хидера 404, как @uthor делал.
Посмотрим что будет в течении ближайших дней, но чувствую я - месяц точно ждать придется.
Хотя уже месяц ждали, убрав идентефикацию, а в базе все теже страницы что и были - с сидами. И роботс не помог.
Я не точно выразился - поясняю:
Сейчас тебе показаны страницы с одним SID. Все страницы с одинаковым SID. Это соответствует одному заходу робота. Если ты эти страницы вычистишь (я для ускорения постранично удалял а не ждал следующего прихода робота - правда у меня не 500 страниц было а порядка 30). _НО_ потом появились страницы с другим SID (сайт естественно уже был без сессий), которые не показывались раньше, и соответсвующие другому заходу робота на старый движок когда ещё было с сессиями(то что это был старый заход робота я определял по title и дате документа).
Короче, не все страницы с разными SID показываются а только с одним.
Возможно это был мой уникальный случай (тогда Я сильно штормило, возможно, это лишь наложилось несколько обстоятельств), но я лишь делюсь своим опытом.
Через robots.txt не пробовал отлавливать SID а вот через mod_rewrite ловить и программно выдавать header - проверенный метод.
Ок, теперь проверим на моем сайте, о результатах буду писать.
Сегодня закину через форму удаления с десяток страниц на пробу. 404 уже выдает.
Ну и вопрос по существу тем кто сталкивался - насколько сид в урле влияет на позиции страниц в выдаче?
Ceres,
насколько - никто не скажет, но однозначно плохо.
дело в том, что одна и та же страница с разными сидами для поисковика есть разные страницы, соответсвенно наблюдается дублирование контента на многих страницах, что не поощряется. При этом и вес страницы очень мал, т.к. имя у нее всегда уникальное - за счет сида.
Не знаю, как у вас - но у меня это страница, которая присутствует в выдаче именно с сидом, а без сида не присутствует.
Сейчас я как раз занимаюсь тем, чтобы свои 500 страниц с сидом так сказать конвертировать в страницы без сида.
После вчерашнего ночного удаления полсотни страниц вручную, при том что заголовок выдает 404, одну единственную слава богу Яндекс удалил - взамен ее теперь страница без сида всплыла, и взлетела сразу на 15 позиций вверх.
Вот и получается насколько сид в урле отрицательно влияет на позиции в серпе.
Жду теперь когда с остальными произойдет такое же чудесное перевоплощение. :)