Попробуйте сдалать заявку на удаление страницы вида - любые символы - Google

Чуть не удалил свой сайт из индекса :) Будьте осторожны!

Z-Style · 2010-12-05T11:06:19.0000000Z

В очередной раз решил поудалять из индекса страницы, отдающие 404, зашел в WMT поделал заявки на удаление страниц, и не знаю даже почему, наверное силы свыше приказали мне пересмотреть на что я подал заявку. Одна из страниц была вот такая: имя.com/?cat=60 и я на автомате удаляя страницы не обратил внимание, что WMT определил эту страницу как сайт , то есть, получается что я дал заявку на удаление всего сайта :D Так что будьте бдительны, удаляя страницы через WMT. Кстати, недавно понадобилось удалить сайт из поиска, подал заявку через WMT - на следующий день сайта в поиске уже небыло. Да сих пор не могу понять от куда бот находит ссылки на такие страницы как /?cat=60 и /?cat=-1 в моем любимом WP, по всей видимости виноваты плагины. В общем, закрываю в robots.txt эти несуразные проявления.

185

Z-Style

6 декабря 2010, 22:57

#11

mr_baraban:
А в чем смысл удаления несуществующих страниц?
Ведь если страница отдает 404-ю ошибку, гугл сам через некоторое время должен ее выкинуть из базы. Разве не так?

Он может и не выкинуть такую несуществующую страницу, если его бот определяет что на нее есть ссылки.

Как раз такая ситуация с /?cat=60 или /?cat=-1

ЧПУ включены, но бот почему то нашел что несколько страниц на них ссылаются, где /?cat=60 это, как правильно подметил SeoNizator, рубрика с ID=60,

а вот что такое /?cat=-1 это я не знаю, и могу лишь предполагать что это глюк WP, скорей всего благодаря какому нибудь плагину. Но вот где

бот нашел эти ссылки я без понятия. Страницы которые указаны в WMT как ссылающиеся, в своем коде таких ссылок не содержат, и кстати,

не содержат ссылки на категории вообще.

Z-Style добавил 07.12.2010 в 02:08

semenov:
Страницу как сайт - это как?

попробуйте в WMT сдалать заявку на удаление страницы вида /?*

где "*" - любые символы

Z-Style добавил 07.12.2010 в 02:12

seo_optimist:
спасибо за совет, но мне кажется, при подобном использовании robots.txt вы не совсем рационально используете ваши внутренние seo ресурсы, то что закрыто роботом все потеряно, лучше использовать другой метод

Кстати, не совсем понял, какой другой метод? Если вы имеете в виду мета тег noindex, то он конечно прописан на 404 странице.

Z-Style добавил 07.12.2010 в 02:16

А теперь чуточку ясности:

Никаких дублей нет, этих страниц в индексе нет, они присутствуют только в ошибках сканирования в WMT. И хоть я их "удаляю" через тот же WMT, понимаю что нужно не пытаться их удалить а удалить то их породило, что в свою очередь найти не могу и не понимаю откуда взялось :)

ЗЫ: не хотел я разводить демагогию на счет этих ошибок, хотел только предупредить о том что по невнимательности можно удалить свой сайт их индекса.

Google: когда можно удалять В Google WMT станет Почему страницы сайта выпадают

144

Concurent

6 декабря 2010, 23:24

#12

seo_optimist:
лучше использовать другой метод

что вы имеете ввиду?

сохранить мульён страниц, выводя вместо дубль контента что-то другое вроде карты сайта7 тс вас не понял, скажите прямо

С уважением, Павел

135

Бабайка

6 декабря 2010, 23:41

#13

SeoNizator:
Дубли страниц, контента.

а каким образом контент дублируется? одни и теже статьи постите по 20 раз? ну так в кэше все равно все сохраняется, уж если проиндексировалось.. а если удалили дубль вручную через ВП - то и из кэша страница постепенно выйдет.. разве не так?

17

SDee

7 декабря 2010, 06:02

#14

Бабайка:
а каким образом контент дублируется? одни и теже статьи постите по 20 раз?

Для особо одаренных:

Контент дублируется за счет создания несуществующих страниц, генерируемых движком и так или иначе попадающих в индекс. Страница одна, а адресов у нее несколько, например, за счет тех же сессий, яркий пример форумы. Там может на одну страницу вести 10 адресов. Для ПС каждый адрес - это отдельная страница, но контент одинаковый.

По теме:

Как пишет Гугл, достаточно запретить страницы в робот.тхт и они постепенно отвалятся, но для ускорения естественно лучше подать заявку на удаление из кэша. Я как-то сдуру поставил рейтинг, так он столько урлов-дублей понакидал в кэш, что жуть берет. 200 страниц сайта + рейтинг вкинул порядка 1500 еще дублей)) После отключения в кеше все это висело ещё порядка года, хоть в роботе и запрещено было. Ручками заявки подавал, вроде отвалилось постепенно все.

Как прекрасно жить в обрыдлом, населенном всяким быдлом, тихом белом городке...

Внутренние дубли страниц чем О чем нужно помнить 10 критических ошибок SEO

M

111

Maxoud

7 декабря 2010, 06:53

#15

SDee:
Для особо одаренных:
Контент дублируется за счет создания несуществующих страниц

Ясно кто одарен.

Z-Style:
Если вы имеете в виду мета тег noindex, то он конечно прописан на 404 странице.

Если сервер отдает статус 404, то Google плевать хотел на метатэги и на любое содержание страницы. Такой страницы для него не существует. Другое дело — внутренние ссылки, ведущие на такие страницы. Такие ссылки вредят.

Z-Style:
Он может и не выкинуть такую несуществующую страницу, если его бот определяет что на нее есть ссылки.
Как раз такая ситуация с /?cat=60 или /?cat=-1

Он должен выкинуть без вариантов. Если не выкидывает, значит сервер отдает статус 200. Качайте Live HTTP Headers и проверяйте.

Бесплатное хранилище данных (http://bit.ly/gJYy9Z) (5GB) с синхронизацией. По ссылке — бонус 500MB.

Google сканирует ссылки только В Яндекс Вебмастере появился Мэтт Каттс о том,

108

seo_optimist

7 декабря 2010, 07:53

#16

Z-Style:

Кстати, не совсем понял, какой другой метод? Если вы имеете в виду мета тег noindex, то он конечно прописан на 404 странице.

Z-Style добавил 07.12.2010 в 02:16
А теперь чуточку ясности:

Никаких дублей нет, этих страниц в индексе нет, они присутствуют только в ошибках сканирования в WMT. И хоть я их "удаляю" через тот же WMT, понимаю что нужно не пытаться их удалить а удалить то их породило, что в свою очередь найти не могу и не понимаю откуда взялось :)

а говорите ничего не поняли ) Нужно продолжать искать дальше, потому как лишние ссылки вредят внутренней оптимизации, и если они продолжат появляться "ниоткуда", это может означать присутствие внешних ссылок на эти страницы. Если это так, то исключить ошибку 404 и поставить тег noindex,follow или

если при этом если страница дублирует контент, то для этого у гугла есть инструмент: НУЖНО на этой странице ставить тег link rel="canonical" или редирект на главную

robots.txt - файл, от использования которого, в этом случае, следует отказаться полностью, потому как запрещенная к индексации зона является той черной дырой, куда без эффекта сливается ваш рейтинг. Кроме того робот при сканировании не увидит за ней ни 404 страницы, ни дубля, ни... Ошибка по мнению гугла не перестанет существовать!

Для того что бы избежать таких зон ставьте скриптовые ссылки или ссылки с использованием формы post. В случае, если они появляются "случайно" нужно продолжать искать причину, как только нашли внутреннюю причину то устраняем ее и ставим на эти страницы ошибку 404, гугл исключит их сам, без удаления!

SeoNizator:

Я выше по русски вроде написал.. (ключевое слово - дубли)

я вам так же по русски написал что действительно нужно, а в вашем случае это не нужно а "желательно хотя бы" , но не более.

Maxoud:

...Если сервер отдает статус 404, то Google плевать хотел на метатэги и на любое содержание страницы. Такой страницы для него не существует. Другое дело — внутренние ссылки, ведущие на такие страницы. Такие ссылки вредят...

+1000000

Concurent:

что вы имеете ввиду?
сохранить мульён страниц, выводя вместо дубль контента что-то другое вроде карты сайта7 тс вас не понял, скажите прямо

более прямо сказать и не мог )

можете внести в какой нибудь faq у меня нет своего сео блога )

зы очень редко отвечаю на вопросы, но их тут накопилось уж очень много...

Почему страницы сайта выпадают Google рассказал о том, 16 частых ошибок в

[Удален]

7 декабря 2010, 14:01

#17

Бабайка:
а каким образом контент дублируется? одни и теже статьи постите по 20 раз? ну так в кэше все равно все сохраняется, уж если проиндексировалось.. а если удалили дубль вручную через ВП - то и из кэша страница постепенно выйдет.. разве не так?

Не так. SDee, в принципе объяснил, что к чему, но возможно не понятно для плохо знающих CMS.

Многие CMS (и ВП и Джумла и др) обладают таким свойством, что к одной и той же странице можно обратится по разным урлам. (site.ru/page/,site.ru/page, site.ru/page.php, site.ru/?page=1 site.ru/index.php?page=1&art=34 может указывать на одну страницу)

Кроме того, станицы категорий, архивов, календари и тп содержат контент страниц (а это ведь другие страницы).

seo_optimist:
а в вашем случае это не нужно а "желательно хотя бы" , но не более.

Ок. Соглашусь. (я как-то забыл, что некоторым ГС-строителям нужно именно кол-во страниц в индексе, а не реальное кол-во страниц сайта :) )

Z-Style:
а вот что такое /?cat=-1 это я не знаю, и могу лишь предполагать что это глюк WP, скорей всего благодаря какому нибудь плагину. Но вот где бот нашел эти ссылки я без понятия.

Первым делом нужно взять КСЕНУ и прочекать сайт.

Вторым обратить внимание на ссылающиеся страницы. Особенно если это профили или комменты - не исключен взлом ВП. Потому третье - зайти по подозрительным урлам с ИП страны для которой проставлены беки (те если на русском - значит с российских ИП).

Я бы еще посмотрел в базу ВП. Лишние юзеры, лишние категории, посты и тд. Именно в базу, а не в админку ВП. И проверил бы хтакцесс.

Вышел перевод обновленного Руководства СДЛ 2.0 Как отличить Яндекс о проблемах ранжирования

FI

2

FoxyIam

9 декабря 2010, 15:40

#18

Хах, ну надо же! У меня недавно была совершенно сходная ситуация, когда через WMT страницы удаляла..))

F8

79

fanat85

9 декабря 2010, 17:46

#19

народ , я случайно полоторы недели назад удалил один раздел , как его вернут ь в индекс ? ( за полторы недели ничего не проиндексировалось )

M

111

Maxoud

9 декабря 2010, 18:00

#20

Ждать теперь несколько месяцев или менять все URL.

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Чуть не удалил свой сайт из индекса :) Будьте осторожны!