ХорошийЧеловек

Рейтинг
26
Регистрация
27.06.2014
Armagedonik:
Это страница с оценками рейтинга материала.
На них ссылки с огромного количества страниц.

На них просто так невозможно ссылки снять. Надо огромный кусок сайта переделывать. Можно, конечно, на все ссылки на эти страницы тег nofollow ставить, но не борьба ли это с ветряными мельницами? Так можно совсем весь сайт закрыть.
Или все же стоит напрячься и поставить тег?

Скажу так, по опыту, хоть в роботс, хоть в nofollow, гугл бот все равно будет щарахаться по Вашему сайту и качасть страницы.

Для меня стало откровение, что на уже проиндексированные страницы, если поставить noindex, то они удаляются из индекса.

Так вот, как я полагаю, если не будет 404 и будут ссылки на этот мусор, на них все равно будет ходить бот, скачивать, но в индекс не будет засовывать.

Если ему будет 404 возвращаться, то он должен удалить из индекса. Хотя я видел случаи, когда весь сайт удалялялся, но в индексе сидело все.

Лично я бы 404 сделал со страницей "Упс, нет ничего".

А так, даже если удалятся страницы 150 000 штук, то бот будет ходить по ним - запрещай, не запрещай.

Кстати, Яндекс бот тоже самое делает.

Вы предположили, что получили фильтр из-за мусора (по факту мы имеем 150 000 дублей страниц).

Ваша задача, согласно этому предположению, убрать их из индекса и сделать так, чтобы потом по ним не шарахался робот. Кроме как 404 убить двух зайцев других способов в 5 утра мне в голову не приходят.

Armagedonik:
Да это очень тяжело. Мы метатег прописали
<meta name='robots' content='noindex' />

Думаю этого достаточно должно быть.
И заметно, что часть этих страниц за месяц уже вылетела у Гугла из индекса.

И 150К страниц с 404 ошибкой, как мне кажется, не очень хорошо.

Вот это действительно странно :) Должно быть наоборот.

Если 90% вылетит из индекса и больше не войдет в индекс - напишите мне в личку (если потом вспомните).

Буду считать это экспериментом.

А вообще, даже если эти страницы уйдут из индекса таким образом, то робот все равно будет дальше к ним обращаться для выкачки (как показывает практика)

У Вас на них ссылки еще есть где-нибудь? Закрытие в метатегах и роботсе не дает гарантии что это страница не будет выкачиваться. Т.е. бот ее и дальше может выкачивать, только не размешать в индексе.

Вам нужно чтобы просто так 150 000 страниц постоянно сканировались?

404-ая даст боту знать, что ее больше нет.

Armagedonik:

Но вот было где-то 150к страниц без текстов. Закрыли. Может за это нас...

Очень возможно. Они это называют: “thin” or poor content

---------- Добавлено 27.09.2014 в 01:52 ----------

Armagedonik:
Для нас это невозможно. У нас только текстовых и медийных материалов около 100 000 страниц. За 8 лет наработали. Все уникальны, все в индексе. Ранжируются высоко. А если взять фотографии и картинки, то под 1 млн. в индексе.
Даже специально карту сайта сделали и закинули в Гугл страницы с текстами. 99% этих материалов проиндексированы. Авторство за нами.
Но вот было где-то 150к страниц без текстов. Закрыли. Может за это нас...

А Вы можете сделать так, чтобы когда бот будет обращаться к этим 150к страницам, чтобы вэб-сервер отдавал 404 ошибку и страницу "Ой, не найдено"?

Попробуйте как минимум это сделать/

Alex2015:
хорошо, пусть это подкаталоги , их добавление как отдельных сайтов "в инструментах вебмастеров" указаны рекомендациях гугла, для настройки геотаргетинга. вопрос был о sitemap-ах и основном домене , а не о терминологии сайт, каталог

сайтмэп и прочее Вы сможете сделать для каждого сайта отдельно

site.net/sitemap.xml <- основной домен

ru.site.net/sitemap.xml <- на россию

en.site.net/sitemap.xml <- пусть будет англий

fr.site.net/sitemap.xml <- на францию

Armagedonik:

Я бы понял Гугл с его апдейтом, но на наши места в поиске пришло откровенное ГС, с ключами, которые просто впиханы многократно в текст. Там даже осмысление нет. Через каждые 25-30 слов, фраза "покупайте наших слонов". Я думал, что это уже лет как 5 не работает. А нет, пожалуйста.

Это не надолго. Последите за серпом, они вылетят. Такие обычно вылетают либо через алгоритмы ПС, либо по стуку.

magazzz:
Мне нужно что бы бот не ползал и не индексировал ничего, соответственно не банил итд

---------- Добавлено 26.09.2014 в 19:31 ----------

Ну да, не уник

---------- Добавлено 26.09.2014 в 19:32 ----------

Но раньше, пару месяцев назад вроде сайты держались в индексе, а счас чет больше трех дней после роста трафа банятся

гуглбот все равно будет лазить и скачивать и анализировать даже если запретить это.

Запрет означает лишь только то, что не попадет в индекс.

Он находит у Вас куча не уникального текста, сайт не трастовый и "кукуприехали".

Как вариант - в коде движка определять что зашел гугл бот и давать ему кастарированный контент, т.е. давать скачать только, например, 10 страничек, а на остальные не давать ссылок с этих 10 страничек.

Armagedonik:
Ну если только все нашли и смогли определить, что именно за это нас наказали. А если нет, тогда следующего апдейта Панды ждать?
Из под Панды можно вылезти между апдейтами, если что-то допилили после?

До панды лучше не доводить. Разве только "напосмотреть".

Лучше всего создать тему - Опыт по выводу из под панды - найдется много желающих поделиться опытом.

Когда меня накрывало "что-то", я переписывал весь контент, который только можно переписать, отпускало.

Ну это только в том случае когда это можно сделать.

Alex2015:
Гуру научите как быть, хоть и новичек но вопрос по гуглу, ответов не нашел
был сайт site.net с виртуальными каталогами для языков site.net/ru/,site.net/en/ site.net/fr/ в инструментах для мастеров был только site.net, с геотаргетингом гугл определился сам поставил ему Россия, видимо по количеству посещений. Много читал как поступить чтобы было несколько геоцелей
Добавил сейчас три сайта site.net/ru/,site.net/en/ site.net/fr/ - задал им страны
теперь на все эти сайты нет sitemap , и добавить я их не могу поскольку каталоги языков виртуальные
Как сделать эти sitemap для субдиректорий, надо ли их делать, и что делать с основным site.net и его sitemap-ом

Спасибо за любую критику и мнение.

У Вас всего один сайт - site.net

Три сайта это:

ru.site.net

en.site.net

fr.site.net

magazzz:
Ну суть в том, что он начинает очень быстро все индексировать, страничек много, что то типа поисковика.
И через несколько дней, походу после быстрого скачка трафика, сайт банится.
Я хотел попробовать как то снизить скорость роста трафика или открывать этот доступ по своему усмотрению.

Я правильно понимаю у Вас контент не уникальный (копипаст)?

Просьба уточнить, что Вы имеете ввиду под "сайт банится"?

Wo1chenok:
Заголовки сделаны. Комар носа не подточит!

Сейчас гугл панду накатывает, вот тема:

/ru/forum/867535

Всего: 260