Два вопроса по оптимизации.

12
M
На сайте с 16.06.2009
Offline
106
1095

Всем привет.

Есть два вопроса по оптимизации:

1) На сайте есть блок теги.

На гугловской справке вебмастеров был интересный мне вопрос.

Ситуация:

После публикации статьи через определенное время они попадают в индекс. Проверяю статьи в индексе следующим способом site:domen/номер статьи. По прошествии суток или более стати из индекса пропадают.

Лучший ответ:

Одна из очень вероятных причин: Слишком обильное повторение анонсированных версии статьей из за использование тегов.

Возьмём к примеру эту статью: /20649

Кроме того что она анонсируется на главной, та она ещё и анонсируется на страницах по тегам.

/tag/nasa

/tag/voda-na-lune

/tag/dostizheniya

/tag/kosmicheskie-issledovaniya

/tag/kosmos

/tag/luna

/tag/sensaciya

/tag/foto

Я бы на вашем месте запретил бы индексацию для /tag вообще.

Для пользователей использование тегов, вещь конечно удобная, а вот для ПС это ферма дубликатов.

В связи с этом вопрос:

Стоит ПС запретить индексацию тегов?

2. Так как Google изменил технологии формирования Page Rank и в частности тега nofollow, хочу узнать стоит ли закрывать такие ссылки на сайте как: регистрация, контакты, правила и т.д. – на страницы которые не принесут пользы никому, кроме зарегистрированных пользователей.

Хотелось бы услышать четкие ответы, от умных людей.

Всем спасибо.

M
На сайте с 16.06.2009
Offline
106
#1

ОК, уберу это:

четкие ответы, от умных людей.

Что, вообще никто не знает?

moonters
На сайте с 09.10.2008
Offline
139
#2

Ваши вопросы уже содержат в себе ответы:

вопрос 1: страницы с тэгами содержат в себе новую уникальную полезную информацию?

ответ: нет.

вопрос 2: люди будут искать через ПС такую информацию, как правила форума, страницы регистрации, профили пользователей?

ответ: нет.

Робот тратит время и ресурсы на индексацию таких страниц, а потом выкидывает их из индекса как дубли и страницы, не содержащие полезной информации, а это время и ресурсы могли быть потрачены на индексацию нужных Вам страниц.

Только почему закрывать такие ссылки через nofollow, наверное лучше через Disallow в robots.txt

Мобильные прокси беру только тут - https://goo.su/G5nhch
M
На сайте с 16.06.2009
Offline
106
#3

Спасибо, moonters, очень четкий ответ.

У меня появился еще вопрос по robots.txt :

На сайте http://www.seo.su/articles.php?id=89 написано:

* Установите пароль:

Защитите паролем информацию, прописанную в robots.txt файле.

Как это сделать?

moonters
На сайте с 09.10.2008
Offline
139
#4

Там не совсем корректно написано - не информацию в файле защитить, а файлы и папки, прописанные в инструкции Disallow, так как любой может увидеть, что Вы закрываете от индексации.

Смысл того, что там написано следующий:

закрыл от индексации папку stats - поставь на неё пароль

Можно средствами .htaccess и .htpasswd, к примеру.

M
На сайте с 16.06.2009
Offline
106
#5

Спасибо, moonters.

Я продолжу спрашивать конкретные вопросы, в этой теме. Может кому-то еще поможет эта информация.

Появилось еще ряд вопросов. Хотелось бы услышать разные ответы.

1) Те папки которые Я запретил ботам в robots.txt, они не должны индексироваться. Но что делает бот, когда заходит на сайт? Сначала читает robots.txt, потом когда находит на сайте запрещенный раздел/страничку, он на нее заходит? Передается ли вес тем страницам которые Я запретил?(регистрация, правила, теги, результаты поиска и т.д.)

2) Sitemap. Где-то читал, что лучше чтобы была ссылка карты сайта на главной странице. Насколько это актуально?

2.б)На моем сайте каждый день добавляются статьи вручную. Как мне объяснили, карта сайта должна быть динамическая. Правильно ли Я понял, что карта сайта должна выглядеть так?(внизу есть ссылка на site com)

Как это сделать?

3) В статьях иногда хочется дать внешнюю ссылку, и при этом не хочется делится авторитетом. Поможет ли такая конструкция:

<noindex><a href="http://сама_ссылка.ru" rel="nofollow">текст ссылки</a></noindex>

Будет ли передаваться вес? Как сейчас реагирует Гугл на практике?

4) Где-то читал: Давайте изображениям осмысленные имена и избегайте названий вида «image1.png» любой ценой. Означает ли это, что на сервере имя картинки обязательно должно иметь нормально имя? Влияет ли это на продвижения по картинкам? Сейчас на сайте используется alt text.

5) Итого robots.txt должен иметь примерно такой вид? Что-то убрать, добавить?

User-Agent: *

{всякие запрещенные разделы }

Disallow: /url/

Disallow: /concepts/new/

Disallow: /admin/

Disallow: /forum/misc/banners/

Sitemap: http://site.com/sitemap.xml

Host: site.com

З.Ы. Действительно очень благодарен, что здесь пишут ответы- не часто встретишь такое в жизни.

(как тут поднять репутацию, тем людям которые помогают? )

+

нашел интересный метод сокрытия внешних ссылок. Там не было ответов:

/ru/forum/406571

Метод 1 заинтересовал.

moonters
На сайте с 09.10.2008
Offline
139
#6

1. ответ на этот вопрос собственно найти не сложно

смотрим свой файл лога и видим:

95.108.142.150 - - [20/Nov/2009:02:11:19 +0200] "GET /robots.txt HTTP/1.0" 200 449 "-" "Yandex/1.01.001 (compatible; Win16; H)"
95.108.142.150 - - [20/Nov/2009:02:11:20 +0200] "GET /robots.txt HTTP/1.0" 200 449 "-" "Yandex/1.01.001 (compatible; Win16; H)"
95.108.142.150 - - [20/Nov/2009:02:11:21 +0200] "GET / HTTP/1.0" 200 7654 "-" "Yandex/1.01.001 (compatible; Win16; H)"
95.108.142.150 - - [20/Nov/2009:02:11:22 +0200] "GET / HTTP/1.0" 200 7654 "-" "Yandex/1.01.001 (compatible; Win16; H)"
95.108.142.150 - - [20/Nov/2009:02:11:23 +0200] "GET / HTTP/1.0" 200 7654 "-" "Yandex/1.01.001 (compatible; Win16; H)"
95.108.142.150 - - [20/Nov/2009:02:11:24 +0200] "GET / HTTP/1.0" 200 7654 "-" "Yandex/1.01.001 (compatible; Win16; H)"

66.249.68.245 - - [20/Nov/2009:08:21:32 +0200] "GET /robots.txt HTTP/1.0" 200 421 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.68.245 - - [20/Nov/2009:08:21:32 +0200] "GET /index.html HTTP/1.0" 301 502 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.68.164 - - [20/Nov/2009:08:21:33 +0200] "GET / HTTP/1.0" 200 7654 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Сначала робот запрашивает файл robots.txt.

Причём если опять возвращается через некоторое время (допустим 15 минут), то опять запрашивает этот файл.

2. Ответ тоже понятен. Ввиду того, что главная страница - это более посещаемая страница нашего сайта (можно поспорить, но индексация в основном начинается с неё), то мы размещаем ссылку на карту на главной странице, чем помогаем роботу быстрее проиндексировать наш сайт.

Если Вы это прочитали на страничке советов а-ля "Как подготовить сайт для Сапы", то тоже ясно - сделать все страницы доступными в два клика от главной.

Это относится к карте в формате .html.

Насчёт .xml - точно не скажу, Её достаточно прописать её в robots.txt и указать в панели веб-мастера (Яндекс, Google). На всякий случай я делаю ссылку на sitemap.xml рядом со ссылкой на sitemap.html, но в панели Я.Вебмастер я вижу, что Яндекс отмечает эту страницу, как страницу не подлежащую индексации ("Формат документа не поддерживается"). Во всяком случае мне это не мешает ...

Может кто-нибудь знает более точный ответ?

2б. сайт на движке или самопис?

В движках есть плагины для составления sitemap.xml.

можно писать ручками.

можно использовать софт (SiteMapG, GSiteCrawler, Xenu), онлайн-сервисы (xml-sitemaps.com). И софта и сервисов сечас вагон и маленькая тележка. У гугла есть бесплатный sitemap-gen - но он вроде на Перле написан.

moonters добавил 21.11.2009 в 14:04

3. гугл изменил алгоритм расчета PR.

Вес по ссылке не передастся, но и Вашим страницам он тоже не перейдет.

1-ссылка

2-ссылка

3-ссылка в nofollow

до изменения алгоритма:

1 и 2 ссылка получает по 50% веса

3 ссылка - 0

после изменения алгоритма:

1 и 2 ссылка получает по 33% веса

3 ссылка - 0

4. влияет. поможет в поиске по картинкам.

5. лучше так

User-Agent: *
{всякие запрещенные разделы }
Disallow: /url/
Disallow: /concepts/new/
Disallow: /admin/
Disallow: /forum/misc/banners/
Sitemap: http://site.com/sitemap.xml

User-Agent: Yandex
{всякие запрещенные разделы }
Disallow: /url/
Disallow: /concepts/new/
Disallow: /admin/
Disallow: /forum/misc/banners/
Sitemap: http://site.com/sitemap.xml
Host: site.com

host - директива яндекса, другие ПС её не понимают.

M
На сайте с 16.06.2009
Offline
106
#7

1. То есть, индексации не будет, значит вес тоже не будет распределятся на те ссылки которые Я запретил в robots.txt? Это контрольный вопрос, что бы закрыть его.

2.По поводу сапы, пока не думаю, еще рановато;) И толком тему не расшарил.

Может кто-нибудь знает более точный ответ?

Буду рад услышать.

2б.Сайт заказал в студии, у них своя личная СМS. Но, когда Я сказал, что хочу вот такую карту сайта, они меня вроде не очень поняли…

moonters
На сайте с 09.10.2008
Offline
139
#8

Вес на страницу пойдет, но это будет аналогично rel=nofollw

Если мы говорим про PR

Вес делиться на все ссылки на странице, а то что страница запрещена для индексации - это только директива для ПС, физически же она существует.

Правильней будет так - нет страницы в индексе, значит и присвоеного ей PR тоже нет, но по другим ссылкам перейдёт меньше веса PR.

2б бежать быстрее от такой студии... об оптимизации сайта нужно думать не после его создания, а до этого ...

M
На сайте с 16.06.2009
Offline
106
#9

Погоди, Я уже запутался.

Я понимаю, что гугл и яндекс, это две разные вещи. С яндексом – это все прокатит. Если мы говорим про PR, то имеет ли вообще смысл закрывать ненужный(потому что только для юзеров) /неуникальный контент(например теги) от гулга, если все равно все проиндексируется?

Почему все-таки надо прописывать?

moonters
На сайте с 09.10.2008
Offline
139
#10

Я всегда подозревал, что не умею объяснять. Сейчас в этом убедился окончательно.

3) В статьях иногда хочется дать внешнюю ссылку, и при этом не хочется делится авторитетом. Поможет ли такая конструкция:
<noindex><a href="http://сама_ссылка.ru" rel="nofollow">текст ссылки</a></noindex>
Будет ли передаваться вес? Как сейчас реагирует Гугл на практике?

Вес PR другому сайту не перейдет, но и твоим страницам от этого лучше не будет (пример про 50% и 33%), по ссылке Гугл не пойдёт.

Цитата из http://ru.wikipedia.org/wiki/Nofollow

гиперссылку, не следует никаким образом учитывать при индексировании данной страницы.
если все равно все проиндексируется?

если ты закрыл ссылки на тэги, то не проиндексируется.

ИТОГО:

вставляя тэг nofollow мы лишаем чужой сайт веса, но нам от этого лучше не будет. Лучше ссылку убрать совсем.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий