Сайт с параметрами индексируются плохо, каждый раз Гугл скидывает количество страниц.

alexburzak
На сайте с 28.11.2006
Offline
61
1470

Многоуважаемый Олл!

Нужна ваша консультация, я занимаюсь вот этим сайтом: http://www.google.com/search?q=site:logicpc.co.il&num=100&hl=en&safe=off&filter=0

Причем регулярно количество ссылок в Гугле колеблится от 11800 до 14800

и каждый раз когда доходит до максимума Гугл скидывает их опять на 11800.

И все равно у меня далеко не все страницы проиндексированны(очень много которых Гугл не берет).

На своем сайте использовал VB.NET то есть динамическое генерирование страниц с параметрами, например вот такое: http://www.logicpc.co.il/itdetail.aspx?icom=9445 параметрами не перегружал(один, максимум два - иногда)

Карту сайта приготовил, вот здесь: http://www.logicpc.co.il/googlesitemap.xml

Регулярно добавляется новые страницы на сайт, в день от 0 до 20-30.

Вопрос ко всему сообщетву:

Что можно сделать что бы кол-во страниц все время возрастало и Гугл их не сбрасывал? Это проблемма у меня из-того что я работаю с параметрами?

URL: Продвижение сайтов, построение сайтов, сопровождение сайтов (http://www.upmaster.co.il/default.aspx?lan=ru) Прежде, чем задать вопрос я всегда пользуюсь поиском и MSDN!
smscat
На сайте с 23.02.2006
Offline
50
#1

Странно что такое количество страниц вобще индексируется.

Вы не соблюдаете (возможно не поняли) сам принцип действия sitemaps.

Ошибки в следующем:

1. У самих страниц отсутствует Last-Modified. Что не только увеличивает нагрузку на ваш сервер и заставляет пользователей тратить больше трафика, но и мешает поисковикам индексировать много страниц, поскольку все они выгребают не более определённого числа страниц за раз и обслуживание запроса If-Modified-Since (код 304 в ответ вместо 200 для не изменившихся с последнего посещения страниц) очень эффективно помогает проиндексировать максимум изменившихся страниц. То что googlebot выгребает за раз 114тыс ваших страниц это почти чудо, которое говорит о большом доверии к вашему сайту, но терпение у бота не резиновое.

2. в сайтмапе у вас указана одна дата для всех страниц и к тому же с нарушением формата указания времени.

В связи с этим рекомендую:

1. ввести в базе отдельное поле, содержащее время модификации страницы сточностью до секунды.

2. Выдавать эту дату в Last-Modified.

3. Обрабатывать запрос If-Modified-Sinse, выдавая ответ 304 для неизменившихся страниц по этому запросу

4. Переделать googlesitemap.xml по указанному гуглом стандарту.

alexburzak
На сайте с 28.11.2006
Offline
61
#2

Спасибо за ответ.

вообщето я передал в Гугл вот эту карту: http://www.logicpc.co.il/googlesitemap.xml

Но говорить буду об этой: http://www.logicpc.co.il/Exmgooglesitemap.xml

Они полностью инентичны разница только в том, что в http://www.logicpc.co.il/googlesitemap.xml я использовал еще CSS и это наверное сбило всех кто смотрел мою карту(http://www.logicpc.co.il/googlesitemap.xml).

То есть если Вы посмотрите на http://www.logicpc.co.il/Exmgooglesitemap.xml

то увидете что поле "lastmod" у меня присутствует, если верить https://www.google.com/webmasters/tools/docs/ru/protocol.html то такой формат вполне допустим. Если ли Вы по прежнему считаете, что нужно указать вплоть до секунды то скажите, конечно я это сделаю. Это был пункт 1 и 2(рекамендую)

пункт 3 (рекамендую) думаю как можно это сделать. Но наверное ничего не получится... В любом случаии ищу в нете как можно отработать соотвествующий запрос.

пункт 4 готов переделать карту без CSS, но мне кажется это не критично. Гугл все равно берет только голый текст. А Вы как думаете?

Какие еще есть предложения?

smscat
На сайте с 23.02.2006
Offline
50
#3
alexburzak:
https://www.google.com/webmasters/tools/docs/ru/protocol.html то такой формат вполне допустим. Если ли Вы по прежнему считаете, что нужно указать вплоть до секунды то скажите, конечно я это сделаю. Это был пункт 1 и 2(рекамендую)

у меня дата обновления выдаётся в таком формате 2007-03-28T11:50:06+02:00. и я рекомендую этот формат, чтобы не искушать робота перечитывать страницу целиком.

alexburzak:

пункт 3 (рекамендую) думаю как можно это сделать. Но наверное ничего не получится... В любом случаии ищу в нете как можно отработать соотвествующий запрос.

А вот это КРАЙНЕ ВАЖНО в вашем случае. Эта обработка является простым и хорошо описанным средством, так что проблемы организовать это у вас быть не должно. Это настолько важно, что лучше потратить на это любое время (хотя его нужно не много).

alexburzak:

пункт 4 готов переделать карту без CSS, но мне кажется это не критично. Гугл все равно берет только голый текст. А Вы как думаете?
Какие еще есть предложения?

Нет, ваш CSS не сбил меня с толку и смотрел я на сам код.

Учитывая, что sitemap не предназначен для просмотра пользователем то делать ему дизайн это имхо попытка "пудрить труп".

alexburzak
На сайте с 28.11.2006
Offline
61
#4
smscat:
...в таком формате 2007-03-28T11:50:06+02:00...

Сделал, можно смотреть вот здесь: http://www.logicpc.co.il/googlesitemap.xml

smscat:
... "пудрить труп". ...

Да совершено верно, просто делалось это для начальника, что бы показать, что еще можно сделать.

smscat:
... КРАЙНЕ ВАЖНО ...

Только сейчас разобрался, что Вы имели ввиду.

Никогда не имел дело с get запросами напрямую. С вашей помощью нашел нужную инфу, например вот эту: http://xpoint.ru/know-how/VebAlgoritmyi/ConditionalGet?comments

Конечно подправил свои страницы что бы выдовалось Last-Modified дата модификации, на менее важные страницы(типа http://www.logicpc.co.il/colist.aspx?type=A00189 и http://www.logicpc.co.il/itemlist.aspx?cnam=desktop-of) неделю назад.

А на более важные(с моей точки зрения)(типа http://www.logicpc.co.il/default.aspx?lan=ru и http://www.logicpc.co.il/itdetail.aspx?icom=9875) четыре часа назад.

Только до конца я так и не понял, этого достаточно?

Теперь когда клиент запрашивает мои страницы get с условием он должен от моего хоста получить либо 200 либо 304?

Или я должен еще что-то сделать?

Посмотрите плиз еще раз мои страницы.

Заранее спасибо.

Unlock
На сайте с 01.08.2004
Offline
786
#5

alexburzak,

1) Гугл последние месяцы частенько выкидывает страницы из индекса, так что это еще большой вопрос с чем связано и врядли с параметрами в урле.

2) ПР маловат у сайта, в этом, в том числе, может быть причина.

Есть желание, - тысяча способов; нет желания, - тысяча поводов! /Петр-I/.
alexburzak
На сайте с 28.11.2006
Offline
61
#6

1) Мне кажется в моем случаии, так было всегда. Сколько сайт живет - никогда не был проиндексирован полностью.

2) Над пр работаю, пытаюсь раздобыть ссылки и уникальное содержание.

Мне просто говорили, что из-того, что страницы генирируется(читай с параметрами) Гугл понимает это и не хочет индексировать больше определенного количества. И выход толькл в http://www.isapirewrite.com/

А Выше мнение? Есть другие способы? Или только http://www.isapirewrite.com/ ?

alexburzak
На сайте с 28.11.2006
Offline
61
#7

Так как я пользовался услугами этого многоуважаемого форума, то отчитываюсь в моих продвижениях.

Дошел до 17400

Что на сегодня для меня рекорд.

Вижу в этом особую заслугу smscat'a

smscat:
...2. Выдавать эту дату в Last-Modified. ...

За что ему огромное спасибо.

Как будет продвигатся далнейшее ндексирование моих страниц позже сообщу.

Жаль что не услышал мнения по поводу http://www.isapirewrite.com/ .....

smscat
На сайте с 23.02.2006
Offline
50
#8
alexburzak:
Так как я пользовался услугами этого многоуважаемого форума, то отчитываюсь в моих продвижениях.
Дошел до 17400
Что на сегодня для меня рекорд.
Вижу в этом особую заслугу smscat'a

За что ему огромное спасибо.
Как будет продвигатся далнейшее ндексирование моих страниц позже сообщу.
Жаль что не услышал мнения по поводу http://www.isapirewrite.com/ .....

Я понимаю это так, что у робота есть определённый ограничитель на число считанных за один раз страниц (это число зависит от PageRank), но получив код 304 он не увеличивает счётчик проиндексированных и таким образом можно проиндексировать хоть все страницы сайта, если они меняются и добавляются в меньшем количестве, чем за раз читает робот. (у меня так и происходит)

Что касается CSS для начальника, то я бы на вашем месте подумал что важнее -- мнение начальника или работа робота Google? Есть вероятность, что лишняя информация (<link>) может послужить причиной игнорирования sitemap. Зачем же нарываться? Кроме того для человека эта страница с тысячами ссылок может иметь смысл разве что в виде фетиша. =) в конце концов начальнику можете сделать дизайн не на CSS а на XSL -- там можн обудет и картинки вставить и всякие сортирвки вкинуть. и прочие вкусности автоматического парсинга данных в любой шаблон.

Здесь мало кто рискует пользоваться виндозными серверами и врядли найдётся много народу, который разбирается в указаннй ссылке. Я например не берусь -- моя стихия это FreeBSD =)

smscat
На сайте с 23.02.2006
Offline
50
#9
alexburzak:
1) Мне кажется в моем случаии, так было всегда. Сколько сайт живет - никогда не был проиндексирован полностью.
2) Над пр работаю, пытаюсь раздобыть ссылки и уникальное содержание.
Мне просто говорили, что из-того, что страницы генирируется(читай с параметрами) Гугл понимает это и не хочет индексировать больше определенного количества. И выход толькл в http://www.isapirewrite.com/
А Выше мнение? Есть другие способы? Или только http://www.isapirewrite.com/ ?

замечено лишь одно ограничение -- если в ваших ссылках есть id= или sid= то поисковики могут это воспринять неадекватно. И то тому всё меньше подтверждений. Все остальные варианты динамических ссылок (типа site.ru/article.php?art=12321) уже давно участвуют в индексации наравне с ЧПУ типа site.ru/article12321.html

Так что обязательного перехода на ЧПУ скорее всего не нужно, главное обработать запросы времени модификации (что вы уже сделали)

alexburzak
На сайте с 28.11.2006
Offline
61
#10
smscat:
... Есть вероятность, что лишняя информация (<link>) может послужить причиной игнорирования sitemap. Зачем же нарываться?...

Еще раз тзенкс, css убрал , если есть еще замечания, предложения - говорите.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий