Гугл тупит с русскими символами в url?

0
На сайте с 19.09.2007
Offline
55
2008

Когда у меня в коде сайта содержались ссылки с незакодированными русскими символами - Яндекс их видел нормально. Гугл же вместо руских символом запрашивал какие-то крякозябры, и отображал их в тайтле снипета (у меня движок генерирует тайтл в соответствии с запросом; остальной текст в снипете и ссылка на сайт были читабельными русскими буквами).

После чего я изменил свой движок, и все ссылки стали размещаться только в закодированном виде.

С Яндексом ничего не изменилось.

Гугл стал видеть сайт нормально, но в ссылках серпа теперь просто урл-закодированная строка.

Я не против такого видения гуглом русских символов, если бы не одно "но"... Я также замечаю в выдаче чужие сайты с нормально-прописанными русскими символами в ссылках. Причём на самих этих сайтах в коде все ссылки также (как у меня) закодированы.

WTF?! Почему для всех гугл декодирует русские символы в ссылках, а для моего сайта - нет?

Быть может это из-за того, что когда в начале жизни сайта ссылки были незакодированы - гугл сделал себе пометку где-то в базе о том, что ссылки декодировать не нужно - и эта пометка необратима... Других вариантов у меня нет.

M0
На сайте с 06.05.2007
Offline
75
#1

А в href="" у вас что прописано?

A
На сайте с 24.04.2007
Offline
117
#2

Может Вы не правильно кодируете русские буквы? Я создаю URL с кириллицей так (как это сделано в Википедии):

1. Сначала кодирую русские символы в utf-8

2. Затем кодирую результат с помощью urlencode

Все работает. Русские буквы показываются и в Яндексе, и в Гугле.

Т.е. ссылка в HTML-коде получается к примеру такая:

http://ru.wikipedia.org/wiki/%D0%91%D0%B0%D1%81%D0%B5%D0%BD%D0%B4%D0%B6%D0%B8
а в выдаче отображается
http://ru.wikipedia.org/wiki/Басенджи
0
На сайте с 19.09.2007
Offline
55
#3

В href - закодированный win-1251. Потому что сам сайт в win-1251, и скрипт выдаёт правильный результат при запросе в win-2151.

При запросе ссылки в UTF-8 выдаёт крякозябры и отсутствие статьи, таким же образом, как было в серпе гугла до кодирования ссылок на сайте.

Понятно, значит гугл корректно работает только с UTF-8.

Наверное потому что сам серп в UTF-8, и гугловским программистам лень проводить перекодировку.

SJ
На сайте с 16.03.2008
Offline
78
#4
0verdrive:
Наверное потому что сам серп в UTF-8, и гугловским программистам лень проводить перекодировку.

Немного не так. Гугловские программисты просто грамотные специалисты. И ради 0.01% сайтов, которые забив на все отдают в урлах кирилицу в какой-то "зибабвийской" кодировке (а win1251 для Гугла именно такая "экзотическая" кодировка) делать массу телодвижений Гугл просто не считает правильным. Кстати, я его категорически поддерживаю :)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
0
На сайте с 19.09.2007
Offline
55
#5

По какому стандарту нужно отдавать урлы именно в utf-8?

A
На сайте с 24.04.2007
Offline
117
#6
0verdrive:
В href - закодированный win-1251. Потому что сам сайт в win-1251, и скрипт выдаёт правильный результат при запросе в win-2151.
При запросе ссылки в UTF-8 выдаёт крякозябры и отсутствие статьи, таким же образом, как было в серпе гугла до кодирования ссылок на сайте.

Понятно, значит гугл корректно работает только с UTF-8.
Наверное потому что сам серп в UTF-8, и гугловским программистам лень проводить перекодировку.

Это не проблема, если конечно в движке (в исходном коде) покопаться и хоть немного PHP знать. Сначала нужно найти где генерируется русский URL и кодировать его в uft-8 (как я написал выше). Затем при загрузке страницы с кириллистическим URL раскодировать (urldecode) и utf-8 в windows-1251 с помощью PHP.

При желании можно сделать также открытие и таких URL-адресов, когда пользователь русские буквы в адресной строке вручную набирает (без закодированных символов).

Если все сделать правильно, работать будет;) У меня тоже сайты на win-1251 и все нормально выдает (после раскодирования русская часть урла идет в тайтл) ;)

0
На сайте с 19.09.2007
Offline
55
#7

Конечно это не проблема. :D Такой вопрос даже не стоял. Вопрос не в технической стороне моего сайта, а в том, как это воспримет гугл и другие поисковые системы.

А движок мой, т.е. самописный.

SM
На сайте с 01.02.2008
Offline
17
#8

У меня на различных сайтах используются русские символы и с кодировкой сайта win1251, и с юникодом (без urlencode)

С гуглом нет проблем вообще, в результатах поиска отображаются русские символы в урле.

A
На сайте с 24.04.2007
Offline
117
#9

Изначально перед тем, как делать кириллицу в URL страниц, я много материала перечитал на эту тему в Интернете и понял, что все же лучше всего использовать закодированный utf-8.

Вообще конечно интересно. Было бы странно, если бы Гугл не поддерживал закодированные символы в url в кодировке win-1251. Но часто в Гугле по какой-то причине символы не выводятся кириллицей (хотя у меня такого пока еще не было). Сейчас быстро пробежался по выдаче Гугла (inurl:"авто") - нашел все 4 варианта - с win-1251, utf-8, с urlencode и без. Значит кодировка win-1251 вроде как поддерживается.

0
На сайте с 19.09.2007
Offline
55
#10

Да, действительно - вижу варианты с незакодированным win-1251 в коде. Странно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий