Информация по транслитерации в Яндексе

NightBlade
На сайте с 17.09.2007
Offline
32
1321

Правил конечно там намного больше, чем я бегло успел пробежаться, но все же - результаты привожу ниже (правда до углубленного анализа у меня руки не дошли, поэтому воть):

а - a

б - b

в - v, w

г - g

д - d

е - yo, jo, je

ё - такие же как и выше

ж - zh

з - z

и - i, y

й - такие же как и выше

к - k, c

л - l

м - m

н - n

о - o

п - p

р - r

с - s

т - t

у - u (uha не пашет, надо подробнее рассматривать)

ф - f

х - h

ц - c

ч - ch

ш - sh

щ - shh

ъ - тоже не понял (но канают символы вроде # * в неограниченном количестве, возможно это маски :) )

ы - y

ь - так и не понял

э - e

ю - yu

я - ja,ia в любой части слова, ya не в начале слова (jandex исправляет на yandex :-) )

Интересные замечания:

yu - Ию, Ю (Yulija,Yuliya первую букву определяет как Ю, а Yunia, Yulia как Июня и Июля)

jo - Йо (jogurt, но jod не канает)

как пример: Slavsya правильно определяет славься, но указывает на отсутствие мягкого знака, соответственно делаем выводы, что все-таки каким-то символом он его считает :-)

Очень хотелось бы выслушать замечания и дополнить информацию :rolleyes:

ARCOS
На сайте с 15.09.2005
Offline
131
#1
NightBlade:
как пример: Slavsya правильно определяет славься, но указывает на отсутствие мягкого знака, соответственно делаем выводы, что все-таки каким-то символом он его считает :-)

Мягкий знак - `

К чему пост то? Для незнающих транслита?..

NightBlade
На сайте с 17.09.2007
Offline
32
#2

Покажите, пожалуйста, на примере, где в Яндексе ` является мягким знаком.

Пост как раз для знающих транслит и желающих узнать транслит Яндекса. Были споры о том, какой стандарт яша использует, но они так ни к чему и не привели

upyrj
На сайте с 17.09.2005
Offline
140
#3

Это вы для URLового транслита, или для автоисправления запросов?

Если для транслита, то поправлю:

жест <<url="zhest.h1.ru"

жесть <<url="zhest.h1.ru"

=> отсутствие не канает

сшеко << url="ssheko.narod.ru"

щеко << url="ssheko.narod.ru"

=> про ssh=щ лажа

Денис Иванов Важно: обменом валют я не занимаюсь.
NightBlade
На сайте с 17.09.2007
Offline
32
#4
upyrj:
Это вы для URLового транслита, или для автоисправления запросов?

Я пошел немного через задницу :) Я проверял путем запросов на транслите, поэтому это скорее автоисправление.

upyrj:

жест <<url="zhest.h1.ru"
жесть <<url="zhest.h1.ru"
=> отсутствие не канает

Я как раз про это и говорю, что мягкий знак обозначается каким-то символом

upyrj:

сшеко << url="ssheko.narod.ru"
щеко << url="ssheko.narod.ru"
=> про ssh=щ лажа

проверял вышеописанным способом на запросах, а не на URL, хотя по логике вещей если уж есть транслит, то транслит должен быть нормальным, но есть еще логика Яндекса, где транслит запросов отличается от URL транслита. Примеры: щука и щенок.

upyrj
На сайте с 17.09.2005
Offline
140
#5

Тогда мы с вами про разные вещи говорим.

Там вполне могут быть слегка различающиеся правила транслитерации.

Кстати, в автоисправлениях еще играет значительную роль статистика.

Ёхан Палыч
На сайте с 07.05.2006
Offline
169
#6

NightBlade, вы зря так буквально воспринимаете транслитерацию от яндекса, замена происходит по общепринятым правилам http://yandex.ru/yandsearch?text=schuka&rpt=rad http://yandex.ru/yandsearch?text=schenok а когда не находит по правилам, то подставляет наиболее подходящее, например в http://yandex.ru/yandsearch?text=pyan мягкий знак не указан, а замена есть, хотя я бы заменил на два мягких знака. То есть происходит две замены shhuka>опечатка?>schuka>щука

NightBlade
На сайте с 17.09.2007
Offline
32
#7
upyrj:
Тогда мы с вами про разные вещи говорим.

Согласен

upyrj:

Там вполне могут быть слегка различающиеся правила транслитерации.

Тоже увидел на примерах выше, но все-таки. Если используется система транслитерации, то почему бы не использовать ее и в URL и заменах? :)

upyrj:

Кстати, в автоисправлениях еще играет значительную роль статистика.

Поподробнее можно?

Ёхан Палыч:
NightBlade, вы зря так буквально воспринимаете транслитерацию от яндекса, замена происходит по общепринятым правилам http://yandex.ru/yandsearch?text=schuka&rpt=rad http://yandex.ru/yandsearch?text=schenok

это по каким это "общепринятым"? :) по ГОСТ 7.79-2000, ГОСТ 16876-71, СЭВ 1362-78, МВД РФ, LC, BGN или BSI ? sch - щ это как раз то, что нужно дополнить :)

Ёхан Палыч:

а когда не находит по правилам, то подставляет наиболее подходящее, например в http://yandex.ru/yandsearch?text=pyan мягкий знак не указан, а замена есть, хотя я бы заменил на два мягких знака. То есть происходит две замены shhuka>опечатка?>schuka>щука

shhuka это как раз не опечатка, это входит в одно из тех правил, как Вы сказали "общепринятые". И это правило используется яндексом, т.к. нет выделения буквы щ как ошибочное. А вот pyan слово интересное :) Я предполагаю в транслитерации заложено правило мягких гласных (что-то такое :) )

Xover
На сайте с 22.05.2006
Offline
101
#8
К чему пост то?

Ну, ясень пень, чтобы домены правильные регистрировать :)

Покупаю внутренние PR4 на sape.ru (http://www.sape.ru/r.f3cfb23480.php)
NightBlade
На сайте с 17.09.2007
Offline
32
#9
Xover:
Ну, ясень пень, чтобы домены правильные регистрировать :)

Плюс урлы правильные делать на правильных доменах :)

Блин, неудобно, что первый пост отредактировать нельзя - хотел дополнить информацией

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий