Как гугл определяет язык страницы?

goodkat
На сайте с 21.09.2006
Offline
12
786

Посмотрел гугле, некоторые странички относятся к итальянским, хотя имеют такие теги:

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Как гугл определил язык? Он что по словарю сравнивал?

Текст написан обычными символами, без использования UTF-8.

-Dimon-
На сайте с 13.09.2006
Offline
32
#1

Смотрит на текст и определяет видимо.

YK
На сайте с 14.03.2005
Offline
138
#2

Распознование языка по анализу контента - не такая уже и сложная задача. У нашей канторы имеется такое решение. Следовательно у гугла и подавно.

goodkat
На сайте с 21.09.2006
Offline
12
#3
Yuri_K:
Распознование языка по анализу контента - не такая уже и сложная задача. У нашей канторы имеется такое решение. Следовательно у гугла и подавно.

А если будет всего два предложения на двух разных языках? :)

Куда отнести страницу?

YK
На сайте с 14.03.2005
Offline
138
#4

Ничего сложно... система распознования может отнести текст к нескольким языкам, если не удается явно определить языковую принадлежность. А на самом деле, удается довольно точно определить и по нескольким словам. Тут проблеммы нету.

goodkat
На сайте с 21.09.2006
Offline
12
#5

Да, похоже что всё таки гугл анализирует текст страницы.

А локаль (например <html lang="de" ..> ) влияет?

`
На сайте с 11.02.2005
Offline
102
#6

:)

я конечно не гугл гай, но на 99% уверен, что здесь все дело в количестве букв (в особенности гласных) на странице. Бот подсчитывает их количество и соотгосит их с данными из таблицы ста самых популярных слов в языке. После соотнесения по вероятности относит текст к тому или иному языку. Этаже тема используется при машинном переводе.

Подробнее пор это есть в законе Ципфа.

East or West GOOGLE is the best!
YK
На сайте с 14.03.2005
Offline
138
#7
`Spartanez`:
:)
я конечно не гугл гай, но на 99% уверен, что здесь все дело в количестве букв (в особенности гласных) на странице. Бот подсчитывает их количество и соотгосит их с данными из таблицы ста самых популярных слов в языке. После соотнесения по вероятности относит текст к тому или иному языку. Этаже тема используется при машинном переводе.
Подробнее пор это есть в законе Ципфа.

все на много проще. элементарные словари...

X
На сайте с 11.01.2006
Offline
108
#8

Хе, у меня есть сайт, http://rathm.com

Домен в ком, тексты песен на английском (а это почти весь контент). Тем не менее, гугль отнес его к русскому сайту - http://www.google.ru/search?hl=ru&client=firefox-a&rls=org.mozilla%3Aru%3Aofficial&hs=5fd&q=rage+against&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=lang_ru

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий