Google Referer Decode

12
CL
На сайте с 28.12.2004
Offline
8
1874

Доброе всем время суток.

Извините, если не в ту арию пишу, но базовая тема - гугл, хотя, вероятно, в раздел для начинающих видимо тоже подошло бы :)

Преамбула:

попробовал декодировать Referer гугла чтобы получить поисковые слова. обломался. только 3-5% кейвордов идут в 1251, остальные (utf8) - видимо со множественными перекодировками :о( док в нете толковых по этому делу не нашел (не считая япошек, которые вроде для себя чего-то выкрутили)

Вопрос такой:

кто и чем пользуется, чтобы видеть интернациональные запросы в гугле по реферам (а-ля русский, французский и т.д до японии :)

или если у кого есть "лыжная смазка для асфальтового покрытия" - подскажите направление как декодировать (perl, php)

п.с. на скока же оказалось проще декодировать Я,Ра,Апорт...

эти ваши "тили-тили" нас совсем не "трали-вали" ... (с) мой
W
На сайте с 30.11.2004
Offline
147
#1

У меня ресурсы все под англ и декодируется англ в гугле на ура.

CL
На сайте с 28.12.2004
Offline
8
#2

спасибо, конечно, но меня этот ответ не греет, ибо меня интересуют дикие перекодировки гугла.

хотя. потратив еще пол дня близок к цитате из одного фильма:

"плащ украли? подними руку... выше... а теперь резко опусти её и скажи 'ну и х... с ним' "

просто взял 4 примера:

1) %D0%C5%D2%C5%D0%CC%A3%D4 ie=win1251

2) %D0%90%D0%A2%D0%A1 ie-нет, lang(hl)=ru

3) %F2%27%F2%9C%F2%3F%F2%3F%F3%27 ie-нет, hl=ru

4) \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? ie-нет, hl=uk (engl?)

1-ый оказался самым простым

quted_printable (aka rawurlencode) + win->koi (2 раза)

2-ой тоже более менее: rawurl + utf8->win

с 4-ым я не очень понял, но возможно есть шанс раскодировать.

хотя пока не получилось.

а вот третий - вилы.

мало того, что раскодировать похоже нельзя, так это еще и определилось только при "доказательстве от противного":

взял я то, что получается из этого примера при rawurldecode

и сравнил со своим вариантом iconv('ISO-8859-1', 'UTF-8', 'русский текст'); и получил две жжжж.... очень похожие 8)

т.е. я предположил, что при определенным манипуляциях гугел из кейвордов делает кашу, которая потом декодируется только как "?" (то есть - символ не найден)...

ну так что, есть у кого смазка для лыж? ;)

T
На сайте с 14.11.2002
Offline
61
#3
остальные (utf8)

Ну а в чем проблема? Сначала тебе нужно из URLEncoding перевести, а затем из того что получилось делаешь перевод utf8->win1251.


ХостТрекер | Мониторниг доступности вебсайтов. (http://host-tracker.com/ru/) Уведомление на e-mail или SMS.
CL
На сайте с 28.12.2004
Offline
8
#4

я же грю - не все так просто как хотелось бы

(tima - см. мою мессагу прямо над твоей... сложности видны в ней).

T
На сайте с 14.11.2002
Offline
61
#5

А приведи полный URL который у тебя в логе.

CL
На сайте с 28.12.2004
Offline
8
#6
Как писал temofey
А приведи полный URL который у тебя в логе.

а чего тебе на хватает в приведенных выше примерах? они как раз из урлов.

да ладно, мне не влом...

в том же порядке, но целиком:

1)

http://www.google.ru/search?hl=ru&inlang=ru&ie=windows-1251&q=%D0%C5%D2%C5%D0%CC%A3%D4&lr=

2)

http://www.google.ru/search?hl=ru&q=Ericsson+Alcatel+DECT+%D0%90%D0%A2%D0%A1+%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD+%D0%BC%D0%B8%D0%BD%D0%B8&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=lang_ru

3)

http://www.google.com/ie?q=%F2%27%F2%9C%F2%3F%F2%3F%F3%27+%F2%3F%F2%3F%F2%3F%F2%3F%F3%3F%F2%A3%F2%2B%F2%A3%F3%3F%F3%3F%F2%3F&hl=ru

4)

http://www.google.com/search?q=\"\xf2'\xf2?\xf3?\xf2?\xf2?\xf2\xde\xf2\x14\xf3?\xf2?\xf2\xa3\xf2? \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? \xf2\x9e\xf2\x9c\xf2?\xf2?\xf2?\"&hl=uk

T
На сайте с 14.11.2002
Offline
61
#7

Похоже что приведенный в п.3-4 рефреры были нещадно исковерканы кривыми браузерами. Так скорее всего 3-й реферер был отдан юзер агентом для налодонника, насчет четвертого не знаю, но похоже таже ситуация. Посмотри в логах какие броузеры эту чепуху прислали.

CL
На сайте с 28.12.2004
Offline
8
#8
Как писал temofey
Похоже что приведенный в п.3-4 рефреры были нещадно исковерканы кривыми браузерами. Так скорее всего 3-й реферер был отдан юзер агентом для налодонника, насчет четвертого не знаю, но похоже таже ситуация. Посмотри в логах какие броузеры эту чепуху прислали.

можно и на браузеры спихивать...

вот тока почему такая засада тока с гуглем?

хотя, можно предположить что яндексом и рамблером пользуются не с наладанников и т.п., но все же... я больше склоняюсь считать, что это все гугл и его "мировая слава" "полиглота" сделала с ним дурной финт. ведь не зря же япошки тоже маются этой проблемой - у них тоже веселые алфавиты :)

T
На сайте с 14.11.2002
Offline
61
#9

Гугль тут однозначно не при чем. Тебе реферер не гугль посылает, а браузер. И в данном случае посылает неверно закодированную строку.

Посмотри имя браузера, и посмотри заходилли кто таким браузером по реферерам из рамблера и яндекса, и что стоит в реферерах.

Кстати какой процент таких покоцанных запросов?

CL
На сайте с 28.12.2004
Offline
8
#10
Как писал temofey
Гугль тут однозначно не при чем. Тебе реферер не гугль посылает, а браузер.

технически - да, браузер. НО - он то его откуда берет?

(готовьте помидоры :)

это же локейшен, на который его гугл отправил!

и броузер его НЕ правит! как есть отдает!

Как писал temofey

Посмотри имя браузера, и посмотри заходилли кто таким браузером по реферерам из рамблера и яндекса, и что стоит в реферерах.

смотрел, все от ие4 и фаербердов с операми, до последних патчей ие 6.ххх

в рамблерах и яндексах логично что с ними все ок.

Как писал temofey
Кстати какой процент таких покоцанных запросов?

как я уже писал - нормально декодируемых запросов - все го лишь 3-5% !!!!

что и вырубает :о(

нет :о( сейчас времени поставить эксперимент:

1) зайти на гугл и сделать поиск по слову парус

2) пройти на какой-нить ресурс из выдачи

3) на проксяке или другим софтом поймать передаваемый реф

4) попробовать его декодировать

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий