открывал. почти сразу же. результат я думаю объяснять не надо - ессесно чушь вышла...
а логи:
3)
81.176.37.18 - - [02/Dec/2004:14:16:18 +0600] "GET /free/?sys=cplace&gid=2625&d=0 HTTP/1.0" 200 35737 "http://www.google.com/ie?q=%F2%27%F2%9C%F2%3F%F2%3F%F3%27+%F2%3F%F2%3F%F2%3F%F2%3F%F3%3F%F2%A3%F2%2B%F2%A3%F3%3F%F3%3F%F2%3F&hl=ru" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"
4)
195.177.126.194 - - [01/Dec/2004:21:18:01 +0600] "GET / HTTP/1.0" 200 12597 "http://www.google.com/search?q=\"\xf2'\xf2?\xf3?\xf2?\xf2?\xf2\xde\xf2\x14\xf3?\xf2?\xf2\xa3\xf2? \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? \xf2\x9e\xf2\x9c\xf2?\xf2?\xf2?\"&hl=uk" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
кстати, про проксяки - похоже на них.
вот тока... все одно проблема - ведь почему то "я" и "ра" нормально кейворды пропускают, хоть и народ всяко тоже через проксяки ходит.
а тут, гугловцы - 95% битых рефов...
против статистики то не попрешь... на одни броузеры и проксяки не спишешь.
технически - да, браузер. НО - он то его откуда берет?
(готовьте помидоры :)
это же локейшен, на который его гугл отправил!
и броузер его НЕ правит! как есть отдает!
смотрел, все от ие4 и фаербердов с операми, до последних патчей ие 6.ххх
в рамблерах и яндексах логично что с ними все ок.
как я уже писал - нормально декодируемых запросов - все го лишь 3-5% !!!!
что и вырубает :о(
нет :о( сейчас времени поставить эксперимент:
1) зайти на гугл и сделать поиск по слову парус
2) пройти на какой-нить ресурс из выдачи
3) на проксяке или другим софтом поймать передаваемый реф
4) попробовать его декодировать
можно и на браузеры спихивать...
вот тока почему такая засада тока с гуглем?
хотя, можно предположить что яндексом и рамблером пользуются не с наладанников и т.п., но все же... я больше склоняюсь считать, что это все гугл и его "мировая слава" "полиглота" сделала с ним дурной финт. ведь не зря же япошки тоже маются этой проблемой - у них тоже веселые алфавиты :)
а чего тебе на хватает в приведенных выше примерах? они как раз из урлов.
да ладно, мне не влом...
в том же порядке, но целиком:
1)
http://www.google.ru/search?hl=ru&inlang=ru&ie=windows-1251&q=%D0%C5%D2%C5%D0%CC%A3%D4&lr=
2)
http://www.google.ru/search?hl=ru&q=Ericsson+Alcatel+DECT+%D0%90%D0%A2%D0%A1+%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD+%D0%BC%D0%B8%D0%BD%D0%B8&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=lang_ru
http://www.google.com/ie?q=%F2%27%F2%9C%F2%3F%F2%3F%F3%27+%F2%3F%F2%3F%F2%3F%F2%3F%F3%3F%F2%A3%F2%2B%F2%A3%F3%3F%F3%3F%F2%3F&hl=ru
http://www.google.com/search?q=\"\xf2'\xf2?\xf3?\xf2?\xf2?\xf2\xde\xf2\x14\xf3?\xf2?\xf2\xa3\xf2? \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? \xf2\x9e\xf2\x9c\xf2?\xf2?\xf2?\"&hl=uk
я же грю - не все так просто как хотелось бы
(tima - см. мою мессагу прямо над твоей... сложности видны в ней).
спасибо, конечно, но меня этот ответ не греет, ибо меня интересуют дикие перекодировки гугла.
хотя. потратив еще пол дня близок к цитате из одного фильма:
"плащ украли? подними руку... выше... а теперь резко опусти её и скажи 'ну и х... с ним' "
просто взял 4 примера:
1) %D0%C5%D2%C5%D0%CC%A3%D4 ie=win1251
2) %D0%90%D0%A2%D0%A1 ie-нет, lang(hl)=ru
3) %F2%27%F2%9C%F2%3F%F2%3F%F3%27 ie-нет, hl=ru
4) \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? ie-нет, hl=uk (engl?)
1-ый оказался самым простым
quted_printable (aka rawurlencode) + win->koi (2 раза)
2-ой тоже более менее: rawurl + utf8->win
с 4-ым я не очень понял, но возможно есть шанс раскодировать.
хотя пока не получилось.
а вот третий - вилы.
мало того, что раскодировать похоже нельзя, так это еще и определилось только при "доказательстве от противного":
взял я то, что получается из этого примера при rawurldecode
и сравнил со своим вариантом iconv('ISO-8859-1', 'UTF-8', 'русский текст'); и получил две жжжж.... очень похожие 8)
т.е. я предположил, что при определенным манипуляциях гугел из кейвордов делает кашу, которая потом декодируется только как "?" (то есть - символ не найден)...
ну так что, есть у кого смазка для лыж? ;)