CopyLeft

Рейтинг
8
Регистрация
28.12.2004
Как писал temofey

Вот для третего и четвертого случая, как говорил Станиславский "Не верю!!!!". Строки из лога в студию, желательно с IP. Ибо есть еще один вариант, что искажается реферер кривой прокси, хотя этот вариант маловероятен.

Попробуй открыть 3-й,4-й рефереры в любом браузере, и посмотри на результат. Оба реферера ну ни как не похожеи на реальный урл с текстом запроса.

открывал. почти сразу же. результат я думаю объяснять не надо - ессесно чушь вышла...

а логи:

3)

81.176.37.18 - - [02/Dec/2004:14:16:18 +0600] "GET /free/?sys=cplace&gid=2625&d=0 HTTP/1.0" 200 35737 "http://www.google.com/ie?q=%F2%27%F2%9C%F2%3F%F2%3F%F3%27+%F2%3F%F2%3F%F2%3F%F2%3F%F3%3F%F2%A3%F2%2B%F2%A3%F3%3F%F3%3F%F2%3F&hl=ru" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"

4)

195.177.126.194 - - [01/Dec/2004:21:18:01 +0600] "GET / HTTP/1.0" 200 12597 "http://www.google.com/search?q=\"\xf2'\xf2?\xf3?\xf2?\xf2?\xf2\xde\xf2\x14\xf3?\xf2?\xf2\xa3\xf2? \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? \xf2\x9e\xf2\x9c\xf2?\xf2?\xf2?\"&hl=uk" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

кстати, про проксяки - похоже на них.

вот тока... все одно проблема - ведь почему то "я" и "ра" нормально кейворды пропускают, хоть и народ всяко тоже через проксяки ходит.

а тут, гугловцы - 95% битых рефов...

против статистики то не попрешь... на одни броузеры и проксяки не спишешь.

Как писал temofey
Гугль тут однозначно не при чем. Тебе реферер не гугль посылает, а браузер.

технически - да, браузер. НО - он то его откуда берет?

(готовьте помидоры :)

это же локейшен, на который его гугл отправил!

и броузер его НЕ правит! как есть отдает!

Как писал temofey

Посмотри имя браузера, и посмотри заходилли кто таким браузером по реферерам из рамблера и яндекса, и что стоит в реферерах.

смотрел, все от ие4 и фаербердов с операми, до последних патчей ие 6.ххх

в рамблерах и яндексах логично что с ними все ок.

Как писал temofey
Кстати какой процент таких покоцанных запросов?

как я уже писал - нормально декодируемых запросов - все го лишь 3-5% !!!!

что и вырубает :о(

нет :о( сейчас времени поставить эксперимент:

1) зайти на гугл и сделать поиск по слову парус

2) пройти на какой-нить ресурс из выдачи

3) на проксяке или другим софтом поймать передаваемый реф

4) попробовать его декодировать

Как писал temofey
Похоже что приведенный в п.3-4 рефреры были нещадно исковерканы кривыми браузерами. Так скорее всего 3-й реферер был отдан юзер агентом для налодонника, насчет четвертого не знаю, но похоже таже ситуация. Посмотри в логах какие броузеры эту чепуху прислали.

можно и на браузеры спихивать...

вот тока почему такая засада тока с гуглем?

хотя, можно предположить что яндексом и рамблером пользуются не с наладанников и т.п., но все же... я больше склоняюсь считать, что это все гугл и его "мировая слава" "полиглота" сделала с ним дурной финт. ведь не зря же япошки тоже маются этой проблемой - у них тоже веселые алфавиты :)

Как писал temofey
А приведи полный URL который у тебя в логе.

а чего тебе на хватает в приведенных выше примерах? они как раз из урлов.

да ладно, мне не влом...

в том же порядке, но целиком:

1)

http://www.google.ru/search?hl=ru&inlang=ru&ie=windows-1251&q=%D0%C5%D2%C5%D0%CC%A3%D4&lr=

2)

http://www.google.ru/search?hl=ru&q=Ericsson+Alcatel+DECT+%D0%90%D0%A2%D0%A1+%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD+%D0%BC%D0%B8%D0%BD%D0%B8&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=lang_ru

3)

http://www.google.com/ie?q=%F2%27%F2%9C%F2%3F%F2%3F%F3%27+%F2%3F%F2%3F%F2%3F%F2%3F%F3%3F%F2%A3%F2%2B%F2%A3%F3%3F%F3%3F%F2%3F&hl=ru

4)

http://www.google.com/search?q=\"\xf2'\xf2?\xf3?\xf2?\xf2?\xf2\xde\xf2\x14\xf3?\xf2?\xf2\xa3\xf2? \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? \xf2\x9e\xf2\x9c\xf2?\xf2?\xf2?\"&hl=uk

я же грю - не все так просто как хотелось бы

(tima - см. мою мессагу прямо над твоей... сложности видны в ней).

спасибо, конечно, но меня этот ответ не греет, ибо меня интересуют дикие перекодировки гугла.

хотя. потратив еще пол дня близок к цитате из одного фильма:

"плащ украли? подними руку... выше... а теперь резко опусти её и скажи 'ну и х... с ним' "

просто взял 4 примера:

1) %D0%C5%D2%C5%D0%CC%A3%D4 ie=win1251

2) %D0%90%D0%A2%D0%A1 ie-нет, lang(hl)=ru

3) %F2%27%F2%9C%F2%3F%F2%3F%F3%27 ie-нет, hl=ru

4) \xf3?\xf2\xa3\xf2?\xf2?\xf3'\xf2? ie-нет, hl=uk (engl?)

1-ый оказался самым простым

quted_printable (aka rawurlencode) + win->koi (2 раза)

2-ой тоже более менее: rawurl + utf8->win

с 4-ым я не очень понял, но возможно есть шанс раскодировать.

хотя пока не получилось.

а вот третий - вилы.

мало того, что раскодировать похоже нельзя, так это еще и определилось только при "доказательстве от противного":

взял я то, что получается из этого примера при rawurldecode

и сравнил со своим вариантом iconv('ISO-8859-1', 'UTF-8', 'русский текст'); и получил две жжжж.... очень похожие 8)

т.е. я предположил, что при определенным манипуляциях гугел из кейвордов делает кашу, которая потом декодируется только как "?" (то есть - символ не найден)...

ну так что, есть у кого смазка для лыж? ;)

Всего: 66