senks777

Рейтинг
79
Регистрация
15.08.2010

igoreff,

igoreff:
почему он это делает

проверяет хитро..

igoreff:
за что банит
это и выясняю..
igoreff:
Тематика на забаненых дорах

разношёрстная.. где-то - download, где-то - как, местами - смотреть..

igoreff:
Слив одинаковый?
не похоже что дело в сливе..
результат: в течении 30 минут - 1 часа бан с любым количеством трафа (1-2к или 2 хоста безразницы).
банит пачками в течении 2-3 часов, на разных IP с разным сроком жизни (мин. 7, макс. 250 дней)

полагаю, бан на взлёте "за компанию" с трафикодающими, юный дор может поймать по каким-то общим признакам в коде,

или методе исполнения который(ые) гугл может расценивать к примеру иначе..

..поиск в пс навёл на мысль, что гугл представляясь таким способом проверяет на клоаку..

Можно ли считать клоакой ajax, get, post подгрузку файла (до каких либо действий пользователя)?

Если, к примеру, в div подгружается файл с одинаковой информацией на все страницы (дабы исключить повторение текста в коде)..

или блок в сайт-бар..

Ребят, вам знаком такой финт гугла?

66.249.84.169 - - [31/Oct/2014:17:10:37 0400] "GET / HTTP/1.1" 200 27402 "http://www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CEEQFjAF&url=http://домен/&ei=3TVYVMueK5nRuwKSCg&usg=AFQjCNHaiXks5GYavv91KealpyxhidE9_Q" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; ..длинный-хвост..)"

какой-то гугло-софт IMXO, на движке Trident заходит на главную (редко в пост) с IP принадлежащего гуглу,

подгружает связанные файлы как браузер (а так-же файлы подгружаемые из JS методами $.post, или $.get, или $.ajax)..

затем (обычно, но не обязательно) повторно бьет в один или несколько файлов, подгруженных через js, к примеру:

66.249.83.83 - - [31/Oct/2014:17:12:53 0400] "GET /файл_подгружаемый_из_js HTTP/1.1" 200 27402 "http://www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0CEEQFjAF&url=http://домен/файл_подгружаемый_из_js&ei=3TVYVMueK5nRuwKSCg&usg=AFQjCNHaiXks5GYavv91KealpyxhidE9_Q" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; ..длинный-хвост..)"

результат: в течении 30 минут - 1 часа бан с любым количеством трафа (1-2к или 2 хоста безразницы).

банит пачками в течении 2-3 часов, на разных IP с разным сроком жизни (мин. 7, макс. 250 дней)

Эта беда прицепилась с 9 сентября, никак не осилю в одиночку. Ребят, Подсобите Разобраться?

p.s. с 9.09 по 31.10 так ушли более 40 с хорошим трафом. Пусть мэил, яху, бинг им будет пухом.

p.s.s В своём анализаторе логов даже обозвал его Google-Trident-66:. Как только появляется это чудо - сразу бан.

VHS:
Если урлы не в индексе и яндекс их не хочет - он по ним не ходит

бот яндекса регулярно обращается к забаненным урлам,

и к слову, так-же обходит урлы забаненных доменов, вплоть до отключения домена и после..

если домен дропнут и стал доступен - видимо "через нехочу".

попробуйте ежедневно мониторить логи по "yandex" - откроете для себя много полезного :)

VHS:
senks777, давай ... напиши

Не говорите, что мене делать и я вам не скажу куда идти (с).

VHS:
ересь про два дня для Яндекса и восстановление позиций

VHS, пожалуйста читайте внимательнее.. для вас повторюсь..

в большинстве случаев достаточно просто добавить новые url в адурл яндекса (гугл сам найдет)..

бот прибегает сразу с проверкой на 200 ОК (адурлим и смотрим лог, убеждаемся)

далее в течении двух-десяти дней, бот обычно повторно обращается к этим страницам (обращается - индексирует)..

(смысл вам искать "ересь" :) там, где её просто нет.. и снова логи)

VHS:
с 50 000 страниц до года висели в индексе документы со старым урлом, с 404 кодом ответа

верю.. да сам наблюдал.. да вот только у ТС яндекс уже выплюнул

postavkin:
1900
из
postavkin:
2200 штук

чтож, спасать 301-м редиректом вместо устранения источника проблемы по вашему VHS, верное решение 🙄

postavkin:
тупо сменить адреса страниц, как посоветовал Платон. Что я и сделал.

Видимо тема исчерпала себя.

VHS

postavkin:
Леонид, я был бы не против глюка, если бы начиная с конца сентября не начали выпадать страницы. Сперва 300, потом ещё 500, теперь дошло до 1900 урлов товаров.
VHS:
Убиваем старый урл

Яндекс сделал уже это за ТС.

VHS:
Вы тут конечно все жутко мудрые программеры, но с точки зрения оптимизации и поискового продвижения просто изменение урлов - огромная гадость

Убитым урлам уже разноцветно, огромная или не очень эта гадость :)

Что делать? ТС

Mad_Man:
Устранять нужно источники проблем, а не гримировать труп под живого

и снова индексация ... обычно гуглу достаточно за 1-3 дня, яндексу 2-10-....

Страницы имеют все шансы вернутся в выдачу по новым урлам.

Трафик по НЧ, если он был и страницы не изменялись, потихоньку восстановиться.

А главное навсегда избавились от запятой! Но помним, что есть и другие спец-символы.

urlencode().

VHS:
задача ТС в первую очередь не потерять эти страницы

Надеюсь количество и порядок выполнения задач ТС сможет определить себе сам ;)

Просто навело на мысль:

Боты теперь ежедневно копят ответы 404 по этим url-ам..

А тут вдруг!! Спустя время по некоторым кривым урлам появляется 200 OK и та-же страница что была и до ломки урла.

Для бота сломаный url стал новым url-ом на ту-же страницу, которая уже есть на его сервере..

Был битый 404 -> он-же стал новый 200 ОК ))

Смысл делать двойную работу?

Может проще для начала:

1. запретить/преобразовать сторонние символы в url для новых страниц?

Другими словами, поправить код в местах, где формируем||получаем url страницы

добавив в нужном месте urlencode(), или просто подменять налету запятую точкой (в месте формирования).

2. пытаться отловить ломаный url и перенаправлять 301-м редиректом "куда-то",

или подставлять "какой-то" - видимо пустая трата времени..

По сути, тоже самое, как просто сформировать и отдать новый url.

Лучше время "отлова" потратить на скармливание ПС новых url страниц..

хотя со временем боты и сами их найдут бегая по ссылкам сайта :).

postavkin:
я не умею сам это делать, поэтому

на всякий случай для картинок с 1-2 запятыми в урле

RewriteRule ^(.+?)(,|%2C)(.+?)\.(jpg|jpag|png|gif)$ /$1.$3.$4 [L,QSA]
RewriteRule ^(.+?)(,|%2C)(.+?)(,|%2C)(.+?)\.(jpg|jpag|png|gif)$ /$1.$3.$5.$6 [L,QSA]

проверил на сервере - работает, с учетом того, что

postavkin:
в базе поменял запятые на точку, все ссылки ведут теперь на урлы с точками
Mad_Man:
необходимо просто экранировать урлы

Однозначно!!! Желательно на стороне сервера и все вытекающие проблемы - пуфф.. :)

А ловить каждый, неизвестно как, модифицированный/обрезанный url конечно можно,

но хлопотно 😒

вопрос не совсем ясен.. что точно вам нужно?

приведите примеры:

1. url - который хочу видеть в адресной строке для about

2. реальный url about

на вскидку:

RewriteEngine On

RewriteBase /
#склеить
RewriteRule ^index\.php/(.+)/$ /$1 [R=301,L]
#перенаправить
RewriteRule ^(.+)/$ index.php/$2 [L,QSA]
luckydan:
Перебирвать цикл не предлагать

explode("\n", stripslashes(join("\n", $array)));
и не будет 100500 вызовов функции stripslashes('для каждого элемента');

есть вероятность снижения затраченного времени на обработку массива, зависит от его величины,

такие моменты встречаются в php, тестируйте ;)

Милованов Ю.С:
JIT компиляция
HipHop VM

$n = 237;
function zeroN($n, $z) {
if(!preg_match("~^[0-9]+$~", $n)) return $n;
return str_repeat('0', $z-strlen($n)).$n;
}
echo zeroN($n, 6);

или просто без проверок:

echo str_repeat('0', 6-strlen($n)).$n;

или как Mad_Man

echo str_pad($n, 6, "0", STR_PAD_LEFT);

результат 000237

Всего: 225