igoreff,
проверяет хитро..
разношёрстная.. где-то - download, где-то - как, местами - смотреть..
полагаю, бан на взлёте "за компанию" с трафикодающими, юный дор может поймать по каким-то общим признакам в коде,
или методе исполнения который(ые) гугл может расценивать к примеру иначе..
..поиск в пс навёл на мысль, что гугл представляясь таким способом проверяет на клоаку..
Можно ли считать клоакой ajax, get, post подгрузку файла (до каких либо действий пользователя)?
Если, к примеру, в div подгружается файл с одинаковой информацией на все страницы (дабы исключить повторение текста в коде)..
или блок в сайт-бар..
Ребят, вам знаком такой финт гугла?
какой-то гугло-софт IMXO, на движке Trident заходит на главную (редко в пост) с IP принадлежащего гуглу,
подгружает связанные файлы как браузер (а так-же файлы подгружаемые из JS методами $.post, или $.get, или $.ajax)..
затем (обычно, но не обязательно) повторно бьет в один или несколько файлов, подгруженных через js, к примеру:
результат: в течении 30 минут - 1 часа бан с любым количеством трафа (1-2к или 2 хоста безразницы).
банит пачками в течении 2-3 часов, на разных IP с разным сроком жизни (мин. 7, макс. 250 дней)
Эта беда прицепилась с 9 сентября, никак не осилю в одиночку. Ребят, Подсобите Разобраться?
p.s. с 9.09 по 31.10 так ушли более 40 с хорошим трафом. Пусть мэил, яху, бинг им будет пухом.
p.s.s В своём анализаторе логов даже обозвал его Google-Trident-66:. Как только появляется это чудо - сразу бан.
бот яндекса регулярно обращается к забаненным урлам,
и к слову, так-же обходит урлы забаненных доменов, вплоть до отключения домена и после..
если домен дропнут и стал доступен - видимо "через нехочу".
попробуйте ежедневно мониторить логи по "yandex" - откроете для себя много полезного :)
Не говорите, что мене делать и я вам не скажу куда идти (с).
VHS, пожалуйста читайте внимательнее.. для вас повторюсь..
в большинстве случаев достаточно просто добавить новые url в адурл яндекса (гугл сам найдет)..
бот прибегает сразу с проверкой на 200 ОК (адурлим и смотрим лог, убеждаемся)
далее в течении двух-десяти дней, бот обычно повторно обращается к этим страницам (обращается - индексирует)..
(смысл вам искать "ересь" :) там, где её просто нет.. и снова логи)
верю.. да сам наблюдал.. да вот только у ТС яндекс уже выплюнул
чтож, спасать 301-м редиректом вместо устранения источника проблемы по вашему VHS, верное решение 🙄
Видимо тема исчерпала себя.
VHS
Яндекс сделал уже это за ТС.
Убитым урлам уже разноцветно, огромная или не очень эта гадость :)
Что делать? ТС
и снова индексация ... обычно гуглу достаточно за 1-3 дня, яндексу 2-10-....
Страницы имеют все шансы вернутся в выдачу по новым урлам.
Трафик по НЧ, если он был и страницы не изменялись, потихоньку восстановиться.
А главное навсегда избавились от запятой! Но помним, что есть и другие спец-символы.
urlencode().
Надеюсь количество и порядок выполнения задач ТС сможет определить себе сам ;)
Просто навело на мысль:
Боты теперь ежедневно копят ответы 404 по этим url-ам..
А тут вдруг!! Спустя время по некоторым кривым урлам появляется 200 OK и та-же страница что была и до ломки урла.
Для бота сломаный url стал новым url-ом на ту-же страницу, которая уже есть на его сервере..
Был битый 404 -> он-же стал новый 200 ОК ))
Смысл делать двойную работу?
Может проще для начала:
1. запретить/преобразовать сторонние символы в url для новых страниц?
Другими словами, поправить код в местах, где формируем||получаем url страницы
добавив в нужном месте urlencode(), или просто подменять налету запятую точкой (в месте формирования).
2. пытаться отловить ломаный url и перенаправлять 301-м редиректом "куда-то",
или подставлять "какой-то" - видимо пустая трата времени..
По сути, тоже самое, как просто сформировать и отдать новый url.
Лучше время "отлова" потратить на скармливание ПС новых url страниц..
хотя со временем боты и сами их найдут бегая по ссылкам сайта :).
на всякий случай для картинок с 1-2 запятыми в урле
RewriteRule ^(.+?)(,|%2C)(.+?)\.(jpg|jpag|png|gif)$ /$1.$3.$4 [L,QSA]RewriteRule ^(.+?)(,|%2C)(.+?)(,|%2C)(.+?)\.(jpg|jpag|png|gif)$ /$1.$3.$5.$6 [L,QSA]
проверил на сервере - работает, с учетом того, что
Однозначно!!! Желательно на стороне сервера и все вытекающие проблемы - пуфф.. :)
А ловить каждый, неизвестно как, модифицированный/обрезанный url конечно можно,
но хлопотно 😒
вопрос не совсем ясен.. что точно вам нужно?
приведите примеры:
1. url - который хочу видеть в адресной строке для about
2. реальный url about
на вскидку:
RewriteEngine On RewriteBase / #склеить RewriteRule ^index\.php/(.+)/$ /$1 [R=301,L] #перенаправить RewriteRule ^(.+)/$ index.php/$2 [L,QSA]
explode("\n", stripslashes(join("\n", $array)));
есть вероятность снижения затраченного времени на обработку массива, зависит от его величины,
такие моменты встречаются в php, тестируйте ;)
$n = 237;function zeroN($n, $z) { if(!preg_match("~^[0-9]+$~", $n)) return $n; return str_repeat('0', $z-strlen($n)).$n;}echo zeroN($n, 6);
или просто без проверок:
echo str_repeat('0', 6-strlen($n)).$n;
или как Mad_Man
echo str_pad($n, 6, "0", STR_PAD_LEFT);
результат 000237