Как поисковые роботы находят PHP скрипты?

123
Ragnarok
На сайте с 25.06.2010
Offline
226
#11

POP44, как-то давно какой-то человек на хабре ругался, что у него локальный сайт и яндекс браузер отправляет (или пытается отправлять) ссылки (которых нет в поиске) их боту, тоже по логам вычислил.

может тут что-то подобное

бороться -- не оставлять в открытом доступе, прятать за паролем или типа того. всё что в инете, хоть и без прямых ссылок, может где-то да всплыть

//TODO: перестать откладывать на потом
DV
На сайте с 01.05.2010
Offline
644
#12

Сделайте фильтрацию по уникальному юзерагенту на уровне сервера.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
P4
На сайте с 31.03.2011
Offline
53
#13

Кстати, у меня и так уникальный юзерагент используется, но боты его тоже вычислили и его подставляют при коннектах :)

Короче, ясно все с этим. Ничего страшного в этом нет, обычная история.

DV
На сайте с 01.05.2010
Offline
644
#14
POP44:

Кстати, у меня и так уникальный юзерагент используется, но боты его тоже вычислили и его подставляют при коннектах

Слушайте, это уже не "боты вычислили", это ваш сервис целенаправленно препарируют.

Вручную был разобран обмен клинта с сервером и дан боту.

Обычные боты вообще тупые и ленивые.

P4
На сайте с 31.03.2011
Offline
53
#15

Не думаю, так как данные, которые ожидает скрипт, к скриптам не лятят, 0 байтов, просто коннекты, некоторые с правильным юзерагентом, а некоторые с браузерными.

mendel
На сайте с 06.03.2008
Offline
183
#16
POP44:
Не думаю, так как данные, которые ожидает скрипт, к скриптам не лятят, 0 байтов, просто коннекты, некоторые с правильным юзерагентом, а некоторые с браузерными.

Значит не всё разобрали, тестируют, изучают протокол и т.п.

А те кто правильно забирают. С правильным юзерагентом... Вы уверены что вы их отличите от легальных пользователей?

Давайте попробуем разобраться где именно у вас каша пригорела.

1 - поисковики прекрасно знают о новых доменах, и отчасти о поддоменах. Гугл стабильно заглядывает на свежерегнутый домен "просто так", узнать что это и где. Разумеется в первую очередь речь про gTLD но думаю ему доступны разные файл-зоны.

2 - На точках обмена висят в больших количествах разные мониторилки, которые собирают всякую косвенную статистику по доменам и т.п. Стучалки в браузерах опять же. Всякие панели, просто браузеры. Полно всего. Потом эти же системы статистики по ссылкам и ходят.

3 - если у вас в логах наряду с легальными запросами есть неправильные, то поищите рядом легальные запросы с теми же IP. Дедушка Оккам предлагает версию, что нет никаких ботов, а просто ваш софт некоторые запросы шлет с ошибкой.

4 - если по "секретным ссылкам" ходят боты с "секретными" юзерагентами, то подозрение на то, что ваш протокол проснифили и целенаправленно парсят данные, а "пустые" запросы которые вы видите это какой-то сайдэффект этих запросов. Чисто как вариант может у них при ошибочных запросах к своему АПИ идет ошибочный запрос к вам....

5 - не думаю что это ваш случай, но расскажу два случая из прошлой жизни как меня поисковики атаковали когда "ни одной ссылки" не было.

5.1 - яндекс нашел ссылку на сайте который выводил у себя на странице последние рефреры, а на него с моего переходили

5.2 - ссылка утекла из аськи человека которому давал апи на тест

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)
P4
На сайте с 31.03.2011
Offline
53
#17

Ну, есно, кто же спорит, что протокола хакают. Но тут у меня все нормально, алгоритмы свой-чужой отрабатывают свое.

3) Писал уже, что IP от правильных и неправильных коннектов между собой не пересекаются. Отсюда я сделал вывод, что это не юзеры, а левые боты.

4) Проснифили только ЮзерАгент. Большое дело на транзитных узлах проснифить. Сами пакеты шифрованы, с контрольными суммами и всегда разные. Любые пакеты, которые не проходят проверку валятся мне на анализ. Валятся только нулевые. Отсюда я делаю вывод, что коннекты из разряда "строго раз в месяц на протяжении полугода" это нечто вроде теста на упавший PHP-сервер, чтобы своровать скрипт, пока сервак не подняли. Вполне правдоподобно звучит.

mendel
На сайте с 06.03.2008
Offline
183
#18
POP44:
Вполне правдоподобно звучит.

Чушь. Тогда бы совмещали с ДДоС.

Тип запроса какой? Не HEAD случаем?

P4
На сайте с 31.03.2011
Offline
53
#19

Запрос POST. Да и как заддосить виртуальный хостинг? Кому я там нафиг нужен? Ни разу не слышал, чтобы ддосили провайдера виртуальных хостингов, чтобы завалить одного из юзеров.

mendel
На сайте с 06.03.2008
Offline
183
#20
POP44:
Запрос POST

Напишите подробнее кейс.

У вас есть некое АПИ, к которому должны обращаться правильные юзеры, а обращаются неправильные.

У АПИ есть определенные точки входа. "Левые" юзеры заходят на легальные точки входа? Или тупо в корень домена стучатся?

У АПИ есть определенные гет-параметры (если есть) на этих точках входа. Их вопроизводят?

У АПИ есть определенные ПОСТ-параметры (точно есть). Их повторяют, или шлют запросы ПОСТ-ом, но с пустыми пост-данными?

Вы отдаете на эти данные пустые ответы. Так?

Точно пустые, или может таки что-то внятное им уходит?

Если у вас существуют другие заголовки (хттп-заголовки) специфичные для протокола, например заголовки для авторизации, то повторяют ли их?

Протокол хттп? Или хттпс? Порт стандартный?

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий