И потом по нему, если уж очень хочется, собирать деревья сразу в броузере на JS :)
Телепаты в отпуске.
Может сами догадаетесь чего б еще добавить?
Именно по FTP, запуская любые программы на вашем компьютере, вам это не удастся. Передача данных будет идти через ваш компьютер.
Я знаю как делаем мы. Поставщики нам прислылают прайсы. В Excell в основном. Мы их парсим и выкладываем на сайте. Те кто с этим работают - знают где брать.
У производителей/поставщиков, очевидно
Вас это удивляет :) ? Запчасти, видимо, на многих сайтах тоже одинаковые..
Я не думаю, что у Bing бота, если это он (смотрели IP?), "некорректно сформулирован заголовок".
Скорее всего, это вполне корректные запросы, например, по IP. Где он берет такие ссылки? Сложно сказать, видимо, где-то берет. В таком случае он должен попадать на DefaultHost в апаче. Можете поставить с него редирект на правильный домен, если хотите.
Вот тут и тут можете посмотреть примеры заголовка host и переменных HTTP_HOST, SERVER_NAME
Еще раз. Клиент (бот, броузер) не передает ни HTTP_HOST, ни SERVER_NAME. Он передает только HOST. Если он его не передает, то HTTP_HOST будет пустой. SERVER_NAME (если Apache) зависит от UseCanonicalName, и будет либо браться из конфига сервера, либо тоже из заголовка HOST.
Я так и не понял что вы хотите..
Надо отдавать то, что на самом деле есть. Если страницы нет - 404, если есть - 200. Какая разница кто это, бот или не бот?
JavaScript window.onbeforeunload и window.onunload
Это редкость. Половина сайтов вообще будет нефункциональна без JS. Те кто его отключают либо понимают последствия, либо извращенцы.
Естественно. В таком случае вам никакая защита не поможет. Вы никак не отличите такой броузер от реального. Нужно будет принимать другие меры: например, фразеологический анализ контента, каптчи и прочее, вызывающее трудности у ботов.
PS. я так понимаю, этот топик ради рекламы? :)