А инициалы учитываются? Толстой А.Н. ведь не равно Толстой Л.Н.
Обычно апачевские логи лежат в /var/www/logs (по крайней мере, сюда апач их сбрасывает по умолчанию). Заходишь сюда и ищешь в своем логе ip-шники спайдера Яндекса. Какие именно - смотри здесь:
Яндекс индексирует сайты только через неделю и более после регистрации. Или в чем проблема?
Нет, банить никто точно не будет. Зачем? Тем более что, как правило, ключевые слова в названии домена вообще не учитываются, по крайней мере нашими поисковиками. А насчет длины увлекаться слишком не стоит - дело в том, что под url в используемой поисковиком БД отводится определенное количество символов (например, 128) и если в пути к вашему файлу будет больше символов, то в базу будет помещена только та часть, которая влезет в структуру.
Поисковики СНГ:
slovo.yandex.ru. 213.180.194.148 <2>
slovo.yandex.ru. 213.216.143.37 <3>
slovo.yandex.ru. 213.216.143.39 <3>
slovo.yandex.ru. 216.239.193.86 <4>
robot.rambler.ru. 217.73.192.8 <2>
robot1.rambler.ru. 217.73.192.9 <3>
meta-ukraine.com. 212.42.67.182 <4>
sonic.vpi-minsk.com. 217.21.45.10 <1>
sonic.vpi-minsk.com. 217.225.230.108 <1>
Дальше иноземцы:
Google (сколько ж у него ботов!) :
crawl4.googlebot.com. 216.239.46.100 <1>
crawl4.googlebot.com. 216.239.46.102 <1>
crawl4.googlebot.com. 216.239.46.105 <1>
crawl5.googlebot.com. 216.239.46.112 <1>
crawl5.googlebot.com. 216.239.46.113 <1>
crawl1.googlebot.com. 216.239.46.12 <2>
crawl5.googlebot.com. 216.239.46.140 <3>
crawl7.googlebot.com. 216.239.46.163 <1>
crawl7.googlebot.com. 216.239.46.168 <1>
crawl7.googlebot.com. 216.239.46.183 <1>
crawl7.googlebot.com. 216.239.46.187 <1>
crawl8.googlebot.com. 216.239.46.192 <1>
crawl1.googlebot.com. 216.239.46.20 <2>
crawl1.googlebot.com. 216.239.46.21 <1>
crawl9.googlebot.com. 216.239.46.235 <1>
crawl1.googlebot.com. 216.239.46.26 <1>
crawl1.googlebot.com. 216.239.46.27 <1>
crawl2.googlebot.com. 216.239.46.36 <2>
crawl2.googlebot.com. 216.239.46.39 <3>
crawl2.googlebot.com. 216.239.46.45 <1>
crawl2.googlebot.com. 216.239.46.48 <1>
crawl1.googlebot.com. 216.239.46.5 <3>
crawl2.googlebot.com. 216.239.46.52 <1>
crawl2.googlebot.com. 216.239.46.55 <1>
crawl2.googlebot.com. 216.239.46.56 <1>
crawl4.googlebot.com. 216.239.46.96 <1>
crawl4.googlebot.com. 216.239.46.97 <1>
Inktomi:
si4000.inktomi.com. 216.35.103.79 <1>
si4001.inktomi.com. 216.35.103.80 <1>
si4002.inktomi.com. 216.35.103.81 <1>
si3000.inktomi.com. 216.35.116.90 <2>
si3001.inktomi.com. 216.35.116.91 <2>
si3002.inktomi.com. 216.35.116.92 <2>
si3003.inktomi.com. 216.35.116.93 <2>
Directhit:
ezspider403.directhit.com. 64.55.148.53 <1>
ezspider404.directhit.com. 64.55.148.54 <1>
Lycos:
bos-spider2.bos.lycos.com. 209.67.229.139 <2>
bos-spider6.bos.lycos.com. 209.67.229.143 <1>
bos-spider7.bos.lycos.com. 209.67.229.144 <1>
Altavista:
trek3.sv.av.com. 209.73.164.51 <3>
Fast:
crawler9.bos2.fast-search.net 209.202.148.18 <3>
crawler10.bos2.fast-search.net 209.202.148.19 <1>
crawler20.bos2.fast-search.net
209.202.148.30 <1>
Webtop:
wg1.en.webtop.com. 212.135.14.4 <3>
wg1.en.webtop.com. 212.42.75.47 <1>
Израильксий Inter.net:
diup-180-57.inter.net.il. 213.8.180.57 <1>
diup-180-57.inter.net.il. 216.239.193.86 <3>
Softtronik:
213.156.65.118.softtronik.com. 213.156.65.118 <2>
213.156.66.243.softtronik.com. 213.156.66.243 <1>
213.156.66.243.softtronik.com. 213.172.76.116 <1>
213.156.66.243.softtronik.com. 213.172.76.207 <1>
Остальные (некоторые не знаю вообще что):
marvin.northernlight.com. 208.219.77.29 <4>
crawl2-public.alexa.com. 209.247.40.105 <3>
acq06.xyleme.com. 212.73.246.72 <1>
mediaspider1.tiscalinet.it. 195.130.233.28 <2>
host4u.org. 217.66.96.129 <1>
everest.evitel.net. 217.66.96.5 <1>
cr000.digital-integrity.com 64.71.132.225 <3>
mail.boerner-team.de. 62.146.136.178 <2>
rob023.goo.ne.jp. 210.150.10.33 <1>
aasmgw2.survey.ne.jp 202.32.150.2 <2>
adebn051.mirau.de.eu.agrevo.com. 164.60.2.28 <1>
angel.ip.pt. 194.79.69.75 <1>
CPE-203-45-121-205.nsw.bigpond.net.au. 203.45.121.205 <1>
crawler.tivra.com. 207.140.168.143 <2>
search.thruport.com. 209.207.149.192 <1>
yeti.ismedia.pl. 212.182.96.18 <2>
Вот IP-шники кроулеров Яндекса и Рамблера:
slovo.yandex.ru. 213.180.194.148
slovo.yandex.ru. 213.216.143.37 slovo.yandex.ru. 213.216.143.39
robot.rambler.ru. 217.73.192.8
robot1.rambler.ru. 217.73.192.9
Про Апорт ничего не могу сказать - не приходит
Если кому интересно, могу выложить свежие IP-шники штук 25 поисковиков.
Кстати, в более ранних версиях Explorer 5.0 есть глюки с HTTP_REFERER: вместо страницы, откуда данные отправляются, он передает страницу, которая данные принимает. За остальные версии не в курсе. Так что все подобные вопросы к Биллу Гейтсу
Так это обычное явление. У меня тоже в логах можно найти приходы с Рамблера, например, по запросу "спортивное ориентирование" на страницы, где никаким ориентированием и не пахнет. Больше всего поражает Спайлог - моя статистика показывает, что с него стабильно идут заходы. Самое интересное, что сайт в Спайлоге не зарегистрирован
Похоже, переменные среды и HTTP_REFERER в частности при каких-то условиях не изменяются.
Да, идея неплохая. Я уже столкнулся с тем, что многие пользователи при поиске довольно часто ошибаются или делают опечатки. Думаю, в 10% процентах от всех запросов есть ошибки.
Кстати, неплохо было бы добавить определение кодировки. Если в строке поиска ввести "поиск" в koi8-r, то система находит два документа с заголовком в win-1251 и описанием в koi8-r. С другими кодировками тоже идет много запросов.
[This message has been edited by Vyacheslav Tikhonov (edited 31-05-2001).]
А ведь если внимательно приглядется к их поиску, то понимаешь, что сделано у Punto уже много чего интересного. Чего только стоит нечеткий (fuzzy) поиск! Попробуйте сделать опечатку (к примеру, пропустить букву "о" в запросе "поисквые машины") и система автоматически определит "поисковые" и предложит поискать с исправленной ошибкой.
Конечно, это уже давно есть в Яндексе, но все же