Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

<font face="Verdana" size="2">Originally posted by Bamboo:
Punto.ru - учитывает регистр, но только первой буквы. То есть, "толстой" не равно "Толстой"</font>

А инициалы учитываются? Толстой А.Н. ведь не равно Толстой Л.Н.

<font face="Verdana" size="2">Originally posted by Neon:
обьясните чайнику где это можно посмотреть?</font>

Обычно апачевские логи лежат в /var/www/logs (по крайней мере, сюда апач их сбрасывает по умолчанию). Заходишь сюда и ищешь в своем логе ip-шники спайдера Яндекса. Какие именно - смотри здесь:

<font face="Verdana" size="2">Originally posted by Neon:
subj.?</font>

Яндекс индексирует сайты только через неделю и более после регистрации. Или в чем проблема?

<font face="Verdana" size="2">Originally posted by MyCom:
Я так понял поисковики ориентируются на ключевые слова в названии домена,
а также в названии файлов.

Как Вы думаете, не за банят ли, если название файла будет большое (10-50 знаков)?
и эффективно ли это вообще?
</font>

Нет, банить никто точно не будет. Зачем? Тем более что, как правило, ключевые слова в названии домена вообще не учитываются, по крайней мере нашими поисковиками. А насчет длины увлекаться слишком не стоит - дело в том, что под url в используемой поисковиком БД отводится определенное количество символов (например, 128) и если в пути к вашему файлу будет больше символов, то в базу будет помещена только та часть, которая влезет в структуру.

<font face="Verdana" size="2">Originally posted by Folker:
Напиши, пожалйста...</font>

Поисковики СНГ:

slovo.yandex.ru. 213.180.194.148 &lt;2&gt;

slovo.yandex.ru. 213.216.143.37 &lt;3&gt;

slovo.yandex.ru. 213.216.143.39 &lt;3&gt;

slovo.yandex.ru. 216.239.193.86 &lt;4&gt;

robot.rambler.ru. 217.73.192.8 &lt;2&gt;

robot1.rambler.ru. 217.73.192.9 &lt;3&gt;

meta-ukraine.com. 212.42.67.182 &lt;4&gt;

sonic.vpi-minsk.com. 217.21.45.10 &lt;1&gt;

sonic.vpi-minsk.com. 217.225.230.108 &lt;1&gt;

Дальше иноземцы:

Google (сколько ж у него ботов!) :

crawl4.googlebot.com. 216.239.46.100 &lt;1&gt;

crawl4.googlebot.com. 216.239.46.102 &lt;1&gt;

crawl4.googlebot.com. 216.239.46.105 &lt;1&gt;

crawl5.googlebot.com. 216.239.46.112 &lt;1&gt;

crawl5.googlebot.com. 216.239.46.113 &lt;1&gt;

crawl1.googlebot.com. 216.239.46.12 &lt;2&gt;

crawl5.googlebot.com. 216.239.46.140 &lt;3&gt;

crawl7.googlebot.com. 216.239.46.163 &lt;1&gt;

crawl7.googlebot.com. 216.239.46.168 &lt;1&gt;

crawl7.googlebot.com. 216.239.46.183 &lt;1&gt;

crawl7.googlebot.com. 216.239.46.187 &lt;1&gt;

crawl8.googlebot.com. 216.239.46.192 &lt;1&gt;

crawl1.googlebot.com. 216.239.46.20 &lt;2&gt;

crawl1.googlebot.com. 216.239.46.21 &lt;1&gt;

crawl9.googlebot.com. 216.239.46.235 &lt;1&gt;

crawl1.googlebot.com. 216.239.46.26 &lt;1&gt;

crawl1.googlebot.com. 216.239.46.27 &lt;1&gt;

crawl2.googlebot.com. 216.239.46.36 &lt;2&gt;

crawl2.googlebot.com. 216.239.46.39 &lt;3&gt;

crawl2.googlebot.com. 216.239.46.45 &lt;1&gt;

crawl2.googlebot.com. 216.239.46.48 &lt;1&gt;

crawl1.googlebot.com. 216.239.46.5 &lt;3&gt;

crawl2.googlebot.com. 216.239.46.52 &lt;1&gt;

crawl2.googlebot.com. 216.239.46.55 &lt;1&gt;

crawl2.googlebot.com. 216.239.46.56 &lt;1&gt;

crawl4.googlebot.com. 216.239.46.96 &lt;1&gt;

crawl4.googlebot.com. 216.239.46.97 &lt;1&gt;

Inktomi:

si4000.inktomi.com. 216.35.103.79 &lt;1&gt;

si4001.inktomi.com. 216.35.103.80 &lt;1&gt;

si4002.inktomi.com. 216.35.103.81 &lt;1&gt;

si3000.inktomi.com. 216.35.116.90 &lt;2&gt;

si3001.inktomi.com. 216.35.116.91 &lt;2&gt;

si3002.inktomi.com. 216.35.116.92 &lt;2&gt;

si3003.inktomi.com. 216.35.116.93 &lt;2&gt;

Directhit:

ezspider403.directhit.com. 64.55.148.53 &lt;1&gt;

ezspider404.directhit.com. 64.55.148.54 &lt;1&gt;

Lycos:

bos-spider2.bos.lycos.com. 209.67.229.139 &lt;2&gt;

bos-spider6.bos.lycos.com. 209.67.229.143 &lt;1&gt;

bos-spider7.bos.lycos.com. 209.67.229.144 &lt;1&gt;

Altavista:

trek3.sv.av.com. 209.73.164.51 &lt;3&gt;

Fast:

crawler9.bos2.fast-search.net 209.202.148.18 &lt;3&gt;

crawler10.bos2.fast-search.net 209.202.148.19 &lt;1&gt;

crawler20.bos2.fast-search.net

209.202.148.30 &lt;1&gt;

Webtop:

wg1.en.webtop.com. 212.135.14.4 &lt;3&gt;

wg1.en.webtop.com. 212.42.75.47 &lt;1&gt;

Израильксий Inter.net:

diup-180-57.inter.net.il. 213.8.180.57 &lt;1&gt;

diup-180-57.inter.net.il. 216.239.193.86 &lt;3&gt;

Softtronik:

213.156.65.118.softtronik.com. 213.156.65.118 &lt;2&gt;

213.156.66.243.softtronik.com. 213.156.66.243 &lt;1&gt;

213.156.66.243.softtronik.com. 213.172.76.116 &lt;1&gt;

213.156.66.243.softtronik.com. 213.172.76.207 &lt;1&gt;

Остальные (некоторые не знаю вообще что):

marvin.northernlight.com. 208.219.77.29 &lt;4&gt;

crawl2-public.alexa.com. 209.247.40.105 &lt;3&gt;

acq06.xyleme.com. 212.73.246.72 &lt;1&gt;

mediaspider1.tiscalinet.it. 195.130.233.28 &lt;2&gt;

host4u.org. 217.66.96.129 &lt;1&gt;

everest.evitel.net. 217.66.96.5 &lt;1&gt;

cr000.digital-integrity.com 64.71.132.225 &lt;3&gt;

mail.boerner-team.de. 62.146.136.178 &lt;2&gt;

rob023.goo.ne.jp. 210.150.10.33 &lt;1&gt;

aasmgw2.survey.ne.jp 202.32.150.2 &lt;2&gt;

adebn051.mirau.de.eu.agrevo.com. 164.60.2.28 &lt;1&gt;

angel.ip.pt. 194.79.69.75 &lt;1&gt;

CPE-203-45-121-205.nsw.bigpond.net.au. 203.45.121.205 &lt;1&gt;

crawler.tivra.com. 207.140.168.143 &lt;2&gt;

search.thruport.com. 209.207.149.192 &lt;1&gt;

yeti.ismedia.pl. 212.182.96.18 &lt;2&gt;

<font face="Verdana" size="2">Originally posted by Folker:
Народ кто-нибудь располагает листом IP аддресов для русских SE?

Буду примного благодарен!
</font>

Вот IP-шники кроулеров Яндекса и Рамблера:

slovo.yandex.ru. 213.180.194.148

slovo.yandex.ru. 213.216.143.37 slovo.yandex.ru. 213.216.143.39

robot.rambler.ru. 217.73.192.8

robot1.rambler.ru. 217.73.192.9

Про Апорт ничего не могу сказать - не приходит

Если кому интересно, могу выложить свежие IP-шники штук 25 поисковиков.

Кстати, в более ранних версиях Explorer 5.0 есть глюки с HTTP_REFERER: вместо страницы, откуда данные отправляются, он передает страницу, которая данные принимает. За остальные версии не в курсе. Так что все подобные вопросы к Биллу Гейтсу

<font face="Verdana" size="2">Originally posted by Gray:
Спайлог тебе еще не то покажет. На этот сайт, если ему верить, заходили по слову "реферат антропометрия", хотя ни тогда, ни сейчас такого не было.</font>

Так это обычное явление. У меня тоже в логах можно найти приходы с Рамблера, например, по запросу "спортивное ориентирование" на страницы, где никаким ориентированием и не пахнет. Больше всего поражает Спайлог - моя статистика показывает, что с него стабильно идут заходы. Самое интересное, что сайт в Спайлоге не зарегистрирован

Похоже, переменные среды и HTTP_REFERER в частности при каких-то условиях не изменяются.

<font face="Verdana" size="2">Originally posted by itman:
Кстати, что вы думаете по поводу возможности более расширенного нечеткого поиска: поиск слов в базе слов по маске + задание количества опечаток с выдачей статистики, итд... По-моему определенным категориям польователей была бы интересна такая возможность.</font>

Да, идея неплохая. Я уже столкнулся с тем, что многие пользователи при поиске довольно часто ошибаются или делают опечатки. Думаю, в 10% процентах от всех запросов есть ошибки.

Кстати, неплохо было бы добавить определение кодировки. Если в строке поиска ввести "поиск" в koi8-r, то система находит два документа с заголовком в win-1251 и описанием в koi8-r. С другими кодировками тоже идет много запросов.

[This message has been edited by Vyacheslav Tikhonov (edited 31-05-2001).]

<font face="Verdana" size="2">Originally posted by telsa:
Мне понравился внешний вид, и результаты - ничего "без мусора", но Рунет - это не только зона "RU" ! </font>

А ведь если внимательно приглядется к их поиску, то понимаешь, что сделано у Punto уже много чего интересного. Чего только стоит нечеткий (fuzzy) поиск! Попробуйте сделать опечатку (к примеру, пропустить букву "о" в запросе "поисквые машины") и система автоматически определит "поисковые" и предложит поискать с исправленной ошибкой.

Конечно, это уже давно есть в Яндексе, но все же

Всего: 847