На выборке из примерно 16 тыс. сайтов robots. Txt оказался у примерно 28 сайтов - Поисковые технологии

135

minaton

31 декабря 2005, 09:59

#11

greenwood:
а зачем это кому-то нужно ?

Например.

За одним форумом еще можно как-то следить штатными средствами, а вот за несколькими - уже сложнее. Лично я некоторые темы сохраняю на винчестер - чтобы было. А если у меня будет свой собственный поисковик по выбранным сайтам, он будет всегда под рукой, будет постоянно обновлять индекс - это будет очень полезный инструмент.

IBC Russia (http://ibcrussia.com/)

519

greenwood

31 декабря 2005, 10:08

#12

всё ..всё .. навалились :)

понял я ..понял ..

ну что за манера никогда свои проекты сразу не описывать нормальным русским языком ..что там, почему и как ..... всё приходиться выбивать :)

Все почему-то считают что раз он знает, то и все прям должны знать :)

После нового Года с удовольствием у себя на блоге опубликую, но желательно с примерчиками - всю прелесть сервиса осветить .

SS

141

Seventh Son

31 декабря 2005, 21:36

#13

Ashmanov:
Я советую Вам для начала забанить на своём сайте следющие адреса:
66.249.65.***
213.180.206.***
81.176.76.***

Ваш юмор понятен.

Имелось ввиду другое, и Вы это прекрасно поняли.

minaton:
Там об этом написано

Возможно я просто невнимательно прочитал.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт

66

Ashmanov

1 января 2006, 07:55

#14

Seventh Son:
...Имелось ввиду другое, и Вы это прекрасно поняли.

Нет, не понял, что имелось в виду. Любой сайт в Интернете непрерывно выкачивают сотни поисковых роботов. Запретами на выкачку практически никто не пользуется - во-первых, для этого нужно иметь квалификацию, во-вторых, нужно иметь какие-то необычные причины не хотеть выкачки страниц, каковые причины есть далеко не у всех.

Кроме того, сайты выставляются в Интернет ровно для того, чтобы их могли увидеть все. Кто выставляет не для всех - закрывает страницу паролем.

Поэтому любой ваш конкурент может поставить у себя на персональном компьютере качалку (которых полно в Интернете) или просто сохранять ВСЕ видимые в сети страницы вашего сайта методом copy-paste прямо из браузера в свой личный архив, и вы никаким файлом robots.txt этого запретить не можете.

Мы же просто облегчаем это самое ручное копирование, так что вообще-то robots.txt тут совсем не при чём. Мы даём хостинг персональному поисковику, и всё. Мы, конечно, слушаемся запретов robots.txt, чтобы не конфликтовать с сайтовладельцем, хотя использование запретов - это чрезвычайно редкая вещь.

Ну и последнее: на мой взгляд, что внимание конкурентов, что любое другое внимание в сети - это то, чего добивается владелец сайта. И он желает так или иначе управлять этим вниманием.

Если вы увидите, что вас активно изучают через наш сервис - это повод неявно поуправлять этим вниманием. Если вы считаете, что это изучают конкуренты - пишите новости так, чтобы посеять в них панику и растерянность, или чтобы сманить у них лучших сотрудников. Или чтобы найти себе место потеплее, или чтобы сбить их с толку. Ну и так далее.

Пусть читают.

Разве не так?

С Новым годом!

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

Google не советует использовать Аргументы почему не нужно Google ответил на ряд

Z

32

Zute

1 января 2006, 08:26

#15

Ashmanov:
Мы, конечно, слушаемся запретов robots.txt, чтобы не конфликтовать с сайтовладельцем, хотя использование запретов - это чрезвычайно редкая вещь.

На выборке из примерно 16 тыс. сайтов robots.txt оказался у примерно 28% сайтов, - не назвал бы такую долю чрезвычайно редкой.

SS

141

Seventh Son

1 января 2006, 09:46

#16

Игорь, я понимаю Ваши благие намерения в виде инструмента поиска по сайту, группе тематических сайтов, сохранения версий и т.п., но вместе с этим Ваш поиск при грамотном подходе можно будет использовать как оружие против конкурентов [один способ я вижу уже сейчас]. Вот тогда он становится опасен.

Желаю удачи и с Новым Годом!

С уважением,

Сергей Пасечник.

66

Ashmanov

1 января 2006, 14:44

#17

Zute:
На выборке из примерно 16 тыс. сайтов robots.txt оказался у примерно 28% сайтов, - не назвал бы такую долю чрезвычайно редкой.

Мне просто кажется, что и эти-то проценты - просто оттого, что вебмастера что-то слышали о том, что такой файл должен быть.

А реально его программируют (пишут каталоги, маски) единицы.

Z

32

Zute

1 января 2006, 17:56

#18

Ashmanov:
Мне просто кажется, что и эти-то проценты - просто оттого, что вебмастера что-то слышали о том, что такой файл должен быть.
А реально его программируют (пишут каталоги, маски) единицы.

У этих же сайтов у примерно 25,5% в robots.txt прописана хотябы одна команда Disallow, из них у 24,99% - хотябы в одной команде Disallow указан непустой путь; у 3.2% - хотябы одна команда Allow...

66

Ashmanov

1 января 2006, 18:26

#19

Zute:
У этих же сайтов у примерно 25,5% в robots.txt прописана хотябы одна команда Disallow, из них у 24,99% - хотябы в одной команде Disallow указан непустой путь; у 3.2% - хотябы одна команда Allow...

А это проценты от процентов? То есть это 25,5 от 28% (что даёт около 8%)? А уже от них ещё у четверти - непустой путь?

Тогда это меньше 2% от всех, что действительно немного и совпадает с мировой константой - числом тех, кто настраивает defaults или пользуется языком запросов.

Или всё-таки 25,5% от общего числа сайтов, то есть это почти все из 28%?

Я, возможно, не прав, потому что помню ситуацию 4-хлетней давности, когда мы разбирались с этим в Рамблере.

Но у меня есть стойкое ощущение, что robots.txt используется редко.

Z

32

Zute

1 января 2006, 19:25

#20

Эти проценты от общего числа сайтов. За прошедшие 4 года появилось гораздо больше CMS на сайтах, которые закрывают свою админку и т.п. "технологические" урлы через robots. Плюс Яндекс добавил директиву Host: и немного её пропиарил - лишний повод поинтересоваться, что это за вещь этот robots.txt...

Кстати, всего 0,02% используют директиву crawl-delay в robots.txt - вот это и есть "чрезвычайно редко" :)

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Персональный поиск от Ашмановых