Напротив, понятие о бабочке появилось в результате гигантского исследования, проведеного IBM, Compaq и AltaVista. В конце статьи приведена та самая бабочка:
С уважением,
Александр Садовский.
Почему же, я когда-то искал -- в сети есть десятки исследований на эту тему. У меня сохранились ссылки на два из них, которые говорят о числе ссылок на странице. Согласно первому среднее число ссылок на странице 21,3. Статистика на основании изучения 50'000 сайтов. Согласно второму -- на средней странице 23 внутренних ссылки и 5,6 внешних. Данные определены на основании изучения 12 миллионов страниц.
Число внешних ссылок как раз и определяет среднее число ссылок на страницу. А размер сайта узнать несложно -- согласно Яндекс.Числам, он был равен сейчас 150-170 страницам на дату, когда было проведено исследование про число внешних ссылок. Думаю, эти данные сопоставимы с общемировыми, тенденции-то всюду одинаковые, и даже средний размер страницы в один период времени в рунете и мировом интеренете совпадает. Следовательно, среднее число ссылок на сайт без учета повторяемости равно 900. Один и тот же сайт, как правило, имеет склонность ставить ссылки на глубоко симпатичные ему ресурсы чаще, чем на остальные. Поэтому это число нужно уменьшить процентов на 30. Итого, в среднем по интернету получается 600-700 ссылок на сайт и его страницы.
Зависит, зависит, только ИЦ сравнивается не с ИЦ всех сайтов, подавших заявку, а только для сайтов внутри определенной тематической категории. По какой-то теме ИЦ=30-40 может быть вполне заметным.
Для уже зарегистрированных сайтов вполне быть приоритет при регистрации их раздела.
Если сайт не дорвей и не заглушка, то, наверное, причиной промедления служит только малый ИЦ в своей категории.
Фраза "Найден по ссылке" еще не означает в буквальном смысле, что сайт действительно обнаружен только по ссылкам. Выдача из каталога по-прежнему в силе. Хотя Илья Сегалович подчеркивает, что каталог Яндекса не отличается принципиально от других, дело не в отличиях, а в том весе, который придается каталогу, плюс учете текста описания, а не только текста самой ссылки. Поэтому, хотя формально используется один и тот же алгоритм учета текста, на практике следует различать эти случаи.
Отличить выдачу из каталога и сайты, действительно найденные по ссылкам, несложно: у первых в аннотации нет фразы "текст ссылок", да и описание явно составлено человеком, а не роботом. Например, по этому запросу видно, что пятый и девятый сайты выданы именно из каталога, а третий найден по ссылке.
Так об этом речь и шла -- о проблеме дублирования, появляющейся из-за динамических страниц.
Все верно, еще можно вспомнить статьи, разбитые на части, прокомментированные статьи и т.д.
Что касается статьи Яндекса, то она есть тут:
An efficient method to detect duplicates of Web documents with the use of inverted index.
Здесь очень много "но". Например, психологический барьер перед тем, как послать статью в солидное издание/сайт, который будет отсутствовать в каталоге. Кроме того, я неоднократно подчеркивал, что мне нравится идея, а не вялотекущая реализация -- если бы у этого проекта было 3-5 тысяч подписчиков в рассылке и 100-200 ежедневных посетителей, эффективность его уже была не ниже, чем индивидуальные запросы по солидным изданиям.
Я его не продвигаю. Сделав анонс для тех, кому интересно, я даже не стал выносить его в новости -- только сообщение на форуме. И удивлен, что дискуссия приняла философский характер -- нужен или не нужен каталог Климова; я ожидал, что каждый сделает выводы лишь для себя -- будет он использовать каталог или нет.
Что касается права первой ночи, об этом речь не идет -- серьезные издания часто вообще не допускают перепечаток. Более того, нигде не печатавшуюся ранее статью вы можете предложить только одному (увы!) сайту, все остальное будет считаться републикациями. Следовательно, наиболее типичный случай размещения статьи как раз и составляют повторные публикации. Можно ли считать i2r помойкой? А citforum? Но ведь многие статьи на них были ранее опубликованы, а сейчас и вовсе размножились по сети в десятках экземпляров.
Весь сыр-бор загорелся именно из-за нового шанса выжать из каждой статьи все, что можно. И если Климов раскрутит проект, этот шанс станет вполне реальным.
P.S. Есть еще один вариант применения каталога -- информация о новых статьях на какую-то тему. Не просто новости сайтов, а именно уведомления о статьях, раскрывающих какой-то интересующий вас вопрос. Я таких ресурсов не знаю, и пока приходится довольствоваться подпиской на запросы Яндекса плюс каждую неделю обходить сайты, которые часто публикуют статьи на интересные мне темы.
Кстати, это была одна из основных причин, почему убрали в результатах поиска выдачу из каталога. Давление на редакторов стало слишком сильным.
Есть сервера, которые заинтересованы в перепечатке статей. Тот же citforum, i2r и т.д. Но они могут не знать о веб-мастере. Веб-мастер может не знать о них. Каталог Климова не призван повышать ВИЦ или ИЦ, он просто может стать местом встречи веб-мастера и владельцев сайтов, которых интересует перепечатка. Что проще, ежедневно обыскивать сотни серверов или следить за появлением новых статей в одном месте? Что легче, слать предложения десяткам сайтов, или один раз включить свою статью в каталог Климова? Думаю, ответ ясен.
Нет, из более нового источника. Впрочем, это нетрудно проверить самим.
1. Находим через FAST документ размером заведомо более 101Кб. Чтобы они выдавались не в случайном порядке, зададим какой-либо запрос, скажем, "search engine".
2. Берем любой документ (267,8 Кб) и проверяем его наличие в Google: присутствует.
3. Теперь собственно тест.
3.1. Задаем любую фразу из начала документа, например, "Experience in sales of thread rolling or indexable tools is not required". Документ выдается, и что уже подозрительно -- его размер показывается как 101Кб.
3.2. Смотрим кэшированную копию документа и видим, что она подозрительно обрывается на границе примерно в 100Кб.
3.3. Главный тест: задаем запрос из второй части документа, например, "It is the chance to set up a sales team as the sales manager wants it to run". Google ничего не находит.
Если быть особо настырным, можно повторить это на десятке документов и убедиться, что гипотеза верна, но, думаю, это и так уже ясно.