В основной части исследования и разделе методологии приведено описание. Если вкратце -- искались 25 редких терминов, количество найденных страниц определило относительный объем базы поисковиков. Для определения абсолютного объема базы полученные числа умножались на объем базы Northern Light и FAST, так как язык запросов NL позволяет получить точное число документов в базе (term OR NOT term). Аналогичный прием есть и у FAST, но Greg Notess не имеет права его открывать. Итоговые показатели -- грубая оценка объема базы поисковиков.
С уважением,
Александр Садовский.
Согласно исследованию Searchengineshowdown от 14 августа 2001, у Google проиндексировано 730 миллионов страниц, WISEnut -- 510 (между ними поместился FAST с 552 миллионами).
А что Вы уже сделали? И что получилось? Как Вы думаете, почему? Почему у конкурентов все получается? А что надо сделать Вам, чтобы достичь нужного результата?
Рецепт успеха очень простой: думать, анализировать, размышлять. Вам известны запросы, по которым хочется встать на видном месте? Известны, равно как и сайты, которые входят в первую десятку по данным запросам. Особенность работы с html такова, что скрыть код интересующего Вас сайта нереально (клоакинг исключаем, так как это довольно редкая вещь и наказуемая). Следовательно, все необходимое для анализа есть, неизвестен только алгоритм поисковика.
Посмотрите, как анализирует Артем Шкондин код сайтов в своей рассылке Измерение релевантности. Посмотрите на сообщения форума, как можно простейшими статистическими методами выяснять интересующие закономерности и взаимосвязи -- например, как определить объем базы поисковика или методика searchengineshowdown, взаимосвязь CY Яндекса и CI Апорта и т.д.
А после того как Вы выложите на форуме все установленные Вами закономерности с доказательствами и обоснованием, которые почему-то сбоят и не дают желаемого результата, мы вместе может попробовать найти ошибку. А разговор в стиле "понять не могу" неконструктивен.
Думаю, дело в случайности -- разном числе ссылок, известных поисковикам. Я проверил, CY и CI Апорта коррелируют, хотя и не так сильно, как хотелось бы (r=0,77). Вот график распределения CY и CI для 62 сайтов разной тематики:
Что касается выдачи Апортом одинакового числа ссылок для обоих сайтов, думаю, здесь сказывается какое-либо ограничение Апорта по времени поиска или по числу ссылок. (Как в обычном поиске он ограничивается 2000/4000 документов.) Иначе получается нелогичность: для сайта РБК (CI=1372) находится 162 ссылающихся сайтов, для сайта Яндекса (CI=150) находится 590 ссылающихся сайтов, и это не единственная нестыковка.
[This message has been edited by funsad (edited 01-09-2001).]
Неплохо бы поздравить Грея и с предыдущими 26-ю ДР.
P.S. С радостью присоединяюсь к поздравлениям.
Согласен с Ильей. Поскольку поиск на форуме работает медленно, а русские запросы не понимает и вовсе, затрагиваемые новичками темы вынужденно повторяются. (К слову, довольно часто при необходимости найти что-либо на форуме я ищу в базе Яндекса, а не поиском форума.)
Безусловно, FAQ -- всегда закостеневшая истина, в отличие от повторного обсуждения, и FAQ требует периодического обновления. Поэтому можно сделать промежуточный вариант -- в FAQ проставить только ссылки на соответствующие ветки форума, а не сами ответы. И Грею работы меньше, и FAQ есть.
Самое простое решение -- поставить счетчик на сайт. Русские поисковики понимает SpyLog. С недавних пор -- и счетчик PING. Анализаторы логов тоже могут помочь, но они, скорее всего, будут знать только зарубежные поисковики.
[This message has been edited by funsad (edited 27-08-2001).]
Реклама 350mb.ru? По слову "hosting" я видел ее еще 8 июля. Что касается геотаргетинга на Google, он есть, судя по статье, как минимум с 9 июня 2001.
1. Несколько раз случалось, что скрипт перекидывал меня на Яндекс (результаты поиска были нулевые, кодировка страницы КОИ-8). Закономерность не отследил.
2. Неплохо бы сделать выдачу информации по мере поиска, а то пару раз скрипт обрывался по таймауту.
3. Были бы удобны кнопки "Select All", "Deselect All".
4. Неплохо бы поисковики разделить на две колонки -- русскоязычные и чисто украинские.
У меня все нормально по обоим запросам.