- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте, Михаил.
Прежде всего хочу поблагодарить Вас за интересные данные по статистике запросов. А теперь по сути Вашего сообщения.
Должен уточнить, что я не утверждал относительно 1-3%, а только предполагал. Такая оценка возникла на основе косвенных данных и ни на какую точность не претендует.
Из Ваших же данных действительно можно сделать абсолютно достоверный вывод, что специфические запросы составляют примерно 30%. К сожалению, из Вашего сообщения не вполне понятно, какие запросы имеются в виду - уникальные или же все запросы, поступающие на поисковую машину. Проще говоря, не вполне понятно, каким из двух способов отобран Ваш 1.000.000 запросов:
из запросов, поступающих на поисковую машину, выделяются неповторяющиеся (уникальные) запросы, среди которых отбирается 1.000.000 запросов;
фиксируем все последовательные запросы, поступающие на поисковую машину, до тех пор пока не наберем 1.000.000 запросов. Понятно, что среди этих запросов много повторяющихся.
Я имел в виду 2-й способ, когда учитывается частота поступления запросов. Тогда среди 1.000.000 запросов некоторые частотные запросы типа "реферат" будут встречаться тысячи раз, и эти несколько тысяч запросов не будут специфическими.
Но, собственно, не это главное. Смысл в том, чтобы при оценке объема базы данных учитывать долю специфических запросов. Возьмем Вашу оценку в 30% и посмотрим, как изменится интегральная оценка объема баз данных поисковых машин. При этом считаем, что по неспецифическим запросам все базы данных примерно равноценны. Возьмем данные по объемам баз данных, приведенные в письме Ильи Сегаловича:
Относительные размеры базы от 5 июня
Яндекс: 100%
Рамблер: 27,2%
Апорт: 73,6%/70,7% (по словоформам/словам)
Альтависта: 15,8%
Гугль: 73,4%/89,1% (default/нефильтрованный)
Фаст: 53,2%
Данные для Альтависты изменятся на:
15,8% + (100%-15,8%)*0.7 = 74,74%
А модифицированная таблица приобретет вид:
Яндекс: 100%
Рамблер: 78,16%
Апорт: 92,08%/91,21% (по словоформам/словам)
Альтависта: 74,74%
Гугль: 92,02%/96,73% (default/нефильтрованный)
Фаст: 85,96%
Дополнительно должен отметить, что:
1) приведенная модифицированная таблица имеет чисто иллюстративный характер и ни в коей мере не претендует на ревизию результатов оценки Ильи Сегаловича;
2)учет доли специфических запросов нельзя считать единственным фактором, влияющим на оценку объема базы данных. В самом деле, даже если специфических запросов (с учетом частотности) всего 1%, всегда найдутся пользователи, которые лишь иногда задают специфические запросы, но по опыту выполнения именно этих запросов почти всегда отдают предпочтение поисковой машине с максимальным объемом базы данных.
С уважением,
Николай Харин
Михаил, а теперь скажите, сколько из этих "специфических" запросов составляли запросы, состоящие из одного слова, подобные тем, что использовал Илья Сегалович в своих изысканиях
[This message has been edited by wolf (edited 12-09-2001).]</font>
Уважаемый wolf. Обратите внимание на то, что каждая искалка по-своему обрабатывает запросы из двух слов. Булевский поиск в девственном виде практически не используется в поисковых системах. Ни в мировых, ни в локальных. Эту тему я затрагивал в описании методики (см исходный постинг)
"Подобные изыскания" (запросы по одному слову) используют все известные мне исследователи Интернета. Лоренс и Гиль (а также Бхарат и Бройдер) использовали их для оценки размера Интернета (публикации 1997-2000 гг). Грегори Греффенштет оценивал таким образом соотношение различных языков, представленных в интренете (2000г). Данни Салливэн постоянно мониторит при помощи таких запросов заявленные и реальные размеры мировых систем.
Илья
Ок, Илья. Пусть будут только запросы из одного слова. Как Вы прокомментируете корректировку Ваших результатов Николаем Хариным? Он брал для корректировки цифру в 30% (которая учитывает все запросы, а не только, состоящие из одного слова). Чтобы сделать более корректную корректировку (каламбурчик!) хотелось бы узнать, какую часть из запросов, состоящих из одного слова, составляют запросы, на которые откликается менее 1000 страниц. Если менее 30%, то преимущества Яндекса над остальными поисковикамии вообще не будет видно.
[This message has been edited by wolf (edited 12-09-2001).]
Здравствуйте, Николай.
Смысл в том, чтобы при оценке объема базы данных учитывать долю специфических запросов. Возьмем Вашу оценку в 30% и посмотрим, как изменится интегральная оценка объема баз данных поисковых машин. При этом считаем, что по неспецифическим запросам все базы данных примерно равноценны</font>
Здесь явно какое-то непонимание.
Методика нацелена на измерение "полного размера базы". В документах (байтах или чем там еще). Эта величина от запросов не зависит. Я не измеряю "равноценность запросов", "равноценность баз", "релевантность поиска по 100 самым популярным запросам" или еще какие-нибудь неуловимые и эфемерные показатели.
Какова связь полного размера базы и запросов? Я не понимаю. Например, если за прошлую неделю к Яндексу сделали один запрос, а к Рамблеру 1000, то неужели это влияет на размер их баз?
Я утверждаю, что:
1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,
не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. Для этого я, по возможности, аккуратно и последовательно исключаю один фактор, влияющий на точность оценки, за другим. В настоящий момент, в частности, я занят процентом дубликатов, которые, по-моему убеждению, вполне логически ложатся на эту методику. Хотя и относятся, скорее, уже к качественным, а не количественным показателям базы.
Михаил утверждает, что:
2. Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.
Примерно в 20-40 процентах запросов.
Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.
Илья
Я утверждаю, что:
1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,
не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. </font>
Проводились ли какие-нибудь исследования по ОЦЕНКЕ АДЕКВАТНОСТИ Вашей методики?
Всякий, кто сколько-нибудь серьезно занимался наукой, знает, что результаты, полученные при применении методики, адекватность которой не оценивалась, по своей цености сравнимы с результатами, просто взятыми с потолка.
Илья, спасибо за проведенное исследование
Поставленную задачу - оценить абсолютные размеры баз поисковиков, оно решает вполне адекватно.
Примерно в 20-40 процентах запросов.
Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.
</font>
Судя по апортовским логам, из запросов, по которым ничего не находится, случаи, когда в базе действительно нет информации, которую ищет пользователь составляют процентов 10-15. В остальных случаях информация есть, но запрос плохо сформулирован: с орфографическими ошибками (около 40%), слишком детализированно (многословно), с семантическими ошибками... Конечно, иногда в этих случаях полнота базы может помочь все-таки найти то что требовалось, но такие случаи составляют явное меньшинство и проблема тут, все-таки, не в полноте... А из упомянутых 10-15% значительную часть составляют запросы, по которым информации в интернете (российском) просто нет, и, соответственно, полнота базы не имеет никакого значения.
Среди запросов, по которым нашлось немного, "хороших", наверняка, больше (не знаю, насколько...), с другой стороны, не всегда тут немного означает недостаточно.
В то же время, то что найдено много, еще не гарантирует, что полнота базы неважна (процент случаев, когда это так, невелик, но абсолютное значение может оказаться довольно значительным).
В общем, я не думаю, что значение полноты базы для качества поиска можно оценивать по количеству запросов давших небольшое количество результатов.
Скрипт, который делает почти все, вместе со вспомогательными программами,
выложен на всобщее обозрение по сайту
http://autoluba.narod.ru
Илья
Здравствуйте, Николай.
Здесь явно какое-то непонимание.
Методика нацелена на измерение "полного размера базы". В документах (байтах или чем там еще). Эта величина от запросов не зависит. Я не измеряю "равноценность запросов", "равноценность баз", "релевантность поиска по 100 самым популярным запросам" или еще какие-нибудь неуловимые и эфемерные показатели.
Какова связь полного размера базы и запросов? Я не понимаю. Например, если за прошлую неделю к Яндексу сделали один запрос, а к Рамблеру 1000, то неужели это влияет на размер их баз?
Я утверждаю, что:
1. Моя методика измеряет полный размер поисковой базы данных. Не осредненную видимую ее часть при поиске,
не качество поиска, и (пока) даже не число нечетких дубликатов в ней. А абсолютный размер. Для этого я, по возможности, аккуратно и последовательно исключаю один фактор, влияющий на точность оценки, за другим. В настоящий момент, в частности, я занят процентом дубликатов, которые, по-моему убеждению, вполне логически ложатся на эту методику. Хотя и относятся, скорее, уже к качественным, а не количественным показателям базы.
Михаил утверждает, что:
2. Абсолютный размер базы данных (например, измерямый числом разных проиндексированных документов) имеет значение при поиске.
Примерно в 20-40 процентах запросов.
Именно такое количество запросов на Яндексе находит относительно небольшое, перечислимое число документов, а значит, и полнота базы становится важным фактором.
Илья</font>
Здравствуйте, Илья
Прежде всего, прошу извинить за большую задержку с ответом – раньше, к сожалению, никак не мог. А теперь по существу вопроса.
Вы пишите, что "методика нацелена на измерение "полного размера базы". Это понятно. Однако мое последнее сообщение относилось, скорее, не к самой методике, а к некоторым смежным вопросам. Предположим, что Ваша методика идеальна и безоговорочно признана всем Интернет-сообществом. Согласно данным Ваших измерений от 05.09.2001, размер базы Фаст составляет: 44,7% от размера базы Яндекса. Значит ли это, что Яндекс в 2 раза лучше, чем Фаст. На мой взгляд, это неочевидно, что я и пытался пояснить в своем сообщении.
Основными характеристиками поисковой системы считаются полнота и точность, а не размер базы данных. Полнота, безусловно, зависит от размера базы данных, причем эту зависимость можно считать линейной. Однако при большом числе найденных по запросу документов полнота особого значения не имеет в силу ограниченной способности человека к просматру документов. В самом деле, если по некоторому запросу 1-я поисковая система находит 50000 документов, а во 2-й системе найдено 5000 документов, то для человека разница невелика, а лучшей будет система с более эффективным ранжированием.
Отсюда вывод: размер базы сказывается только на тех запросах, по которым найдено немного документов. Под "немного" понимаем такое количество документов, которое способен просмотреть достаточно терпеливый пользователь (едва ли это будет бодьше 150-200). Поэтому влияние размера базы на полноту поиска определяется долей таких специфических запросов. При определении указанной доли обязательно следует учитывать частоту поступления запросов в поисковую систему. Поскольку по частотным запросам обычно находится много документов, то называемая Вами, Илья, цифра в 20-40% все же не очень убеждает, хотя, возможно, это и так. Может быть, Вы имели в виду уникальные запросы без учета их частотности. Если не трудно, поясните, пожалуйста.
С уважением,
Николай Харин
Вы пишите, что "методика нацелена на измерение "полного размера базы". Это понятно. Однако мое последнее сообщение относилось, скорее, не к самой методике, а к некоторым смежным вопросам.</font>
Николай, может, конечно, я ошибаюсь, но, скорее всего, Илья подразумевал, что все смежные вопросы, касающиеся влияния "полного размера базы" на релевантность поиска, известны участникам данного форума, и потому просто их опустил.
Это вполне логично, как если бы врач, описывающий методику и результаты измерения артериального давления у группы пациентов, промолчал бы о том, что давление -- не единственный показатель, влияющий на здоровье. Другие врачи-то понимают роль давления.
С уважением,
Александр Садовский.