- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В продолжение июньского выпуска
, отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня.
Комментарии к методике и пояснения к таблице там же.
Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября.
Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях.
Комментария и дополнительные пояснения.
Относительные размеры баз от 5 сентября- Яндекс: 100%
- Рамблер: 37,3%
- Апорт: 55,1%/60,9% (по словоформам/словам)
- Альтависта: 9,9%
- Гугль: 38,4%/67,3% (default/нефильтрованный)
- Фаст: 44,7%
Для сравнения:
Относительный размер баз к июньским данным примерно:- Яндекс - 135,2%/137,9%. (слова/словоформы)Для сравнения, по официальным Яндекса рост за лето составил 129.1%/124,3% (в документах/в байтах)
- Рамблер - 190,6%
- Апорт - 107,4%/112,8% (слова/словоформы)
- Альтависта - 88,7%
- Гугль - 70,5%/110,0% (default/нефильтрованный)
- Фаст - 113,0%
Выводы- наблюдается интенсивный рост Рамблера (с нуля это нетрудно, Влад, не обижайтесь
) - Фаст, Апорт выросли примерно на 10%
- Гугль стал по другому фильтровать выдачу -сразу же стал сообщать полное (нефильтрованное) число найденного, но по списку при этом можно ходить только по первой "фильтрованной" части. Только дойдя до конца default-ной выдачи можно теперь узнать размер фильтрованной части. Полное число найденного ("нефильтрованное") выросло примерно так же как и у Фаста с Апортом - то есть на 10%. Надо заметить, что фильтрация заметно усилилась. NB: В июньской публикации нефильтрованных данных не было, я их посчитал чуть позже - на следующий день.
- 30-процентный рост яндекса объясняется двумя факторами - ..skipped..

- Грубо картина выглядит сейчас так: яндекс 100, гугль 70, апорт 60, фаст 50, рамблер 40
С уважением,
Илья
2 iseg
Илья, спасибо за информацию.
Кстати, можно ли в Яндексе поискать только
документы, находимые по ссылкам (ну, вроде
www.nyse.com)? Я нашел только косвенный
способ: $anchor (New York Stock Exchange),
но это не совсем то, что надо.
На указанные в таблице словах ссылочных
документов почти нет (или вообще нет,
я до конца все списки не просматривал), а
вот когда мне захотелось посмотреть другие
запросы, тут я и попал - показываются
документы, где была ссылка, и плюс к ним
документы, куда эта ссылка вела.
С уважением,
Влад Шабанов
[This message has been edited by vs (edited 07-09-2001).]
В продолжение июньского выпуска
, отражавшего относительные размеры "русскоязычных баз" интернет-поисковиков в конце мая/начале июня.
Комментарии к методике и пояснения к таблице там же.
Это новые данные. Вчера посчитал. Отражают относительные размеры баз по состоянию на границу августа/сентября.
Добавлена новая колонка Google&filter=0 - поиск в Гугле с отключенным фильтром "примерных повторов". Объяснения ниже в комментариях.
</font>
Представляется, что используемая методика оценки объема базы данных не вполне совершенна. Если по некоторому запросу 1-я поисковая система находит N1 документов, а 2-я система - N2 документов, причем N1>N2, то, строго говоря, данное обстоятельство вовсе не означает, что применительно к рассматриваемому запросу у 1-й системы более полная база, чем у 2-й. Например, 2-я система может иметь менее мощную морфологию или не иметь ее вовсе и, кроме того, более строго подходить к определению дублей документов. Ясно, что в такой ситуации 2-я система может найти меньше документов при большем объеме базы данных. Более того, с формальной точки зрения всегда можно усомниться, что система, выдавшая сообщение о 635 найденных документах в действительности нашла именно столько документов, а не, скажем, 348.
Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.
С уважением,
Николай Харин
Точно. Гугль вон заявляет, что проиндексировал 1 387 529 000 страниц, а люди утверждают, что на самом деле - всего 730 миллионов (см. дискуссию )
А вообще подобные изыскания с публичным оглашением итогов очень смахивают на любование собою, любимым (пардон за тавтологию)
А вообще подобные изыскания с публичным оглашением итогов очень смахивают на любование собою, любимым (пардон за тавтологию)</font>
Я четыре года ждал, пока "подобные изыскания" кто-нибудь в данной стране соблаговолит произвести.
Устал, знаете ли. Да и любовь к себе покоя не дает.
Илья, спасибо за информацию.</font>
Так все-таки, Рамблер за лето вырос на 90%?
Кстати, можно ли в Яндексе поискать только
документы, находимые по ссылкам (ну, вроде
www.nyse.com)? Я нашел только косвенный
способ: $anchor (New York Stock Exchange),
но это не совсем то, что надо.
</font>
Ниже адаптированный фрагмент нашей текущей YACC-спецификации.
some_factor:
...
| zone '[' expression ']'
| attr '[' expression ']'
| zone '#' attr '[' expression ']'
| zone '#' attr
| attr
| '#' attr
....
zone : IDENT
;
attr: a_name '=' '(' a_request ')'
| a_name relation a_value
;
a_name : IDENT
;
a_request : subexpression
;
relation :
'<'
| '<="
| '=='
| '>='
| '>
;
a_value :
ATTR_VALUE
Необходимые пояснения:
ATTR_VALUE - это нечто в кавычках. Последний символ перед кавычками может быть звездочкой.
IDENT - это последовательность букв и цифр начинающихся с буквы.
expression, subexpression - практически то же самое, что и запрос
Форма a_name '=' '(' a_request ')'
относится к "токенизируемым" атрибутам. Сейчас это keywords (kw), abstract и hint
Форма a_name relation a_value
относится к "литеральным" атрибутам. Сейчас это url, link и еще миллион других.
Все это у нас называется зонно-атрибутивный поиск и работает года так с 1997-го. (с небольшими изменениями в синтаксисе)
Пользователи Яndex.Lib и Яndex.CD всегда знали об этих возможностях.
Мы не открывали(ем) всех их публично из опасения прогрузки большого поиска. Хотя недавно этот поиск раза в два ускорился, может быть скоро откроем.
Пара примеров (извините за неполноту - очень занят):
С уважением,
Илья
Здравствуйте, Николай.
Представляется, что используемая методика оценки объема базы данных не вполне совершенна.</font>
Отчасти. В своем первоначальном постинге я назвал ее "наколеночной".
Этот момент подробно обсуждался в исходном постинге тоже. Тем не менее, раз пошла такая пьянка
, давайте еще раз, подробнее:
- границы частей речи не пересекаются (т.е. словообразование при поиске не используется)
- причастия считаются глаголами
- отглагольные существительные в парадигмы глаголов не включаются
- наречия и прилагательные в одну парадигму не входят
Заметьте, что глаголов и отглагольных существительных в списке нет.Это не совсем так. Физический размер базы отражается, в любом случае точно, хотя "логический" нет.
Я планирую в "меряющем скрипте" проводить обе проверки на дублирование, которые упомянуты в исходном постинге. "Четкую" по контрольной суммме и "нечеткую" по Левенштейну.
Поэтому можно сказать, что данную методику следует использовать, скорее, на предварительном этапе сравнения полноты баз данных поисковых систем. В результате применения методики может лишь возникнуть подозрение, что у 1-й системы более полная база данных, чем у 2-й. Но подозрение не есть уверенность. Для получения же уверенного вывода нужна более точная методика.
</font>
Это, по видимому не относится к цифрам относительного роста баз. Так как способ поиска один и тот же. (за исключением ситуации смены алгоритмов - но, похоже, этого не случилось)
В остальном совершенно с Вами согласен. Контуры улучшенной методики в исходном постинге тоже описаны.
Я как раз сейчас для круглого стола на АДЭ (от Вас там выступает Иванов), реанимирую наш старый скрипт, который делал примерно это же в году 1998-1999. Яндекс по размеру базы тогда неуклонно догонял и перегонял Рамблер.
Результат, видимо будет "public domain", чтобы любой заинтересованный человек мог исправить ошибки, перемерять, поменять список слов и т.д.
С уважением,
Николай Харин
</font>
С уважением,
Илья Сегалович
Точно. Гугль вон заявляет, что проиндексировал 1 387 529 000 страниц, а люди утверждают, что на самом деле - всего 730 миллионов (см. дискуссию </font>
Обе цифры верны. Первая дана с учетом непроиндексированных документов (в базе гугля только ссылки на них), вторая - такая же официальная и тоже исходит от Гугля - число "реально приндексированных" разных документов.
Вообще эти "две цифры" и их обсуждение фигурируют везде где только можно уже года два как.
Кстати, последние известия - в Гугле уже есть "реально проиндексированный" миллиард.
Но если судить по русской части - то 800+10% - все-таки больше похоже на 900 миллионов.
Прежде всего, должен уточнить, что морфологию и дубли я упомянул просто как возможные факторы, влияющие на количество найденных по запросу документов, не имея в виду никаких конкретных поисковых машин.
Далее, обсуждаемая методика вполне может использоваться в качестве предварительного теста при сравнении объемов баз данных различных систем. Несомненные ее преимущества - низкая трудоемкость и высокая оперативность. Недостаток же методики в том, что полученные с ее помощью результаты могут быть легко оспорены. Вот, собственно, и все.
Что касается точной методики, от результатов применения которой, грубо говоря, не отвертишься, то это отдельный вопрос, который, возможно, не так уж, на самом деле, и интересен. По-моему, совсем не очевидно, что двойной рост базы данных системы в такой же пропорции увеличивает ее качество. Базы данных всех трех основных рунетовских поисковых машин достаточно велики и по типовому запросу в них находится громадное количество документов. Поэтому намного важнее не объем базы, а качество ранжирования и способ представления найденных документов. Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%). Для пользователей, задающих такие запросы, объем базы, конечно, очень важен. Для основной же массы пользователей нет особой разницы между понятиями "много" и "очень много".
С уважением,
Николай Харин
... Понятно, что существует какое-то количество специфических запросов, для которых объем базы выходит на первый план. Однако с учетом частотности такие специфические запросы составляют очень невысокую долю обращений к поисковой системе (думаю, что это не более 1-3%).
</font>
Николай, Ваше последнее утверждение мне показалось весьма странным.
Вот статистика по количеству найденных документов по выборке из ок. 1000000 запросов к Яндексу (за 6 сентября 2001 года, четверг)
больше 10000 док-тов - 24.7039% запросов
от 10000 до 1000 док-тов - 21.3845% запросов
от 1000 до 100 док-тов - 21.4794% запросов
от 100 до 10 док-тов - 13.9635% запросов
от 10 до 1 док-тов - 8.37546% запросов
0 док-тов - 10.0933 запросов
Примечания.
1. Указывается общее число найденных док-тов, в том числе и с "нестрогим соответствием"
2. Среди случаев, когда ничего не находится, заметную часть (на глаз - процентов 20-30) составляют запросы с синтаксической ошибкой.
Основной вывод следующий: "специфических", как Вы их назвали, запросов _много_: порядка 25-30% (а не 3%). Их нельзя игнорировать - по крайней мере Яндексу.
Может, на Рамблере пользователи совсем другие?
Хотелось бы поэтому увидеть подобную статистику для
Рамблера (и вообще, хоть какую-нибудь статистику по запросам к Рамблеру)
С уважением,
Михаил Маслов
Михаил, а теперь скажите, сколько из этих "специфических" запросов составляли запросы, состоящие из одного слова, подобные тем, что использовал Илья Сегалович в своих изысканиях. Я думаю, возьми он словосочетания, которые и составляют подавляющее большинство "специфических" запросов (т.е. которым удовлетворяет относительно небольшое количество документов) результаты изысканий могли быть совсем другими.
[This message has been edited by wolf (edited 12-09-2001).]