Количество найденных страниц у Яндекса

С
На сайте с 23.05.2003
Offline
0
1519

Кто-нибудь знает ответы на следующие два вопроса:

1. Почему Яндекс выдает на "+будет +он +она +мы +для" только две страницы, тогда как их должно гораздо больше. Дело, наверно, в стоп-словаре, но почему все-таки только две страницы, а не 100?

2. Пусть дано четыре запроса

а+ b+

a+ b-

a- b+

( a | b)

где a и b - какие-то русские слова.

Почему сумма страниц на первые три запроса не равна кол-ву страниц по

последнему запросу ( a | b).

Для а="мама" и b="папа" разница составляет 300000 страниц.

F
На сайте с 15.11.2000
Offline
116
#1
Как писал Сокирко
1. Почему Яндекс выдает на "+будет +он +она +мы +для" только две страницы, тогда как их должно гораздо больше. Дело, наверно, в стоп-словаре, но почему все-таки только две страницы, а не 100?

Потому что они ищутся примерно в пределах предложения. Для поиска в пределах документа используйте язык запросов: +будет && +он && +она && +мы && +для.

Почему сумма страниц на первые три запроса не равна кол-ву страниц по последнему запросу ( a | b).

Во-первых, используйте язык запросов (см. выше). Во-вторых, чтобы исключить слово, дефис ставится перед словом, а не после него. В-третьих, кластерная структура поисковой системы может давать небольшие отличия.

У меня разница получилась около 100 страниц на двух миллионах.

С уважением,

Александр Садовский.

С
На сайте с 23.05.2003
Offline
0
#2

>> Во-вторых, чтобы исключить слово, дефис ставится перед словом

Sorry, в реальном запросе я так и писал - в начале слова. В письме набил неверно.

С первым вопросом стало ясно. А со вторым не очень. Где-то есть официальные сведения о тех погрешностях в кол-ве найденных страниц,

которые выдает Яндекс? Больше 100 страниц погрешности не бывают?

F
На сайте с 15.11.2000
Offline
116
#3
Как писал Сокирко
С первым вопросом стало ясно. А со вторым не очень. Где-то есть официальные сведения о тех погрешностях в кол-ве найденных страниц,
которые выдает Яндекс?

А как это можно прогнозировать? Проблема состоит в том, что при большой нагрузке какой-то кластер не успевает ответить на запрос пользователя в заданное время. Соответственно, в часы минимальной нагрузки (скажем, в ночь на 1 января), скорее всего, результаты будут точными; а если произойдет какое-нибудь 11 сентября досрочно -- нагрузка может быть намного больше планируемой и многие пользователи "недополучат" часть ответа.

С уважением,

Александр Садовский.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий