В индексе Яндекса максимум 1000 страниц?

1 23
юни
На сайте с 01.11.2005
Offline
933
#21

WhiteSmartFox, тролль чтоле? Или где?

WhiteSmartFox:
Не говоря уже о том, зачем реализовывать два разных алгоритма выдачи, и для кол-ва проиндексированных страниц реализовывать другой алгоритм выдачи, чем для простых запросов?

Не в курсе, да? Так не надо здесь долбокурилку устраивать, если не в курсе.

Psycho:
Предположим, что разница есть.

Тоже теоретег?

Разумеется, разница есть.

Psycho:
и ни разу не волнуют обычного пользователя

Какого ещё пользователя? При чём здесь, в очередной раз, пользователь? Где здесь, и кто, хоть раз сказал про пользователя, кроме любителей потроллить/пофлудить?

Первое. В случае ответа на поисковый запрос есть два принипиальных момента - 1) сравнивается содержимое разных сайтов, которое 2) нуждается в специфической сортировке. Обоих этих нюансов лишен запрос о количестве проиндексированных страниц, где не нужно ни сравнение, ни сортировка (пресловутое "по релевантности" в случае с url:site лишено смысла - какая страница, чему, и по каким признакам будет более или менее релевантна в этом случае?).

Поэтому, когда встаёт вопрос о том, отдавать ли часть страниц, или их все, то - как минимум - возникает вопрос о том, какую именно часть отдавать, и какую нет. И только в одном случае подход с частью однозначно менее ресурсоемок: если пользователю показываются те страницы, доступ к которым ПС может получить с максимальной скоростью.

Если же для этого используется тот или иной алгоритм расчёта "релевантности", то - как минимум ещё раз - встаёт вопрос о его целесообразности, именно с точки зрения экономии машинных ресурсов. Потому что для вычисления этой "релевантности" (что бы под ней не подразумевалось) так или иначе требуется взять весь массив проиндексированных страниц, обсчитать его, и по результату выдать пресловутую тысячу.

То бишь, здесь - опять же, как минимум - есть место для дискуссии, что будет экономнее: выдать пользователю заранее обсчитанный ограниченный объём данных, или же выдать ему всю информацию разом, затратив на это одну операцию и больше к ней не возвращаясь.

Троллям и флудерам - на заметку.

Второе. Я здесь появился с сугубо техническим вопросом, ответ на который - грамотный, сцуко, ответ на который - нужен мне исключительно в практических целях: поскольку через меня проходят десятки миллионов этих вот ваших сео-запросов, "пользователем не используемых, нагружающих сервера по пятисотое число, не нуждающихся в специальных алгоритмах расчёта" и прочее бла-бла-бла - то и нюансы архитектуры высоконагрузочного решения под эту задачу - как алгоритмические, так и аппаратные - интересуют меня живейшим образом.

Не долборассуждения искусствоведов на тему "зачем ботам сенокосилки?", а буквальный ответ на буквально понятый вопрос.

Это - понятно?

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
[Удален]
#22
юни:
Тоже теоретег?

Конечно, это только ты точно знаешь, как Яндекс работает. :)

юни:

Второе. Я здесь появился с сугубо техническим вопросом, ответ на который - грамотный, сцуко, ответ на который - нужен мне исключительно в практических целях: поскольку через меня проходят десятки миллионов этих вот ваших сео-запросов, "пользователем не используемых, нагружающих сервера по пятисотое число, не нуждающихся в специальных алгоритмах расчёта" и прочее бла-бла-бла - то и нюансы архитектуры высоконагрузочного решения под эту задачу, как алгоритмические, так и аппаратные, интересуют меня живейшим образом.

Спроси у Яндекса. ;)

WS
На сайте с 17.11.2010
Offline
25
#23
юни:
Я здесь появился с сугубо техническим вопросом, ответ на который - грамотный, сцуко, ответ на который - нужен мне исключительно в практических целях

Сугубо практический? У вас есть своя поисковая система? У меня есть (и она популярнее апорта к примеру), но даже я не задаюсь пока подобными вопросами, просто по тому что принципы файла индекса Яндекса или Гугла настолько сложны (даже очень раннего Яндекса, по которому можно найти статьи), что сделать что-то либо похожее стоит очень очень дорого. Поэтому даже если вам расскажут все алгоритмы Яндекса это будет бесполезно, если вы сами не будите делать ПС подобного уровня, для обычных сайтов алгоритмы ПС бесполезны.

WhiteSmartFox добавил 11-01-2011 в 17:42

юни:
Не в курсе, да?

Частично в курсе, файл индекса ПС построены таким образом, что не всегда тривиальные задачи сделать проще чем более сложные, так как это не обычная база, и вернуть список всех страниц с сайта может теоретически быть более трудоемким, чем ответ на обычные запросы.

WhiteSmartFox добавил 11-01-2011 в 17:48

юни:
Обоих этих нюансов лишен запрос о количестве проиндексированных страниц, где не нужно ни сравнение, ни сортировка (пресловутое "по релевантности" в случае с url:site лишено смысла - какая страница, чему, и по каким признакам будет более или менее релевантна в этом случае?).

Кто сказал, что в этом случае нет сравнения и сортировки?

Запрос site:forum.searchengines.ru - первая главная страница, а потом будет сортировка по некоторому весу страницы для Яндекса (аналога PR), вообще запросы вида 'site:forum.searchengines.ru' не так часты, чтобы делать для них специальные алгоритмы генерации, так что вполне возможно, что используется обычный алгоритм просто для некоторого вырожденного случая.

WhiteSmartFox добавил 11-01-2011 в 17:51

WhiteSmartFox:
Я здесь появился с сугубо техническим вопросом

Вам стоит переформулировать этот вопрос, какая лично у вас задача стоит и что вы хотите сделать? Гадать как и что реализовано у Яндекса можно бесконечно, но мало поможет решению реальных задач, т.к. во-первых, чтобы вам ответить надо работать в Яндексе, во-вторых, что хорошо для Яндекса, для другого сервиса или сайта будет смертью (скажем вместо того чтобы реализовывать файл индексов типа как Яндекса за бешенные $$$, менее крупному сервису имеет смысл поставить хорошую промышленную БД, типа Оракла и нанять грамотного специалиста по перфомансу и разработке по Оракал, это будет куда дешевле и проще).

юни
На сайте с 01.11.2005
Offline
933
#24
Psycho:
Конечно, это только ты точно знаешь, как Яндекс работает.

Элементарных познаний - конечно, не растерял.

WhiteSmartFox:
вернуть список всех страниц с сайта может теоретически быть более трудоемким

Так Вы знаете что-либо об этом, или нет?

WhiteSmartFox:
Кто сказал, что в этом случае нет сравнения и сортировки?

Так они есть? Поведайте миру.

WhiteSmartFox:
стоит переформулировать этот вопрос

Почему ПС предпочитают ограничивать для пользователя количество проиндесированных ими страниц ресурса, вместо того, чтобы отдать полный их список? С практическими примерами, показывающими преимущества и недостатки обоих случаев.

И да, существует способ увидеть тысяче первую страницу?

WS
На сайте с 17.11.2010
Offline
25
#25
юни:
И да, существует способ увидеть тысяче первую страницу?

Способ существует, достаточно добавить любое стоп слово (скажем местоимение или предлог) в запрос скажем:

'и site:forum.searchengines.ru', 'на site:forum.searchengines.ru', 'в site:forum.searchengines.ru', конечно возможны повторения, но в принципе большинство страниц сайта таким образом можно получить (если использовать парсер выдачи).

K
На сайте с 31.01.2001
Offline
737
#26
юни:
Я не вижу существенного возрастания нагрузки. Разве что на каналы.

Конечно, снаружи этого не видно.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
WS
На сайте с 17.11.2010
Offline
25
#27
юни:
Так они есть? Поведайте миру

Почему нет? Конечно есть.

Набираем site:forum.searchengines.ru смотрим выдачу, первая главная страница сайта, вторым страница login.php -на неё есть ссылки с любой страницы сайта вполне логично что она вторая, следующие 7 результатов это разделы форумов (причем вполне популярные разделы), тоже вполне логично что они первые, если бы не было никакой сортировки по теории вероятности мы должны были увидит любые из 500 тыс. страниц сайта, а увидели первыми 9 страниц на которых было больше всего внутренних (и скорее всего внешних) ссылок => сортировка результатов есть.

Если не убедил наберите 'и site:forum.searchengines.ru', 'в site:forum.searchengines.ru' и т.п. запросы и увидите именно почти случайные страницы сайта, а не те на которых есть больше всего внутренних и внешних ссылок.

Alex91
На сайте с 30.12.2007
Offline
258
#28
юни:
И да, существует способ увидеть тысяче первую страницу?

1001 по обычно сортировке без слова, или 1001 отличную от 1000?

WhiteSmartFox:
а увидели первыми 9 страниц на которых было больше всего внутренних (и скорее всего внешних) ссылок => сортировка результатов есть.

я иногда видел сортировку, что новые попадали на первые страницы

C Уважением, Алексей
WS
На сайте с 17.11.2010
Offline
25
#29
юни:
Почему ПС предпочитают ограничивать для пользователя количество проиндесированных ими страниц ресурса, вместо того, чтобы отдать полный их список?

Что сортировка проиндексированных страниц есть, я уже показал выше, дальше возможно два варианта:

1) (Более вероятный) ПС сразу для любого запроса выбирает и сортирует 1000 страниц сайта и при переходе на страницу выдачи просто отображает нужные страницы из кеша => увеличение кол-ва страниц в выдаче увеличит затраты ресурсов для любого запроса (логично что каждый раз сортировать 50 тыс страниц сложнее чем 1000).

2) ПС выбирает только нужное кол-во страниц (скажем 10) и их сортирует, тогда для новой страницы выдачи он должен пересчитать все предыдущие, т.е. чтобы вернуть с 50000 по 50010 страницу сайта он должен отсортировать перед этим 49999 страниц, вполне логично что это потребует куда больших ресурсов чем сортировка 990 страниц.

WhiteSmartFox добавил 12.01.2011 в 01:42

Alex91:
я иногда видел сортировку, что новые попадали на первые страницы

Ну тут тоже есть логика, по крайне мере, все равно какая-то сортировка при запросе 'site:имя_сайта' существует.

юни
На сайте с 01.11.2005
Offline
933
#30
Kost:
Конечно, снаружи этого не видно.

Я уже понял, что проще напрямую к технарям из Яндекса обратиться, чем местных "профи" выслушивать.

WhiteSmartFox:
Что сортировка проиндексированных страниц есть, я уже показал выше

Что Вы показали выше? Что по запросу появляются какие-то страницы в каком-то порядке? Это всем и без Вас видно.

По какому принципу они сортируются, Вам известно? Поведайте миру об этом.

В нортоне досовских времён тоже была "сортировка" по Ctrl+F6, которая называлась unsorted - она тоже выглядела весьма загадочно и таинственно, для подобных профи. Суть метода заключалась в выдаче списка файлов в порядке, в котором они были записаны на диск - конечно, такой список можно назвать "отсортированным", вот только применительно к нашему случаю до "принципа ранжирования" он как-то недотягивает.

Вы можете сколько угодно гадать о том, как "ранжируются" документы при запросе числа проиндексированных, но с т.з. архитекутуры наиболее рационален имено метод unsorted, позволяющий обработать запрос наиболее быстрым (см. реплику №22) способом.

"Показали они выше", блин...

WhiteSmartFox:
1) (Более вероятный) ПС сразу для любого запроса

Обрабатывать разные типы запросов по одинаковым алгоритмам - есть поступок, говоря мягко, бездумный.

WhiteSmartFox:
2) ПС выбирает только нужное кол-во страниц

Ещё раз - чтобы узнать "нужные", придётся предварительно обработать всё, имеющееся в наличии.

Alex91:
1001 по обычно сортировке без слова, или 1001 отличную от 1000?

В чём разница для запроса вида url:site (число проиндексированных для одного сайта)?

Да, мне желательно увидеть прямой способ, а не попытки обойти ограничения через, например, проверку по точному вхождению и сравнению результата с тысячей, полученных в ответ на запрос про индексацию. Понятно, что окольных путей можно измыслить множество.

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий