Индексные поля в базе данных выделяются как отдельные единицы информации. Пересчет их сумм на нескольких машинах займет нереально долгое время - Яндекс

Передача тИЦ и вИЦ с бесплатных хостингов. Хочется все-таки прояснить

espada · 2006-01-06T20:02:33.0000000Z

Говорилось об этом на форуме много, но все как-то вразнобой, так что в итоге ничего не понятно. Одни говорят, что не передается вообще, другие - что только со страниц, на которые нет внешних ссылок. С этими последними все понятно. ИЦ=0, передавать нечего. А вот если у народовского сайта ИЦ=100, достанется ли что-то сайтам, на которые с него стоят ссылки? Вопрос отдельно по тИЦ и по вИЦ.

247

Адепт

13 января 2006, 10:32

#41

Но там зачем-то написано: Отсортировано по релевантности по дате

Эффективное комплексное продвижение для интересных проектов. ( /ru/forum/577451 ) Делюсь опытом.

[Удален]

13 января 2006, 10:33

#42

Адепт, а не находите, что это в яндексе на всех страницах выдачи написано, независимо от того, что он выдает ?

SS

141

Seventh Son

13 января 2006, 10:45

#43

Miha Kuzmin (KMY):
я, к слову, очень сомневаюсь, что тот же оракл из таблицы записи по порядку выводит. Скорее всего несколько потоков сразу отрабатывают.

У них система самописная. Как выводит, честно говоря, не знаю.

«Клянусь своей жизнью и любовью к ней, что никогда не буду жить ради другого человека и никогда не попрошу и не заставлю другого человека жить ради меня» (с) Джон Галт

153

Коля Дубр

13 января 2006, 10:51

#44

Раз уж вытащили топик, дублирую пропавшую ссылку.

http://dubr.com.ru/freehost.html

Разрабатываю общую шину (http://habrahabr.ru/company/floxim/blog/268467/) помаленьку. ...а еще у меня есть бложек (http://www.blogovo.ru/).

151

Back Door Man

14 января 2006, 20:51

#45

Что-то мне подсказывает, что беки одного сайта должны лежать на одной машине, так что кластерность не должна влиять.

Дмитрий

SS

141

Seventh Son

14 января 2006, 21:35

#46

Back Door Man:

Что-то мне подсказывает, что беки одного сайта должны лежать на одной машине, так что кластерность не должна влиять.

Я сильно в этом сомневаюсь.

Во-первых, непонятно, сколько строк в базе данных выделять под страницы сайта, так как индексация может пройти не так, как ожидалась (сайт в дауне, отчетить не успел, не открылось что-то и т.п.)

Во-вторых, внутри машин пришлось бы сотни терабайт перекачивать с место на место, что для вычислительных мощностей - непозволительная роскошь.

В-третьих, параллельная выдача данных с нескольких машин - намного быстрее, чем с одной. (хотя тут как повезет - может и дейтствиетльно какой-то сайт лежит только на одной - но это, имхо, случайность)

В четвертых - другие причины

С уважением,

Сергей Пасечник.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

151

Back Door Man

14 января 2006, 22:37

#47

Сергей, скорее всего (практически уверен), беклинки выделяются как отдельные единицы информации. Т.е. существуют в базе дважды(как минимум) - как страницы сами по себе, и как указание того, что ссылаются на какую то страницу. Никто не спорит что это усложняет систему, но таким образом достигается увеличение быстродействия за счет некоторой избыточности информации.

Мои аргументы просты. Хранение беков на страницу Х на одной машине существенно увеличивает быстродействие:

а) при пересчете вИЦ, тИЦ, ссылочного ранжирования, наложения фильтров

б) при выдаче по запросу Link=www.site.com

Изменения в языке запросов Сергей Людкевич. Современные аспекты Мэтт Каттс: Google определит

145

Spectre

14 января 2006, 22:41

#48

Back Door Man, согласен. Мало того что быстродействие существенно повышается, но и объемы избыточной информации не такие уж и большие получатся.

То что вы еще в топе, не ваша заслуга, а наша недоработка. (С) Платон Щукин.

SS

141

Seventh Son

14 января 2006, 23:55

#49

Back Door Man:
скорее всего (практически уверен), беклинки выделяются как отдельные единицы информации. Т.е. существуют в базе дважды(как минимум) - как страницы сами по себе, и как указание того, что ссылаются на какую то страницу. Никто не спорит что это усложняет систему, но таким образом достигается увеличение быстродействия за счет некоторой избыточности информации.

Вы знаете, я, конечно, не инсайдер Яндекса, но имхо хранить два раза одну и ту же информацию никто не станет. Скорее всего, что в одной таблице, где лежит страница, в одном из полей, просто перечислены индексы баз/таблиц/строк, где лежат бэки. Не более, ни менее.

Back Door Man:
Хранение беков на страницу Х на одной машине существенно увеличивает быстродействие:
а) при пересчете вИЦ, тИЦ, ссылочного ранжирования, наложения фильтров
б) при выдаче по запросу Link=www.site.com

Вот и не факт.

Забейте в строку поиска вот это #link="www.yandex.ru" и понажимайте Ctrl+F5 с десяток раз. Ежели бы все лежало на одной машине, то цифры бы не прыгали, так как операция выборки из БД выполнилась бы полностью. Это раз. А что, если страничка будет ссылаться на какую-то еще. Что, продублируем в базе столько раз, сколько она на кого-то ссылается? Это два. Когда начинаешь щелкать по номерам страниц в списке бэклинков - число уменьшается. Если бы вся выборка велась с одной машины - оно бы имхо не стало уменьшаться. Это три.

CMS для потрала с Яндекс кобласит Стоит ли открывать для

151

Back Door Man

15 января 2006, 00:37

#50

Seventh Son:
Вы знаете, я, конечно, не инсайдер Яндекса, но имхо хранить два раза одну и ту же информацию никто не станет. Скорее всего, что в одной таблице, где лежит страница, в одном из полей, просто перечислены индексы баз/таблиц/строк, где лежат бэки. Не более, ни менее.

Дык я тоже не инсайдер, но как у разработчика в прошлом немаленьких БД возникают некоторые решения 🚬

Даже если эти поля индексные, то пересчет их сумм на нескольких машинах займет нереально долгое время. Нереальное - в смысле пользователя, который ждет готовый SERP, тут нужны доли секунды.

Алгоритм с дублированием информации имеет два больших минуса:

1. Увеличение объема информации

2. Усложнение алгоритмов пересчета

Но они оба перевешиваются огромным жирным плюсом, который в случае с поисковой системой наиболее важен - быстродействием.

Дисковые массивы дешевеют, а время как всегда дорожает. :) Не грех и продублировать. :)

Seventh Son:
Забейте в строку поиска вот это #link="www.yandex.ru" и понажимайте Ctrl+F5 с десяток раз. Ежели бы все лежало на одной машине, то цифры бы не прыгали, так как операция выборки из БД выполнилась бы полностью. Это раз.

Порефрешил, подождал, еще порефрешил - не поменялось. Привязка меня как пользователя к конкретной машине кластера не поменялась.

ЗА что, если страничка будет ссылаться на какую-то еще. Что, продублируем в базе столько раз, сколько она на кого-то ссылается? Это два.

Ну да, а что Вас смущает? Три поля в таблице: id, кто ссылается, на кого ссылается. Просто как две копейки, и работает быстро

Кога начинаешь счелкать по номерам страниц в списке бэклинков - число уменьшается. Если бы вся выборка велась с одной машины - оно бы имхо не стало уменьшаться. Это три.

Имхо, это самый серьезный аргумент. Но и тут может быть своя фишка. При первоначальном запросе "link=" выдается некоторая заранее просчитанная сумма ссылок. Если пользователь тыкает на страницу 2, то идет уже выборка самих ссылок из базы и новым пересчетом их количества (забавно, но без апдейта предыдущего поля).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Google: E-E-A-T не является фактором ранжирования

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Передача тИЦ и вИЦ с бесплатных хостингов. Хочется все-таки прояснить