Eugen

Рейтинг
15
Регистрация
27.08.2005
xxx-dred:
да и целых доменов.
сайты белые, но относительно свежие, в индексе был только индекс, и то который исчез, остался только по нескольким дата центрам,
остальные проекты тоже белые сначала вылетели внутренние страницы, затем и индекс

У меня ситуация похожая, но сайт исчез со всех ДЦ. В вашем случае - только на части ДЦ домены выпали?

xxx-dred:
также наблюдается вылет из индекса где как где то массовое где то только индекс, на разных дата центрах по разному.до этого убивались только некоторые страницы из-за контента.

Имеется в виду: баны целых сайтов? Если да, то что это за сайты: белые или спам, или и те и другие? :)

Да, но что тогда подавать на входы сети? Я считаю, что при таком подходе надо как-то максимально полно описать документ вектором конечной длины, вот только, что это будет за вектор? Кроме того, тот подход, что вы предложили, не учитывает соответствие документа запросу и скорее применим для тематической кластеризации документов, чем для ранжирования.

А насчет dataparksearch, то, как понятно из краткого описания, они документы рассматривают, как нейроны, а линки между ними - как связи нейронов. И как-то пытаются эту сеть обучить :)

Кстати, может, кто посоветует книги или статьи на эту тему?

Kolyaj:
Метод обратного распространения ошибки обучает многослойную сеть без обратных связей. В данном случае получится с обратными.

Нет, он может применяться в т.ч. и для сетей с обратными связями. Но вопрос не в этом. Интересно, как именно нейросети используются при ранжировании, в частности - в DataparkSearch.

C индексацией в гугле сейчас совсем загадочная ситуация. Как по мне - попахивает trust rank, т.к. сейчас жирные линки не играют определяющую роль в индексации. У кого-то есть еще идеи на этот счет?

Амнистия? У кого-нибудь были случаи выхода из бана в связи с последним апдейтом?

amph:
Дело в том, что раньше PR страницы учитывался при индексации пауком, а теперь -нет

А что же тогда является определяющим критерием для гуглбота?

ИМХО, разные сайты воспринимается по разному. Каждый дизайн расставляет свои акценты. Да, исследование подтверждает, что наибольшее внимание уделяется верхней части страницы, но это и так понятно :)

itman:
. Для слов, про которые известно, как они склоняются и спрягаются, лучше и дуобнее хранить словарь ИМХО в виде trie-дерева.

Где можно почитать про такой способ хранения?

А насчет эвристики разделения на 2 индекса, то тут, наверное, надо ждать комментариев самого Максима Голубева :)

Krukov,

А какие мощности используются для вычисления PR? PageRank достаточно сложен (в плане требуемых вычислительных мощностей), поэтому немногие решаются его применять. Как вам удалось? :) Хотя перед этим надо задать еще вопрос, для какого размера индекса вы его считаете?

Всего: 85