У меня ситуация похожая, но сайт исчез со всех ДЦ. В вашем случае - только на части ДЦ домены выпали?
Имеется в виду: баны целых сайтов? Если да, то что это за сайты: белые или спам, или и те и другие? :)
Да, но что тогда подавать на входы сети? Я считаю, что при таком подходе надо как-то максимально полно описать документ вектором конечной длины, вот только, что это будет за вектор? Кроме того, тот подход, что вы предложили, не учитывает соответствие документа запросу и скорее применим для тематической кластеризации документов, чем для ранжирования.
А насчет dataparksearch, то, как понятно из краткого описания, они документы рассматривают, как нейроны, а линки между ними - как связи нейронов. И как-то пытаются эту сеть обучить :)
Кстати, может, кто посоветует книги или статьи на эту тему?
Нет, он может применяться в т.ч. и для сетей с обратными связями. Но вопрос не в этом. Интересно, как именно нейросети используются при ранжировании, в частности - в DataparkSearch.
C индексацией в гугле сейчас совсем загадочная ситуация. Как по мне - попахивает trust rank, т.к. сейчас жирные линки не играют определяющую роль в индексации. У кого-то есть еще идеи на этот счет?
Амнистия? У кого-нибудь были случаи выхода из бана в связи с последним апдейтом?
А что же тогда является определяющим критерием для гуглбота?
ИМХО, разные сайты воспринимается по разному. Каждый дизайн расставляет свои акценты. Да, исследование подтверждает, что наибольшее внимание уделяется верхней части страницы, но это и так понятно :)
Где можно почитать про такой способ хранения?
А насчет эвристики разделения на 2 индекса, то тут, наверное, надо ждать комментариев самого Максима Голубева :)
Krukov,
А какие мощности используются для вычисления PR? PageRank достаточно сложен (в плане требуемых вычислительных мощностей), поэтому немногие решаются его применять. Как вам удалось? :) Хотя перед этим надо задать еще вопрос, для какого размера индекса вы его считаете?