Итак, данные хранятся в виде инвертированных индесов. Также есть анкор база, которая должна храниться (и видимо так и есть, учитывая прошлые проблемы с ней) отдельно. У каждой ссылки должны быть такие же индексы.
если предположить, что ссылки как то влияют _автоматически_ на выпадение запросов, то вероятнее всего стоит зависимость базы инвертированных индексов и анкор базы в смысле, что при каком то событии (какое либо превышение чего либо в анкор базе для документа или хоста) производится корректировка, только вот где. В инвертированном индексе корректирвоать не получится, если сайт выпадает по запросу "слово1 слово2", а по запросу "слово2 слово3" находится.
Возможно введена некоторая прослойка при формировании выдачи с проверкой для каждого сайта, например сформировалась для запросов некая таблица, где хранятся грубо говоря слова, по которым сайт сильно переработал с сылочным, при формировании выдачи выбираются сайты по обратным индексам и сразу же проверяются по этой отфильтровывающей таблице, если указано выкинуть - значит выкинуть. Обновление теоретически должно производиться сразу же с апдейтами.
P.S. вообще фильтры должны организовываться достаточно просто, ведь любое усложнение на такой огромной системе должно приводить к большим потребностям в дополнительных ресурсах.
вот такой вот имхо бред :)
хммм, понятие "тематики" весьма относительно, новый сайт вообще может не иметь тематики и быть в ТОПе, на него фильтры значит действовать не будут? Или запросы делят по Вашему мнению на тематики (мартышкин труд)? ИМХО это глупо и лишнии ресурсы, если вводить - так для всех.
сугубо ИМХО.
в личку плиз, какая тематика сайта?
в личку плиз
посмотрите тематику "такси", там в 30-тке сайтов десять с одинаковыми телефонами и тремя страницами на сайте
и еще, уберите пустую страницу от ссылок, чтобы глаза не мозолила
оффтоп:
kozlodoy, перенесли, сам попал по ссылке из письма
kozlodoy, чсмотрите через анкор, и еще, сейчас искал на Яндексе, но не нашел, однако вроде было (может у меня к ночи уже клиника :) ), что перед host: должен быть disallow (если нечего запрещать - запретите левую папку)
например:
User-agent: *
Disallow: /any_dir/
Host: host.ru
kozlodoy, так у Вас все ссылки стоят на сайт без www, и только 7 на сайт с www. С индексе домен с www. В роботсе прописан без www, однако зеркальщик видимо еще не сделал свое черное дело.
Piramidon, нашел Ваше письмо, спасибо!