Sparrow

Рейтинг
1
Регистрация
06.04.2005

Андрей, Ваш "семантический каталог" совершенно неустойчив к злонамеренному спаму. Никто не мешает спамеру завести столько логинов экспертов, сколько ему понадобиться. Например, по одному на каждую пару сайт-запрос. Сделать автоматический скрипт, который будет сабмитить в каталог (создавая новые логины экспертов).

Кроме того, запросы могут дрейфовать из чисто коммерческих в смешанные. Например, появится завтра музывальная группа "Пластиковые Окна". Появятся фан-сайты "Пластиковых Окон", новости о них на музыкальных сайтах и т.п. и люди станут искать все это в сети. Хватит ли у "семантического каталога" гибкости заметить это?

В любом случае, ручной каталог, как Вы сами видите, пригоден только для тех запросов, по которым есть заинтересованные эксперты. Значит, сам по себе он не живет, а может существовать только как дополнение к поисковой системе общего назначения.

А для этого он по своим запросам должен быть ощутимо лучше, чем та поисковая система сама по себе и плюс быть защищен от спама - мусора в выдаче поисковых систем и так хватает.

Речь ведь идет о хешировании в рамках индексирования/поиска?

Тогда мне кажется, Вы (ladif) допускаете небольшую ошибку. Слово не есть единица индексации. Единица индексации - это как минимум документ, а чаще - множество документов. Поэтому Вам никогда не придется вставлять в индекс по одному слову. Вам надо будет слить списки, а для этой цели достаточно как-нибудь отсортировать ключи (можно лексикографически - по крайней мере Вам самой будет удобнее читать).

Что же касается поиска, то есть извлечения информации по ключу, то любая более менее нормальная организация ключей сойдет. В поисковой системе операции со ссылками занимают гораздо больше времени, чем непосредсвенное извлечение ссылок. Можно и деревья.

А норм. форм у слова может быть несколько. Чтобы избежать проблем, лучше наряду с норм. формой(ами) слова хранить и оригинальную.