Спам - не в <META...>, спам - в заголовке, то есть title, зона повышенного внимания для поисковика, дополнен словами, которых пользователю не видно и которые имеют, скажем, косвенное отношение к теме сайта.
С уважением, Андрей Коваленко,
Рамблер.
Вообще говоря, я о таком виде спама говорю: "Спамер расписался...". Очень хорошо и четко выделяются формальные признаки заспамливания. Также можно для таких штучек использовать последовательности пробелов или "эн-бе-эс-пов"
Алгоритмически ловится. "Рамблер" устойчив к такому виду спама.
iseg, с тебя пыво
Причем "золотая середина" известна и реализована и в Рамблере, и, кажется, в Яndexе
Поиск идет в учетом морфологии, однако точным совпадениям вхождения слова в документ с искомой формой слова приписывается больший вес.
http://www.rambler.ru/
http://linguist.nm.ru/
IMHO, надо просто увеличить слегка минимальную длину основы в нечеткой морфологии Яndex'а. лНо это - к Илье
Ну, закрытость - она относительная! Алгоритмы все - открытые, они опубликованы! Закрыты только словарные данные, то есть результат многолетней ручной работы!
А как ты себе представляешь - вот ты поработал пару лет, а потом выставляешь результат во всеобщий доступ? Другое дело - разработанные алгоритмы. Любой желающий может ими воспользоваться для построения своих технологий.
Да, это не государственные секреты. И никаких know-how никто не скрывает. Но вот конвретные данные, которые сами по себе никакой именно познавательной ценности не представляют, мы не выставляем в бесплатный доступ. Кушать-то нам что-то надо, чтобы создавать эти самые алгоритмы
Ошибаешься! Коммерческие компании во всем мире, да и уже у нас, ведут фундаментальные исследования, и делают гораздо больше нового, чем государственные институты. Пример - из "их" жизни - концерн "Дюпон", статья фундаментальных исследований в бюджете которого достигает 20%.
А насчет отечественной "государственно" лингвистики... Знаешь, есть такая ежегодная конференция по прикладной лингвистике, "Диалог" называется. Так вот там сенсеи от лингвистики делают доклады потрясающей научной значимости! Например, "О сходстве спряжения глагола такого-то в языках Суоми и Суахили". Или та же академическая система машинного перевода "Этап-N", где N сейчас достигло, кажется, трёх, которая очень правильная, поскольку реализует модель "Смысл-текст", но имеет серьезный недостаток: она не работает.
Так что роль отечественных коммерческих компаний в развитии российской науки, без преувеличения, огромна.
И еще, к тебе обсуждения, от которой мы отошли. Даже при прочих равных РБК имело бы смысл "поддержать отечественного производителя"
С уважением,
Андрей Коваленко,
Словники в таких случаях являются обычно неразглашаемым know-how, однако описание технологии вполне можно посмотреть, например, у меня на http://linguist.nm.ru.
Кстати, на днях я собираюсь выложить в исходниках достаточно путевую нечеткую морфологию, т. е. неплохой вероятностный стеммер. Сначала русский, а через некоторое время и украинский.
IMHO, ты неправ. Если бы это была маленькая конторка, торгующая бухгалтерским софтом - я бы с тобою согласился.
В случае же Яndex'а, и конкретно Ильи Сегаловича, могу сказать, что это не так. Я внимательно слежу за разработками ведущих профильных компаний и могу сказать, что разрабатываются там, как и в Яndex'е, вестма и весьма интересные, не имеющие аналогов технологии.
Простой пример - наши (Яndexoва и моя)морфологические анализаторы , уже упоминавшиеся в форуме. Это - полноценные технологии лингвистического анализа текста. Собственно, их реально на рынке три:
- морфология Яndex'а - очень грамотная технология, словарь которой, насколько мне известно, построен на разреженных хэш-таблицах;
- морфология Информатика, используемая для проверки орфографии и грамматики в Microsoft Word, разработанная под руководством Игоря Ашманова Андреем Соколовым, Ниной Руссовой, Машей Росковой и другими сотрудниками означенной компании;
- морфология компании ABBYY (правда, качество проработки словарного материала и производительность ее несколько хромают);
- морфология вашего покорного слуги, практически ставшая стандартом де-факто (Апорт, Рамблер, АРБТ, украинская Мета, К&М, Гарант-Парк и так далее).
И поверьте, все перечисленные технологии, а также многие другие, были разработаны вовсе не в академических институтах, а именно вот в таких вот Яndex'ах, которые Вы "пинаете" .
В русском бизнесе, знаешь ли, есть такие понятия, как "увод" и "откат"
Вообще говоря, даже простой ознакомительный экскурс по поисковой машине, выставленной как AltaVista на РБК, показывает, что ищет она в разы хуже Яndex'а и по качеству поиска, и по полноте.
Любой может убедиться в том, что, например, полнота поиска по элементарным формам одного и того же слова русского языка отличается.
Доводы РБК о том, что, мол, "наши пользователи не хотят находить слово _люди_ по запросу _человек_" больше всего напоминают мне высказывания в свое время авторов одного текстового процессора, которые не включили в продукт функцию проверки орфографии, "отмазываясь" тем, что, мол, "наши пользователи - люди грамотные!"
В целом впечатление от "поисковика" отрицательное.
В общем, называть то, что встроено в Висту для поддержки русского языка морфоанализатором, "морфологией" или другими подобными словами я бы не решился...
А высказывания сотрудников РБК насчет тестирования производят впечатление откровенного вранья, которым прикрывают иные мотивы покупки движка именно у Висты. Ну, а какие причины бывают в русском бизнесе, мы с вами все сами знаем
Материально незаинтересованный Андрей Коваленко, Рамблер.