Да, система отличная и ищет здорово. Единственный недостаток, похоже, в том, что они не могут обрабатывать большое количество запросов одновременно. Уж не знаю, виновата ли в этом Windows или сам поисковик спроектирован не очень удачно, а может, железо не выдерживает, но иногда при большой нагрузке система на какое-то время просто останавливается.
Кстати, этой поисковой системе скоро будет третий год
А как система выбирает описание для ссылки? Например, по запросу "поисковая машина" пятая ссылка:
5.Bookmarks for GeoDalido ... Расположено на этом сервере ... Мы как кристаллы соли в прибрежной лагуне. Набегает волна и кристалл недолго сверкавший под лучами солнца растворяется в бесконечном океане для того чтобы когда придет время стать частью миллиардов других кристаллов. ...http://dalido.narod.ru/publist.html (1 Февраля 2001)
А ключевые слова где-то в середине все-таки есть
[This message has been edited by Vyacheslav Tikhonov (edited 26-05-2001).]
А каталог совсем убрали из результатов поиска? Раньше ведь первые три ссылки выводились из каталога.
По запросу "средства отображения информации" выдает первую ссылку, датированную 1 Января 1970.
Видимо, объем проиндексированной информации небольшой - несколько тыс. сайтов, потому что по этому запросу выдаются сайты, в которых ключевые слова не встречаются вместе. Кстати, хорошо было бы добавить строгое и нестрогое соответствие - это довольно удобно.
Вообще неплохо
Конечно, алгоритм "дубовый", но во многих случаях работает. Нечеткая логика?
А зря...
Почему бы не разбивать текст на блоки подобно тому, как это делает Finereader? Можно будет шапки и меню отбрасывать как элементы, которые почти не влияют на релевантность, а потом уже анализировать сам документ без них.
<font face="Verdana" size="2">Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.Александр Мельков, Яndex.</font>
Пытаться анализировать ценность документа. Как? По количеству линков на квадратный дюйм текста
Вот на подобное изменение дизайна или самих слов я и оставлял 10% изменение ключей. Да и вряд ли кто-то будет подыскивать большее количество синонимов, чтобы изменить весь документ, а 0,5% отличие от оригинала в данном случае вообще не создает никаких проблем. Ведь остальные значения ключей (99,5%) не изменятся и по-прежнему будут однозначно идентифицировать строки (абзацы) документа.
Естественно, с этим трудно не согласится. Но если при индексации сайта роботом обнаруживается, что n-е количество страниц имеет одинаковую структуру и информация в них размещена в таблицах, то, возможно, в этом есть какой-то смысл.
Я хотел сказать совсем другое. В данном случае ключевое слово - это совсем не ключевое слово документа, а алфавитно-цифровой код. Скажем, фраза Easy Money представляется как A3Z3BN3J1S. Именно этот код будет использован для ее идентификации и спаммеры тут совершенно ни при чем.
Попытаюсь дальше развить свою мысль В таблицах очень часто выводится информация из баз данных, поэтому можно предположить, что ради этой самой информации сайт и создавался, то есть для данного сайта релевантность ее должна быть максимальной. Вспомнить хотя бы электронные библиотеки и сборники рефератов. Более того, релевантность данных здесь, видимо, будет тем выше, чем большее количество ссылок на извлекающий их скрипт, в котором отличаются только получаемые им параметры. В этом что-то есть?
<mysuperpupertag> здесь идёт текст </mysuperpupertag>
здесь идёт текст
А как индексируются XML-тэги? Влияет ли их использование на релевантность документа или они просто игнорируются?