Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

<font face="Verdana" size="2">Originally posted by funsad:
Набрел на украинский индексирующий поисковик ASearch. И был приятно удивлен. Спокойный "информационный" дизайн, хорошее usability, относительно мощный язык запросов, достаточно релевантный поиск и т.д. При этом есть все черты "больших" поисковиков -- ограничение поиска тематическими рубриками, группировка по сайтам, режим расширенного поиска и пр.
В базе поисковика на сегодня 6417 сайтов, около 1 млн. документов (т.е. примерно в 30-40 раз меньше Яндекса). Количество посетителей -- по Рамблеру около 700-1000 в день, количество запросов за январь 2001 -- 75 тыс. (т.е. в 200-300 раз меньше Яндекса).
</font>

Да, система отличная и ищет здорово. Единственный недостаток, похоже, в том, что они не могут обрабатывать большое количество запросов одновременно. Уж не знаю, виновата ли в этом Windows или сам поисковик спроектирован не очень удачно, а может, железо не выдерживает, но иногда при большой нагрузке система на какое-то время просто останавливается.

Кстати, этой поисковой системе скоро будет третий год

<font face="Verdana" size="2">Originally posted by itman:
Проиндексировано пока действительно не очень много: около миллиона с небольшим страничек, из них половина - дубликаты.
</font>

А как система выбирает описание для ссылки? Например, по запросу "поисковая машина" пятая ссылка:

5.Bookmarks for GeoDalido
... Расположено на этом сервере ... Мы как кристаллы соли в прибрежной лагуне. Набегает волна и кристалл недолго сверкавший под лучами солнца растворяется в бесконечном океане для того чтобы когда придет время стать частью миллиардов других кристаллов. ...
http://dalido.narod.ru/publist.html (1 Февраля 2001)

А ключевые слова где-то в середине все-таки есть

[This message has been edited by Vyacheslav Tikhonov (edited 26-05-2001).]

А каталог совсем убрали из результатов поиска? Раньше ведь первые три ссылки выводились из каталога.

<font face="Verdana" size="2">Originally posted by itman:

Вполне логично: выставляется нулевая дата, а дата считается в секндах с момента икс... Кстати, не приведешь ли пример такой странички, чтобы я мог убедиться в этом на сто процентов?
</font>

По запросу "средства отображения информации" выдает первую ссылку, датированную 1 Января 1970.

Видимо, объем проиндексированной информации небольшой - несколько тыс. сайтов, потому что по этому запросу выдаются сайты, в которых ключевые слова не встречаются вместе. Кстати, хорошо было бы добавить строгое и нестрогое соответствие - это довольно удобно.

Вообще неплохо

<font face="Verdana" size="2">Originally posted by melkov:
Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).</font>

Конечно, алгоритм "дубовый", но во многих случаях работает. Нечеткая логика?

<font face="Verdana" size="2">
В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).
</font>

А зря...

<font face="Verdana" size="2">
Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...
</font>

Почему бы не разбивать текст на блоки подобно тому, как это делает Finereader? Можно будет шапки и меню отбрасывать как элементы, которые почти не влияют на релевантность, а потом уже анализировать сам документ без них.

<font face="Verdana" size="2">
Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.

Александр Мельков, Яndex.
</font>

Пытаться анализировать ценность документа. Как? По количеству линков на квадратный дюйм текста

<font face="Verdana" size="2">Originally posted by kikaha:
Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой. </font>

Вот на подобное изменение дизайна или самих слов я и оставлял 10% изменение ключей. Да и вряд ли кто-то будет подыскивать большее количество синонимов, чтобы изменить весь документ, а 0,5% отличие от оригинала в данном случае вообще не создает никаких проблем. Ведь остальные значения ключей (99,5%) не изменятся и по-прежнему будут однозначно идентифицировать строки (абзацы) документа.

<font face="Verdana" size="2">Originally posted by wolf:
Очень часто таблицы используются для управления расположением тескта на странице, ну, например, если текст надо разместить в несколько колонок, и т.п. Так что, я не вижу причин давать бонус словам из таблиц.</font>

Естественно, с этим трудно не согласится. Но если при индексации сайта роботом обнаруживается, что n-е количество страниц имеет одинаковую структуру и информация в них размещена в таблицах, то, возможно, в этом есть какой-то смысл.

<font face="Verdana" size="2">Originally posted by kikaha:
Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно
Easy money!

[This message has been edited by kikaha (edited 19-05-2001).]
</font>

Я хотел сказать совсем другое. В данном случае ключевое слово - это совсем не ключевое слово документа, а алфавитно-цифровой код. Скажем, фраза Easy Money представляется как A3Z3BN3J1S. Именно этот код будет использован для ее идентификации и спаммеры тут совершенно ни при чем.

Попытаюсь дальше развить свою мысль В таблицах очень часто выводится информация из баз данных, поэтому можно предположить, что ради этой самой информации сайт и создавался, то есть для данного сайта релевантность ее должна быть максимальной. Вспомнить хотя бы электронные библиотеки и сборники рефератов. Более того, релевантность данных здесь, видимо, будет тем выше, чем большее количество ссылок на извлекающий их скрипт, в котором отличаются только получаемые им параметры. В этом что-то есть?

<font face="Verdana" size="2">Originally posted by AiK:
.
Пример:

&lt;mysuperpupertag&gt;
здесь идёт текст
&lt;/mysuperpupertag&gt;

даст результат:

здесь идёт текст

Поэтому браузер, который "не знает" фреймов
с тэгами FRAMES и NOFRAMES поступит аналогичным образом.
</font>

А как индексируются XML-тэги? Влияет ли их использование на релевантность документа или они просто игнорируются?

Всего: 847