Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

Украинская поисковая система: на удивление приятная неожиданность

29 мая 2001, 04:12

Originally posted by funsad:
Набрел на украинский индексирующий поисковик ASearch. И был приятно удивлен. Спокойный "информационный" дизайн, хорошее usability, относительно мощный язык запросов, достаточно релевантный поиск и т.д. При этом есть все черты "больших" поисковиков -- ограничение поиска тематическими рубриками, группировка по сайтам, режим расширенного поиска и пр.
В базе поисковика на сегодня 6417 сайтов, около 1 млн. документов (т.е. примерно в 30-40 раз меньше Яндекса). Количество посетителей -- по Рамблеру около 700-1000 в день, количество запросов за январь 2001 -- 75 тыс. (т.е. в 200-300 раз меньше Яндекса).


Да, система отличная и ищет здорово. Единственный недостаток, похоже, в том, что они не могут обрабатывать большое количество запросов одновременно. Уж не знаю, виновата ли в этом Windows или сам поисковик спроектирован не очень удачно, а может, железо не выдерживает, но иногда при большой нагрузке система на какое-то время просто останавливается.

Кстати, этой поисковой системе скоро будет третий год

Новая российская поисковка - Punto.ru

27 мая 2001, 00:54

Originally posted by itman:
Проиндексировано пока действительно не очень много: около миллиона с небольшим страничек, из них половина - дубликаты.

А как система выбирает описание для ссылки? Например, по запросу "поисковая машина" пятая ссылка:

5.Bookmarks for GeoDalido
... Расположено на этом сервере ... Мы как кристаллы соли в прибрежной лагуне. Набегает волна и кристалл недолго сверкавший под лучами солнца растворяется в бесконечном океане для того чтобы когда придет время стать частью миллиардов других кристаллов. ...
http://dalido.narod.ru/publist.html (1 Февраля 2001)

А ключевые слова где-то в середине все-таки есть

[This message has been edited by Vyacheslav Tikhonov (edited 26-05-2001).]

Точнее?

26 мая 2001, 19:21

А каталог совсем убрали из результатов поиска? Раньше ведь первые три ссылки выводились из каталога.

Новая российская поисковка - Punto.ru

26 мая 2001, 19:08

Originally posted by itman:

Вполне логично: выставляется нулевая дата, а дата считается в секндах с момента икс... Кстати, не приведешь ли пример такой странички, чтобы я мог убедиться в этом на сто процентов?

По запросу "средства отображения информации" выдает первую ссылку, датированную 1 Января 1970.

Видимо, объем проиндексированной информации небольшой - несколько тыс. сайтов, потому что по этому запросу выдаются сайты, в которых ключевые слова не встречаются вместе. Кстати, хорошо было бы добавить строгое и нестрогое соответствие - это довольно удобно.

Вообще неплохо

Решение проблемы с зеркалами в Яндексе

20 мая 2001, 19:36

Originally posted by melkov:
Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).

Конечно, алгоритм "дубовый", но во многих случаях работает. Нечеткая логика?

В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).

А зря...

Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...

Почему бы не разбивать текст на блоки подобно тому, как это делает Finereader? Можно будет шапки и меню отбрасывать как элементы, которые почти не влияют на релевантность, а потом уже анализировать сам документ без них.

Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.

Александр Мельков, Яndex.

Пытаться анализировать ценность документа. Как? По количеству линков на квадратный дюйм текста

Решение проблемы с зеркалами в Яндексе

19 мая 2001, 20:02

Originally posted by kikaha:
Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой.

Вот на подобное изменение дизайна или самих слов я и оставлял 10% изменение ключей. Да и вряд ли кто-то будет подыскивать большее количество синонимов, чтобы изменить весь документ, а 0,5% отличие от оригинала в данном случае вообще не создает никаких проблем. Ведь остальные значения ключей (99,5%) не изменятся и по-прежнему будут однозначно идентифицировать строки (абзацы) документа.

Релевантность слов в таблицах

19 мая 2001, 19:26

Originally posted by wolf:
Очень часто таблицы используются для управления расположением тескта на странице, ну, например, если текст надо разместить в несколько колонок, и т.п. Так что, я не вижу причин давать бонус словам из таблиц.

Естественно, с этим трудно не согласится. Но если при индексации сайта роботом обнаруживается, что n-е количество страниц имеет одинаковую структуру и информация в них размещена в таблицах, то, возможно, в этом есть какой-то смысл.

Решение проблемы с зеркалами в Яндексе

19 мая 2001, 05:32

Originally posted by kikaha:
Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно
Easy money!

[This message has been edited by kikaha (edited 19-05-2001).]

Я хотел сказать совсем другое. В данном случае ключевое слово - это совсем не ключевое слово документа, а алфавитно-цифровой код. Скажем, фраза Easy Money представляется как A3Z3BN3J1S. Именно этот код будет использован для ее идентификации и спаммеры тут совершенно ни при чем.

Релевантность слов в таблицах

18 мая 2001, 20:04

Попытаюсь дальше развить свою мысль В таблицах очень часто выводится информация из баз данных, поэтому можно предположить, что ради этой самой информации сайт и создавался, то есть для данного сайта релевантность ее должна быть максимальной. Вспомнить хотя бы электронные библиотеки и сборники рефератов. Более того, релевантность данных здесь, видимо, будет тем выше, чем большее количество ссылок на извлекающий их скрипт, в котором отличаются только получаемые им параметры. В этом что-то есть?

Noframes

16 мая 2001, 20:01

Originally posted by AiK:
.
Пример:

<mysuperpupertag>
здесь идёт текст
</mysuperpupertag>

даст результат:

здесь идёт текст

Поэтому браузер, который "не знает" фреймов
с тэгами FRAMES и NOFRAMES поступит аналогичным образом.

А как индексируются XML-тэги? Влияет ли их использование на релевантность документа или они просто игнорируются?

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Дзен реализовал для авторов возможность вывода денег через СПБ

Vyacheslav Tikhonov