Комментарии - xlex - Профиль вебмастера - Форум об интернет-маркетинге

Новые технологии поиска

28 мая 2005, 07:36

Leom, Вы меня, конечно, простите, но, по-моему:

- upgade, computerworld - вряд ли можно назвать "ведущими" журналами;

- этот форум вроде мало похож на место для announce-ов новых версий;

- и последнее, но не менее раздражающее: а Вы собственно сами читали то, что Вы написали? Орфография, грамотность...?

search with wildcard* (using inverted index)

13 мая 2005, 11:24

Спасибо за справку!

search with wildcard* (using inverted index)

13 мая 2005, 09:53

Правильно.

Вопрос в том, по какому принципу получить диапазон подходящих слов (если слова могут быть на разных языках и методы описанные на http://linguist.nm.ru/ и заточенные под один язык не подходят)?

Как я понимаю, в данном случае это возможно только полным перебором, который, впрочем, в оперативной памяти не так уж и дорог.

Мне кажется, что для этих задач также можно использовать суффиксные деревья...

search with wildcard* (using inverted index)

12 мая 2005, 05:19

Если кто-то будет задаваться таким же дурацким вопросом (как и я), то ответ на него можно найти в "классике" (документе об архитектуре Гугла): все (/большинство) имеющихся слов словаря держатся в оперативной памяти, доступ к которой не так уж и дорог даже при условии полного перебора.

Taxonomy

3 мая 2005, 18:12

Пробовал, конечно.

Просто было интересно услышать мнение профессионалов на этот счёт в приложении к поисковым технологиям.

search with wildcard* (using inverted index)

27 апреля 2005, 07:32

Какие-же тогда должны быть вычислительные/дисковые мощности для того, чтобы такое позволять делать... Ведь как-то же реализуется такое, или именно поэтому крупных поисковиков разрешающих такие запросы и нет?

ASPSeek development

24 марта 2005, 20:41

Как писал Zute

Не регистрирует:

Software error:

Can't open sendmail at Bugzilla/BugMail.pm line 870.

Вроде пофиксил (интересное у багзиллы представление о нахождении sendmail-а...).

Кстати, есть предложение все проблемы скидывать форум проекта.

Первую страничку http://aspseek.itmag.ru/ сделал с тремя ссылками на три основные секции, чтобы не путаться.

ASPSeek development

24 марта 2005, 12:22

А куда на aspseek.itmag.ru сообщения о багах постить, там ведь только форум ?

http://aspseek.itmag.ru/bugzilla/

ASPSeek development

24 марта 2005, 09:52

"(В стадии разработки)".

На aspseek.itmag.ru также расположена Bugzillа и есть возможность самостоятельно загружать файлы.

Впрочем, я не настаиваю... =)

Google, MSN, Yandex news cluster

3 марта 2005, 20:24

"Задача" выглядит примерно следующим образом: пусть есть некоторая база с документами. Задача - сгруппировать документы в некоторые, чтоли "кусты" - то есть наиболее близкие и похожие.

Как я понял, кластеризация, во-первых, очень дорогое (ресурсы, время) занятие, а во-вторых, не очень понятно по какому принципу можно собирать такие кусты. Как мне кажется, в отношении (осмысленного) текста наиболее адекватен подход применяемый, в частности, в новостях яндекса.

Опять же, как я понял, Яндекс использует TDT, которое, если можно назвать частным приложением кластеризации, но не в общем случае, а учитывая, что текст можеть иметь много смыслов, много сюжетов/кустов/топиков (в терминологии Яндекса/моей/исследовательской соответственно) и т.д.

Вот именно это мне и интересно. Прочитав этот раздел форума понял, что разкластеризовать всё (например, весь интернет, невозможно), но хоть немного приблизиться - очень хочется...

Собственно именно это и интересует...

Что делать, если ваша email-рассылка попала в спам

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

xlex