Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Если Вы насчет: "Те, кто ищет 'снегоход', ищут также:", тона мой взгляд, это совсем не то. Там, просто обобщены запросы и нет никакого разбиения по темам.

Нет, это же Рамблер ассоциации.

Перевязки они показывают сверху, перед поисковой выдачей. Например, по запросу футбол выводится блок:

Новости спорта: футбол

Товары: Книжный мир >> Спорт

Рейтинг Top100: Спорт

Это сделано, по-видимому, для более удобной навигации между различными разделами портала.

Что поисходит в системах поиска в интернете? А на менее больших данных? Создаётся фразовый индекс ? Индексируются позиции слов в тексте?

Да обсуждали, в принципе. Читайте

здесь и здесь.

Выдает dns error!!!
То получается зайти, то нет...

Dos-атака на DNS провайдера.

Прописывайте напрямую в hosts ip-шник сервера (как в предыдущем посте), по-другому в таких случаях работать не будет.

Подобный рубрикатор "перевязок" есть у Рамблера.

А у Рамблера, насколько я помню, из статистики взято около 100К наиболее популярных запросов, которые лингвисты ручками и классифицировали. "Всего лишь" 100 тысяч, которые, похоже, в основном поиске никак не используются.

Может, подобный алгоритм и будет работать, но с точки зрения затрат на создание такой системы на это никто не пойдет. Один труд лингвистов, которые должны классифицировать все(?) слова по всем(?) темам обойдется в копеечку. А поддерживать рубрикатор в актуальном состоянии?

А что делать, если пользователь ищет по словам, у которых куча омонимов? :)

1. Песня Глызина
2. Строительная светопрозрачная конструкция
3. Зеленый уголок в квартире
4. Зимний сад в искусстве
5. "Зимний сад" как имя собственное
6. Уход за садом зимой
Ресторан "Зимний сад"
Рекламное агентство "Зимний сад"
Станкостроительное объединение "Зимний сад" и т.п.

Честно говоря, такую выдачу, с многочисленными ветвлениями, делать ни в коем случае нельзя - не поймет пользователь. Нужно еще учитывать, что нормальный человек не может воспринимать более семи объектов за раз и, что самое плохое, щелкать и куда-то переходить лишний раз - это его раздражает. Поэтому если средний пользователь сделает запрос и увидит, что нужной информации в выдаче нет, он сразу уходит - здесь не помогут никакие ветвления.

Поэтому хорошая выдача не должна иметь ветвлений, а содержать информацию только о том смысловом значении, которое имел в виду пользователь, то есть быть однозначной. Как это значение определить - загадка :)

Можно ли поставить вопрос так, что в идеальной выдаче все смысловые значения должны быть в максимально видимой зоне?

Вообще-то во многих случаях обычный перебор смысловых значений не очень помогает. Запрос нужно рассматривать еще и с учетом того, что происходит в данный момент в мире. Например, во время известных событий очень часто делали запрос "Тверская-Ямская".

Vyacheslav, очень вас прошу, включите, пожалуйста, поиск по автору. Спасибо

Потерпите немного, у меня уже почти готова новая версия, в которой исправлены отдельные недоработки и учтены предложения. На этой-следующей неделе выложу. Новый поиск получше.

А эта штука что, кроме e-mail'ов умеет еще и телефоны, и другие контактные данные извлекать?

Вопрос снят - просмотрел набор плагинов. Ай да спаммеры...

берете готовый продукт http://massmail.ru/aee/ и пользуетесь

А эта штука что, кроме e-mail'ов умеет еще и телефоны, и другие контактные данные извлекать?

Всего: 847