- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
ИМХО, пассаж был введен в IR (использован в Яндексе) с целью установления связи между словами. Т.е. слова находятся в одном пассаже, значит больше вероятности, что они связаны друг с другом, т.е. имеют общий контекст.
Например, запрос "железная дорога"
Текст:
"
Железный Феликс в качестве наркома путей сообщения прочел это письмо, затем в качестве председателя ГПУ навел справки и выяснил, что гострест «Эмбанефть» помимо промыслов Доссор и Макат включает в себя два нефтеперерабатывающих завода: Константиновский под Ярославлем и Варинский в Сормове (Нижний Новгород).
......
Если ГПУ даст рабочую силу до 2.000 человек, а НКПС — материал и подвижной состав с линии Владимир — Рязань, то в 1,5 года может быть построена железная дорога.
..............
А принимая во внимание фрахт за счет НКПС, то локомотивы будут дороги.
"
Разбиение текста на пассажи дает нам в данном примере, понимание, что "Железный Феликс" и "локомотивы будут дороги" не относятся по контексту друг к другу и эти пассажи можно принять не релевантными запросу. Это не снимает всех проблем (омонимии, например) и работает правильно не в 100% случаев, но вероятность хорошего ранжирования увеличивается.
Пассаж - это не предложение, а некая часть текста. В каждой реализации алгоритма, видимо, выбирают свое определение для этой части.
В для пользователей в Яндексе пассаж назван предложением для упрощения понимания и видимо потому, что в большей части случаев это и есть предложение.
Если под пассажем понимать запросозависимый вариант и считать, что пассаж - это часть текста в рамках которой слова из запроса мы считаем в одном контексте, то ИМХО, алгоритмы работающие на пассаж как одно предложение (распределяющие вес, кворум и т.д.) вряд ли хорошо в пишутся в случае, когда контекстное ограничение - это документ и пассаж - это документ.
john2007, дайте свое определение пассажа.
аргумент (или ссылку на пост) в пользу запросозависимого пассажа
-дайте хоть один аргумент в пользу жидкого пива :)
euhenio, нет таких аргументов! Спиртное - зло!
Вот тут книжечка про пассажи, правда на англицком.
http://goanna.cs.rmit.edu.au/~jz/fulltext/acmtois99.pdf
Зато, на нее ссылается в списке литературы "Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования"
john2007, дайте свое определение пассажа.
Пассажи - это части текста, разделяющие документ для эффективной работы ранжирующего алгоритма.
Каждый разработчик, видимо, реализует свой вариант пассажа.
Что такое пассаж в Яндексе я точно не знаю. ИМХО - это предложение, длинные предложения (более 64 слов) усекаются. Короткие (сколько слов не знаю) объединяются.
Пассажи - это части текста, разделяющие документ для эффективной работы ранжирующего алгоритма.
-т.е. разбиения в документе.
По моему мнению, найденный пассаж - это найденный фрагмент в виде слов и расстояний между ними (расстояний в разных видах)
Короткие (сколько слов не знаю) объединяются.
Сильно. Можно пример?
Кот, там стояло ИМХО :)
euhenio, появился момент, который меня смущает в запросонезависимом пассаже :)
При контекстном ограничении "документ" и пассажах условно равных предложению, как пассажи проходят кворум, если допустим, запрос из 5 слов и каждое слово содержится в своем пассаже (предложении)?
Отключается что ли в этом случае механизм кворума...
Ладно буду думать еще, пока у меня запал кончился на отстаивание запросонезависимого пассажа :)
Кот, там стояло ИМХО
Зачем нужно "имхо", если можно проверить?
http://www.yandex.ru/yandsearch?text=%D0%BB%D1%8E%D0%B1%D0%BB%D1%8E+%26+%D0%B6%D0%B4%D1%83+%3C%3C+url%3D%22gallery.proboga.com%2Fitem%2Fcards%2Flove%2F321.jpg.html%22
http://www.yandex.ru/yandsearch?text=%D0%BB%D1%8E%D0%B1%D0%BB%D1%8E+%26%26%2F%2B1+%D0%B6%D0%B4%D1%83+%3C%3C+url%3D%22gallery.proboga.com%2Fitem%2Fcards%2Flove%2F321.jpg.html%22
Или имелись в виду более короткие предложения? :)