Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Вопрос вполне простой - сколько бит нужно отвести для индексации, чтобы охватить как можно больше лемм.

А зачем охватывать все леммы? Достаточно взять 100-130 тысяч наиболее распространенных. Насколько я могу судить, все так и делают.

Какая рыба в океане плавает быстрее всех... Абсурд какой-то...

BUFO, устное замечание. Для подобных высказываний есть курилка.

Час назад PR главной страницы сайта и PR главной страницы форума был = 4. Сейчас опять главная страница сайта 3, форума 0. Что это такое?

Похоже, постоянно идет пересчет PageRank'а для сайтов с большим количеством страниц. Я даже по форуму вижу - у него PageRank тоже в течение дня прыгает от 0 до 5.

Сейчас увидел: На работу в «Яндекс» очень нужны

Наверное, решили уволить половину персонала после последнего апдейта :D

Интересует решение, которое возможно дает не лучшие результаты, но предполагает относительно простую реализацию.

Используются так называемые шинглы (shingles) - непрерывные последовательности определенной длины, из которых строится сигнатура документов. Подробнее здесь.

Буду благодарен за ссылки и мнения.

Яндекс делает это так и так. ;)

Список литературы прилагается.

По одному запросу - первые 13 результатов - поисковый спам

Сейчас никакими аналогами PageRank'а даже не пахнет. Потому-то оно все и вылезло.

Сайты вообще выдаются по уИЦ (убитый индекс цитирования), то есть в обратном порядке :)

Я скорей всего немного не допонял, просто в серпе Яндекса есть сайты (домены треьего уровня)

Качество поиска ухудшено настолько, что в выдаче практически нет авторитетных сайтов и вылезли рефераты, форумы и т.д. Поэтому самые релевантные результаты по этим запросам сейчас - в Маркете.

Возражения?

тИЦ это второстепенный фактор, можно иметь большой тИЦ но не быть в первой десятке.

svift, я немножко в курсе, что тИЦ влияет только на каталог, а взвешенный индекс цитирования в Яндексе есть аналог PageRank'а. (см. дату моей регистрации на форуме) :)

Вы выдачу по обеим запросам внимательно смотрели? Там же довольно все очевидно, на "яркие" ссылки не спихнешь ;)

Цитируемость это хорошо, это очень хорошо, но из всего числа ссылок может не оказаться ни одной яркой (доминирующей) ссылки, каковой например является ссылка из ЯКа

Не хватить для lib.ru, у которого один только тИЦ больше 5000? А как же Google так лихо ее дает? ;)

Ну , в конце концов можно ведь и у Яндекса самого спросить...

К narod'у претензий не имею. За державу обидно. :)

не валить все на narod.ru, а то можно ввести участников форума в заблуждение

Собственно говоря, здесь меня просто заинтересовало само место на странице, где находится релевантная (причем, с очень высокой вероятностью для большинства пользователей) информация.

Интересно, совпадение ли это.

Все остальное вполне понятно.

Да... это суровая реальность, не всегда на сайтах в серпе можно найти то что ищешь, но эта проблема нетолько в Яндексе и тем более началась она не после последнего апдейта...

Скажем по-другому, не то, что ищешь, а то, что ожидаешь увидеть. :)

Представьте что кто-то ищет критику, рефераты, место где можно купить книгу...

Представил. Я бы может и согласился, но как же лексика ссылок и цитируемость? Они-то в этом случае однозначно все определяют, при формальной релевантности для всех найденных сайтов.

Как же так? ;) Сейчас их нет?

там влияние каталога, но оно одинаково для любых доменов

В каталоге только 2 сайта из 5 на бесплатном хостинге, это ничего не объясняет.

Всего: 847