itman

Рейтинг
64
Регистрация
26.05.2001

Нет, я понял по поводу объема базы данных. Средняя страница в 20 Кб, что примерно 3-4 средних HTML странички. То бишь, аналог в 15-20 млн страниц веба. И в среднем чуть меньше секунды на каждый запрос. А что была за железка?

Leom:
5000 запросов в общей сложности по очень большой базе около 5 млн страниц и если пересчитывать на Инет то около терра данных.

С каждого из 4 компов отправлялось по 1250 запросов соответстенно в 10 потоках. То есть на сервер все время шло порядка 40 запросов.

Не очень понял насчет тестирования скорости: 5000 тысяч запросов выполнялись в общей сложности 45 минут, или 45 минут выполнялось 5000 * 40 тысяч запросов?

pitong:
как вариант - Postresql + RD-tree индекс на множествах признаков

Дело в том, что RD-дерево в данном случае - это тоже векторная модель, но вектора проиндексированы. В связи с этим возникает два нюанса, разрешение которых требует для каждого найденного документа считывать текст: false positives и ранжирование. Собственно, это самое большое зло, потому что требует множества random disk accesses. Да и сами объемы чтения могут быть большими.

С инвертированными файлами такой проблемы не возникает: нет false positives, ранжирование осуществляется a priori, то есть до формирования сниппетов, а сниппеты нужно формировать только для небольшого количества документов.

Да нет, просто там векторная модель, а она тормозит на больших объемах.

fatalenergy:
построить на основе этой базы вторую, в которой 3 поля: слово, его позиция в первой таблице, и поле "типа integer". Делается выборка выриантов с новой базы, а затем их обработка.

Вобще то full_text должен отлично работать, может просто ft_min_word_len=1 здесь не уместно?

Уууупс, звиняйте.

Апорт купили редкостные долбое"ы, которые, купив Апорт, первым делом уволили большую часть команды. А потом много лет держали Апорт в законсервированном состоянии. Этим людям в белых халатах Яндекс должен земные поклоны бить.

SEO Links:
Проанализировать причины неудачи черепахи и Пунто, ну и почему Апорт катится вниз. Денег не хватило? На окупаемость выйти не смогли?

Загнать в MySQL версии не меньше 4.1.16 (не спрашивайте почему, начну ругаться матом) и построить full text индекс. На 100 мб и большом количестве ОЗУ (скажем 512 мб памяти) будет однозначно летать. Не забудьте перед постройкой индекса выставить в my.cnf параметры

ft_min_word_len=1

ft_stopword_file=

Не знаю, насколько адекватно работает full text в mysql 5.x

Слава Шевцов:
Есть 100М самых разнообразных фраз. Длина фразы до 10 слов, есть куча дополнительных столбцов типа integer. Нужно искать все фразы, содержащие одно, два или три слова. Иногда в запросе будет упоминаться значение одного из полей типа integer. Количество поисков будет очень большим, повторяющиеся запросы редки. Требуется максимизировать скорость выборки данных. Что посоветуете?

P.S. Пока хочу сделать так: загнать всё в Mysql и сделать доп. таблицу слово-номер_фразы. Или загнать в mysql и делать LIKE.

Дело в том, что Яндекс большой. Директ может и не уметь тему определять, а большой текст, наооборот, может. Хотя я тут начал сомневаться в связи с листом-то. Хотя может быть тривиальной ошибкой классификатора в данном конкретном случае. На одном примере нельзя делать выводы.

AiK:
Более, чем уверен, что тематика страницы Яндексом не определяется. Потому как первое, куда стоит пихать определение тематики - это контекстная реклама. Однако, мне в топике про листы в Exel'e постоянно пихают объявления по сталепрокату. Т.е. вроде бы листы, но совсем другие. Т.о. максимум что определяется, это то, что у страницы донора и страницы акцептора в списке наиболее значимых слов есть совпадения.
Мне могут возразить, мол лист в Excel пересекаетсяся c листом стали через рубрику бизнес: лист -> культура(Ф. Лист), бизнес(прайс-листы, металлургия),... excel->финансы, бизнес, ..., сталь->бизнес (металлургия)..., да и в директе и поиске могут использоваться ну совсем разные алгоритмы.
Отвечаю: здравый смысл в этом конечно есть. Да вот только есть несколько но:
1) распихать хотя бы 5-10 тысяч самых популярных слов по всевозможным тематикам задача не самая простая. А без этого начального распихивания тематику конкретной страницы не определить
2) пересечения множеств строятся гораздо дольше, чем объединения
3) при использовании крупных рубрик (бизнес, дом, hi-tech и т.п.) точность будет крайне невысокая (см. пример выше), а при использовании точных рубрик (металлургия, климатическое оборудование и т.п.) большинство ссылок просто перестанет учитываться, чего явно на сегодняшний день не наблюдается.
pro-maker:
Похоже, что все по-другому.

2. Анонсирование учета тематики - информирование о переходе от отладки ("доделали", классифицируют документы на лету) к использованию в ранжировании с пока еще низким приоритетом влияния на результаты.

Пардон, а откуда такая информация??? При ранжировании может и с низким приоритетом, но речь же ведь шла вроде как об учете ссылок?

Каширин:

Каждый раз, когда поднимается тема, может-не может Яндекс определять тематику - топик приходит к выводу, кто не может 😂 Что меня каждый раз веселит, потому что может еще с 2002 года. Как минимум.

Мне тоже кажется, что может уже давно. Я помню, что году в 2001 Саша Садовский, если я ничего не путаю, писал про модное направление "рубрикации на лету".

Pro-maker: мне кажется, что это частный случай классификации. Есть LSI, есть тезаурусы , можно синонимы находить. Это все позволяет преобразовывать документ, или его кусочки в частотные векторы или их аналоги. При этом синонимы отображаются в элементы с одинаковыми номерами. Возможно, что структура HTML, еще какие-то неконтентные характеристики, тоже учитываются и оцифровываются. Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)

Всего: 444