Kryukov

Рейтинг
12
Регистрация
11.11.2005
bondarev.pp.ru:
Kryukov, ни слова не понятно. Что вы хотели этим сказать? Не отсюда ли текст?

Ну порчему же....

Предположим, что поисковик выдавал результаты без учета PageRank, а теперь хочет его учитывать в вычислениях релевантности. Вопрос - как?

Miha Kuzmin (KMY):
F(x,PR)

10 греев

А это самая правильная? :)

itman:
угу, кстати, в отрыве от мейкфайла, компилятора и платформы это и не баг вовсе, а так непортабельность. кто знает, может в мейкфайле было
CXXFLAGS += -funsigned-char
CFLAGS += ..
CPPFLAGS += ..

А вообще-то думаю Андрюше не понравилось сочетание заглавных и маленких букв в имени массива :)

Keva:

Например, за такое в коде:
===
char toUpCaseMatrix1251[256] = {
...
};
inline char toUpCase1251( char ch )
{
return toUpCaseMatrix1251[ch];
}
===
Кстати, а чем, как вы думаете, мне не понравился этот код? :)

☝ Злой ты, просто забыли приписать вот это:

(void) signal(SIGSEGV,handle_segv);

(void) signal(SIGBUS,handle_bus);

(void) signal(SIGILL,handle_ill);

думаю, в современных ОС это не обязательно :) :)

itman:
Ну скорость поиска ИМХО не может не зависить от размера базы.

Не совсем корректно :) Если поставить системе ограничение, что время поиска на любом запросе не должно превышать N, то можно скадать, что не зависит (поплотившись при этом полнотой). На самом деле, одной из самых больших "головных болей" сравнительно больших енджинов является физическое время seek головок (10 ms отдай и не греши на одно позиционирование :), что, естественно, будет в первую очередь зависеть от сложности входящего запроса, архитектуры системы, наличия кешей и много пр.

Keva:
Просто готовность заплатить что-то - пусть 1000 рэ - это некая мера нужности.
А если никому на хрен не надо - так что ж мне новую версию делать!

НЕ хотел тебя расстраивать, но, сам понимаешь, такая вешь может быть необходима достаточно ограниченному кругу. При сносной реализации мне точно может пригодиться. Сколько нас таких - бог его знает :)

Keva:
У меня есть вопросы.
Ссылку умышленно не привожу - интересует мнение тех, кто уже пользуется.
1. Нужно ли дальнейшее усовершенствование stemk'и?
2. Нужно ли развить ее до полноценного вероятностного морфологического анализатора, который бы не только давал возможные усечения, но еще и оценивал вероятности того или иного усечения и определял часть речи и грамматические характеристики этого усечения?
3. Какие еще пожелания будут по реализации?
Если и на вопросы 1 и 2 ответы будут положительными, то будет и вопрос 4 :)
Согласны ли Вы заплатить, скажем, 1000 рублей за такой анализатор? Например, в качестве "чаевых" :)

Не пользовался, но собираюсь посмотреть. На счет денег, скажу тебе, брат :) - 1000 не деньги, если мне понадобится твоя работа - без вопросов, куда подъехать знаешь, еще безалкогольно напоим :)

Yuri_K:
Сложные и навароченные тулы для сематического (по смыслу) сравнения документов с возможностью задавать степень proximity (похожести) интересуют?
Но за деньги... зато в виде SDK. Или готового солюшена. Даже демка есть.

Демку в студию

tano:

да там чуть выше спецы такой алгоритм тривиальным обозвали :)
и уже реализованным во всех поисковиках
а как до дела дошло - ёк :)

Если это намек на меня, то я попросил бы читать внимательнее. Привожу фрагмент своего постинга:

Kryukov:
был нужен полноценный regexp - тады только перебор . Если же просто найти все с произвольным окончанием - то задача для студента 2 курса.

Более ничего я не говорил. По сути дела я полностью согласен с itman по поводу реализации в общем виде :) и об этом тоже писал. Можно попробовать другой метод, может Вы опишите (хотя бы в общем) зачем и где (в каких условиях) эта штуковина должна работать. Возможно тогда что-то будет можно сказать или предложить.

tano:
для * даже grep не нужен - head достаточно
а grep - это и есть тривиальное решение за 3000 - выделенный сервер поставить :)
13Gb

Упс... пардон, нули считать разучился :)... Про grep я образно (кстати в быту молодости видал реляционную субд с классическим функционалом, включая простенький SQL, исполненную исключительно на grep, awk и иже с ними. Во как в жизни бывает :) )

keva:
Димыч, понимаешь, тут ить еще и проблема вычитывания индекса стоит... А это уже чуток другие объемы!

Ладно, уболтал, не буду сшибать расценки. Три, так три

Всего: 59