baranov

Рейтинг
42
Регистрация
25.09.2001
Должность
webmaster

Они сами присылают письмо, если не хотят сайт индексировать. Письмо приходит вроде от модератора, который собственно и решал этот вопрос.

А с иносранными доменами просто дольше все происходит.

<font face="Verdana" size="2">Originally posted by Keva:
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
</font>

да, он поделился этим на 1 странице форума:

<font face="Verdana" size="2">Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.</font>

Дихотомия - это и есть бинарное дерево?

[This message has been edited by baranov (edited 05-10-2001).]

<font face="Verdana" size="2">Originally posted by Keva:
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
</font>

да, он поделился этим на 1 странице форума:

<font face="Verdana" size="2">Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.</font>

Дихотомия - это и есть бинарное дерево?

[This message has been edited by baranov (edited 05-10-2001).]

Яндекс скорее всего просто не будет индексировать....

а ключевые слова должны быть в соответствии с потребностями предполагаемой аудитории. Я не уверен, что при русском запросе будет правильно посылать чел-ка на аглицкий сайт.

хотя если не пускать сопли, то большинство в россии говорит, пишет и ищет по-русски

и кейворды должны быть русскими

<font face="Verdana" size="2">Originally posted by Keva:
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.
</font>

Звучит впечатляюще. Надо будет повнимательнее почитать о технологии. а то в превые 2 раза я не очень понял....

Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.

Какой прогноз специалиста?

<font face="Verdana" size="2">Originally posted by Keva:
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.
</font>

Звучит впечатляюще. Надо будет повнимательнее почитать о технологии. а то в превые 2 раза я не очень понял....

Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.

Какой прогноз специалиста?

<font face="Verdana" size="2">Originally posted by Keva:
Короче, никакого извлечения денег :-)</font>

Так не бывает

а такой вопрос - на сколько он быстро работает? (к чему стремиться)

<font face="Verdana" size="2">Originally posted by Keva:
Короче, никакого извлечения денег :-)</font>

Так не бывает

а такой вопрос - на сколько он быстро работает? (к чему стремиться)

Не надо было програмули всякие писать:

Нормально ручками без всяких изысков смотрели бы и радовались.

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
</font>

А если делат это по аналогу ispell? я мельком глянул, какая у них оргганизация данны - по моему очень подходит... и казусов таких не будет кстати в "лесби" корень разве "лес"?

<font face="Verdana" size="2">
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
</font>

Все мои знакомые филологи занимаются не русским и на комп косо смотрят.... Про веб слышали только от меня. работа у них такая...

<font face="Verdana" size="2">
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.

Слово "лес" не испохабил
но вот это не съел:

Парадигма для слова морфий:
морф морфы морфа морфов морфу морфам морф морфы морфом морфами морфе морфах


</font>

В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

это точно. Но мне интереснее самому в этом разобраться в комплекте с организацией данных.

Всего: 138