Комментарии - baranov - Профиль вебмастера - Форум об интернет-маркетинге

1 ноября 2001, 16:30

Они сами присылают письмо, если не хотят сайт индексировать. Письмо приходит вроде от модератора, который собственно и решал этот вопрос.

А с иносранными доменами просто дольше все происходит.

Алгоритмы

5 октября 2001, 20:54

Originally posted by Keva:
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.

да, он поделился этим на 1 странице форума:

Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.

Дихотомия - это и есть бинарное дерево?

[This message has been edited by baranov (edited 05-10-2001).]

Алгоритмы

5 октября 2001, 20:54

Originally posted by Keva:
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.

да, он поделился этим на 1 странице форума:

Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.

Дихотомия - это и есть бинарное дерево?

[This message has been edited by baranov (edited 05-10-2001).]

разноязычные поисковики

5 октября 2001, 18:30

Яндекс скорее всего просто не будет индексировать....

а ключевые слова должны быть в соответствии с потребностями предполагаемой аудитории. Я не уверен, что при русском запросе будет правильно посылать чел-ка на аглицкий сайт.

хотя если не пускать сопли, то большинство в россии говорит, пишет и ищет по-русски

и кейворды должны быть русскими

Алгоритмы

5 октября 2001, 17:39

Originally posted by Keva:
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.

Звучит впечатляюще. Надо будет повнимательнее почитать о технологии. а то в превые 2 раза я не очень понял....

Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.

Какой прогноз специалиста?

Алгоритмы

5 октября 2001, 17:39

Originally posted by Keva:
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.

Звучит впечатляюще. Надо будет повнимательнее почитать о технологии. а то в превые 2 раза я не очень понял....

Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.

Какой прогноз специалиста?

Алгоритмы

5 октября 2001, 16:53

Originally posted by Keva:
Короче, никакого извлечения денег :-)

Так не бывает

а такой вопрос - на сколько он быстро работает? (к чему стремиться)

Алгоритмы

5 октября 2001, 16:53

Originally posted by Keva:
Короче, никакого извлечения денег :-)

Так не бывает

а такой вопрос - на сколько он быстро работает? (к чему стремиться)

Яндекс прикрыл сервис?

5 октября 2001, 15:52

Не надо было програмули всякие писать:

Нормально ручками без всяких изысков смотрели бы и радовались.

Алгоритмы

5 октября 2001, 15:36

Originally posted by Vyacheslav Tikhonov:
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос

)

А если делат это по аналогу ispell? я мельком глянул, какая у них оргганизация данны - по моему очень подходит... и казусов таких не будет кстати в "лесби" корень разве "лес"?

А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.

Все мои знакомые филологи занимаются не русским и на комп косо смотрят.... Про веб слышали только от меня. работа у них такая...

Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.

Слово "лес" не испохабил

но вот это не съел:

Парадигма для слова морфий:
морф морфы морфа морфов морфу морфам морф морфы морфом морфами морфе морфах

В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

это точно. Но мне интереснее самому в этом разобраться в комплекте с организацией данных.

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Зачем быть уникальным в мире, где все можно скопировать

baranov