В корне не правы. Для этого нужно, прежде всего, время. И не мало, исходя из того, что яша ща каждый день что-то подбрасывает нового.
Почему же, все время, пытаются к яше относится как к "живому". Он не человек, он - машина, набор программ и баз данных.
А сие, несмотря на мат. выкладки и кучу теории, - есть решение прграммистов. Именно реализационное.
Если вести разговор о наложении фильтров, непотов, и еще чего-либо, нужно понимать, что все это можно применить к какой-то еденице информации, которая хранится в БД, как независимоизменяемый элемент.
Может начать с этого. Так что-же есть этот эллемент????
- символ
- пассаж
- предложение или фраза
- вся страница целиком
- контент отдельно, ссылки отдельно
или как?????
Говорим тольок о ссылках. Нас интересует тот факт, что по ним "передается" некий вес, а точнее нескольок весов, грубо тИЦ, вИЦ, ссылочное....
Объемы хранения и обработки - огромны, даже без учета коррестирующих коэффициентов. Значит задача както должна упрощаться, укрупнятся. Чтобы расчет тербовался не для каждой ссылки, а для некого их количества (блока в рамках сайта).
И скорее всего, все положительные и отрицательные коэффициенты накладываются именно на блок. А вот сколько ссылок в блоке и по какому принцыпу они объеденены - это уже вопрос более интересный.
Именно поэтому и не удается точно определить, на все или не на все ссылки действует "понижалка".
Вожможно по количеству передаваемых "едениц".
Стоит отметить тот факт, что невозможно точно сказать, передаетляи ссылка вес или нет. И только после того, как удасться определять это, можно размышлять о непоте о эффективности и т.д.
AndyM,
1. Часто приходится диктовать имя сайто по телефону... Приходится обращать особое внимание на зону.
2. Как правило, к доменному имени привязана еще и почта, проблема та-же.
3. Набирая сайт с визитки или буклета, высока вероятность ошибки =) Особенно если в привычной зоне ru находится конкурент.
Что мешает зарегистрировать домен вида <контактнай телефон>.ru. Не очень красиво, зато проще помнить и т.д.
При этом, никто не мешает иметь еще зеркала для "крутизны".
С точки зрения маркетинга - это самый неудачный ход. Поверьте.
joost,
Именно Ваш случай
/ru/forum/155862
И еще, прежде чем спросить, - потрудитесь поискать уже готовые ответы.
koi8 - всегда 1 байт.
Основной движок, как и часть ботов написаны на перле, и еще, если верить их представлениям, являются win16 или dos приложениями, а в этом случае, перекодировка, - напрасноя трата рессурса.
+ явные глюки со пецсимволами, которых небыло бы при использовании UTF8.
Вопрос не в символах, а словах на украинском и белорусском языке.
DrJeans,
Процессы, имхо, - паралельные.
Коректировка весов и методов определения ранжирующих факторов - это алгоритм ранжирования., а словоформы - это уже к калдуну (или калдунам)... для текста и для анкотров
Вобщем то и писалось все это каак теоритическое предположение. Здесь хватает любителей эксперементов. Возможно кто-то и возьмется. Хотя сейчас для этого не очень благоприятное время.
- яша явно тормозит
- от апа к апу что-то подкручивают
- в начале сентября Кубок яши, правда для украины
Откуда мнение, что кто-то?
Вот софтинка, которая выложена самим яшей
http://company.yandex.ru/technology/products/mystem/mystem.xml
она умеет анализировоть строки. Конечно она достаточно старая, и врятле ее меняют вместе со соновным движком, но она дает общее представление о работе яши.
Ведь алгоритм обработки словоформ должен быть максимально "легким" с точки зрения рессурсозатрат и скорости исполнения, а значит - может иметь минимум дополнительных проверок и исключений, которые никак не повлияют на основную массу.