Хм, а что, phpMorphy работать уже перестала?
Не так давно кстати новая версия вышла...
sokol_jack добавил 04.11.2009 в 12:36
Не пали тему. Щас как узнают, что дор банится в 99% не из-за текста - все, пропал серч :)
Насчет 10к страниц годами в индексе - старым копипастам сейчас легче. Но и новые вобщем-то входят. Особенно если помогать ;)
sokol_jack добавил 04.11.2009 в 12:38
Ну, я вот аську свою не прячу ;)
А у тебя в блоге в комментах тоже проходной двор (Gorodetskiy, тебя это там не касается ;) ).
Алгоритм? ;)
"Снятие омонимии"
Ну, у меня модификация этого плагина.
Кеш страницы формируется при ее запросе, если нет закешированной версии и она еще не истекла. Если истекла - чистится кеш именно этой страницы и страница запрашивается "нормально", результат - в кеш.
Время кеша ДЛЯ СТРАНИЦЫ - 4 часа (настраивается).
Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.
Да что угодно...
Количество "воды" в тексте. Количество несогласованных связок слов. Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено. Количество слов, частота использования которых "обычно" ниже определенной границы.
У Яндекса есть индекс. Мало?!
Кому что больше нравится.
sokol_jack добавил 03.11.2009 в 21:48
Готов днями обсуждать в аське.
Я готов тратить час времени на генерацию мб ЧЕЛОВЕЧЕСКОГО контента.
Благо это все оптимизируется и параллелится.
А еще за CMS и шаблоны банят, ага? :p
Есть еще из других разделов :p
Глупо. Гораздо разумнее приводить замены к нужным формам (число, падеж...).
И проверять "применяемость" в данном месте по n-граммам. :p
sokol_jack добавил 03.11.2009 в 13:22
Смею вас расстроить. Яндексу не нужен ваш алгоритм. У него и так есть статистика вся, которая ему нужна. И хоть 20 алгоритмов пишите, если разные свойства текста не проходят фильтры Яшки (именно статистически!) - не поможет.
sokol_jack добавил 03.11.2009 в 13:25
Есть решения, которые позволяют снимать омонимию ;)
"На косой косе косарь косой косой косо косил". Как вам?
Смысл примерно такой - "На кривой косе(на берегу) косарь непрямой(испорченной) косой криво косил". :p
16, если еще не конец :)
Не понял, причем тут количество НЧ.
Нам же количество страниц важно?
Или это такой намек, что много НЧ, под каждый - страница = дофига страниц?
Все равно не страшно - я вон файловый кеш посоветовал - он html output спокойно в файлики складывает и когда надо - обновляет...
ИИ для этого не нужен ;)
Кстати, а кеш точно не спасет?
Например, максимальный вариант - MaxSite Cache (http://maxsite.org/page/maxsite-cache).
База конечно меньше не станет, но вот нагрузка на хостинг станет стремится к 0 :)