sokol_jack

Рейтинг
78
Регистрация
16.03.2008
Chikey.ru:
Морфологически правильно на пхп не получится, все падет.

Хм, а что, phpMorphy работать уже перестала?

Не так давно кстати новая версия вышла...

sokol_jack добавил 04.11.2009 в 12:36

humbert:
В который раз открою тайну:
1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.

Не пали тему. Щас как узнают, что дор банится в 99% не из-за текста - все, пропал серч :)

Насчет 10к страниц годами в индексе - старым копипастам сейчас легче. Но и новые вобщем-то входят. Особенно если помогать ;)

sokol_jack добавил 04.11.2009 в 12:38

falkhan:
Очень жалко, что на СЕ нет хайда.

Ну, я вот аську свою не прячу ;)

А у тебя в блоге в комментах тоже проходной двор (Gorodetskiy, тебя это там не касается ;) ).

ort:
а кто будет анализировать контекст(смысл) предложения?

Алгоритм? ;)

"Снятие омонимии"

w-builder:
Страниц действительно дофига. Около 20 000. Посетители идут на низкочастотники. Например приходит один посетитель в неделю. Время кеша - 7 дней - слишком много.

Если бы была предварительная генерация кеша...

Ну, у меня модификация этого плагина.

Кеш страницы формируется при ее запросе, если нет закешированной версии и она еще не истекла. Если истекла - чистится кеш именно этой страницы и страница запрашивается "нормально", результат - в кеш.

Время кеша ДЛЯ СТРАНИЦЫ - 4 часа (настраивается).

Gorodetskiy:
Если при вставке каждого слова проверять его на совместимость с предыдущим, и, стоит учесть, что процент "неверных" подстановок будет большой, что заставит проверять еще и еще - скорость генерации будет довольно медленной.

Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.

Хм, поумничаю, пожалуй, а назови, пожалуйста, хоть один не статический фильтр яндекса косательно текста? :)

Да что угодно...

Количество "воды" в тексте. Количество несогласованных связок слов. Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено. Количество слов, частота использования которых "обычно" ниже определенной границы.

Конечно, если в распоряжении имеется огромная статистика и методы ее анализа - то можно попробовать сделать из этого что-то путевое, но пока приходится отталкиваться от нуля.

У Яндекса есть индекс. Мало?!

Ну, тут можно допустить и погрешность, я считаю. Опять таки, довольно точный метод определения в разы замедлит генерацию.

Кому что больше нравится.

sokol_jack добавил 03.11.2009 в 21:48

vitvvs:
может стоит поговорить об этом не в паблике?

Готов днями обсуждать в аське.

Gorodetskiy:
Т.к. если пробовать генерировать такое с нуля, имея базу словосочетаний разбитую по частотности, то это будет занимать по очень много времени.
Сам подумай, сначала выбрать слово которое подходит по части речи и падежу, затем сопоставить его с предидущим словом, и затем уже попробовав подставить к нему различные предлоги сверить с базой частотности. На выходе будет метр генерироваться больше часа...

Я готов тратить час времени на генерацию мб ЧЕЛОВЕЧЕСКОГО контента.

Благо это все оптимизируется и параллелится.

Одно дело знать (читать "догадываться") как работает алгоритм, другое дело высмотреть его косяки, и обезвредить не задев "живые" сайты. На это уйдет немало времени, но вопрос зачем, если на этом алгоритме никто и не делает текст? Остается вопрос, определить какой текст юзают дорвейщики, определить его и зафильтровать. А тут как на ладони...

А еще за CMS и шаблоны банят, ага? :p

Gorodetskiy:
Мда, вот и все люди из этого раздела, у которых есть голова :)

Есть еще из других разделов :p

Под этим понятием я подразумеваю не просто определить морфологию каждого слова и сделать под ним подмену, а так же выделить группу, к которой то или иное слово относится. Например в шаблоне глагол "отправить" нельзя заменять на "залезть" - т.к. после этих слов существительные должны идти в разных падежах.

Глупо. Гораздо разумнее приводить замены к нужным формам (число, падеж...).

И проверять "применяемость" в данном месте по n-граммам. :p

sokol_jack добавил 03.11.2009 в 13:22

Gorodetskiy:
Вы поймите, вот увидит яндексоид текст выдаче, почитает, и в лучшем случае сможет определить лишь основу, по какому методу делается этот текст, но не учтет всех деталей. Заходит на серч, и тут вы ему алгоритм как на ладони выдаете, нехорошо ведь.

Смею вас расстроить. Яндексу не нужен ваш алгоритм. У него и так есть статистика вся, которая ему нужна. И хоть 20 алгоритмов пишите, если разные свойства текста не проходят фильтры Яшки (именно статистически!) - не поможет.

sokol_jack добавил 03.11.2009 в 13:25

freylon:
здесь надо добавить, что не всегда можно однозначно определить свойства слова.
предложения со словами "леса", "слова", "дорога" и т.д. лучше не брать.

Есть решения, которые позволяют снимать омонимию ;)

"На косой косе косарь косой косой косо косил". Как вам?

Смысл примерно такой - "На кривой косе(на берегу) косарь непрямой(испорченной) косой криво косил". :p

16, если еще не конец :)

w-builder:
С большим количеством низкочастотников - кеш не спасает.

Не понял, причем тут количество НЧ.

Нам же количество страниц важно?

Или это такой намек, что много НЧ, под каждый - страница = дофига страниц?

Все равно не страшно - я вон файловый кеш посоветовал - он html output спокойно в файлики складывает и когда надо - обновляет...

ort:
без этого никуда, т.к. для одного и того же синонима бывает множество различных контекстов в предложении, т.е. один синоним не может подходить на все случаи. А искусственный интеллект еще не придумали, вот и приходиться ручками работать :)

ИИ для этого не нужен ;)

Кстати, а кеш точно не спасет?

Например, максимальный вариант - MaxSite Cache (http://maxsite.org/page/maxsite-cache).

База конечно меньше не станет, но вот нагрузка на хостинг станет стремится к 0 :)

Всего: 1527