Gorodetskiy

Gorodetskiy
Рейтинг
84
Регистрация
17.07.2008
spambot:
кто таким поделиться ?

Говори почту, а лучше сразу кошелек.

sokol_jack:
Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.

Ну, грубо говоря, не очень быстро, но в то же время этого должно хватать. Цифра взята с потолка или же такая машинка имеется? Дело в том, что доры на таком тесте держались бы в индексе не один месяц (если иметь в распоряжении текст такого качества, то и остальное, думаю, не хромало бы). Но в топе я что-то такого текста не встречал. Или вы не по адалту?

sokol_jack:
Количество "воды" в тексте.

Ну, водность это таки статический показатель. Имеется массив эталонного текста для данной тематики (скорее всего с разных мест собирался), и ваш текст. Сравниваем показатели, и если разница не критична - пускаем в индекс.

sokol_jack:
Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено.

Ну... давай еще вспомним про замену русских букв на английские :D Это скорее не фильтры, а так, барьер против "особо умных".

sokol_jack:
Количество слов, частота использования которых "обычно" ниже определенной границы.

Ну, опять таки, сравнение происходит с массивом текста нужной тематики.

sokol_jack:
У Яндекса есть индекс. Мало?!

Ну, естественно про это сразу подумал, но метод заполучить ее не вижу. Понятен метод как на этапе подбора бд словосочетаний определить частотность, но это займет очень много времени.

sokol_jack:
Кому что больше нравится.

Да дело не в нравится, а в том, если текст будет соответствовать хотя бы нижней планке того, что мы тут обсуждаем, то моменты с неправильной вставкой омонимов не сыграют никакой роли.

sokol_jack:
Готов днями обсуждать в аське.

Эт да. А то все в подполье ушли...

spzero:
Так что за хреновую частоту пар слов можно получить фильтр.

Та ну, басни это все. Тот же РБ на стыках выдает ересь...

Да и простая морфологическая подмена без всяких там проверок лезет на ура.

Дык и я о чем, но некоторые считают, что

sokol_jack:
Яндексу не нужен ваш алгоритм. У него и так есть статистика вся

Вот так вот.

хз ... пусть без ника:
терь у него нет ни единого шанса спорить на форумах и втирать про свою важность. сразу завалят перлами из этой передачи и всевозможными демотиваторами ... закопал он себя.

Это да... Х.з. Ну был ведь план рассказов у него, ну возьми за пол часика до эфира набросай по пунктам по каждому разделу, мысленно продумай что скажешь, и уже будет хоть более-менее, но нет же, надо импровизировать... Переоценил себя.

Эй, у меня есть нулленный красный бетон, продайте мне аккуантов, арб сказал где-то тут есть!

Только мне это, надо трастовых, они ведь все трастовые?

sokol_jack:
Есть еще из других разделов

Да я не про это. Там их сразу видно, т.к. больше по делу разговор идет, а тут умники только и что и могут маты покричать и школоту позагонять, с видом крутого дорвейщика, а как разговор за дело зашел, притихли, боятся глупость вякнуть, а то ведь засмеют.

sokol_jack:
Глупо. Гораздо разумнее приводить замены к нужным формам (число, падеж...).
И проверять "применяемость" в данном месте по n-граммам.

Эх, ну не хочется об этом на людях говорить, скажем так. Если при вставке каждого слова проверять его на совместимость с предыдущим, и, стоит учесть, что процент "неверных" подстановок будет большой, что заставит проверять еще и еще - скорость генерации будет довольно медленной. А если правильно подобрать группы и задать в настройках какие группы с какими сочетаются - будет в разы быстрее, правда, изредка будут встречаться полу-ляпы. Но это алгоритм можно будет обтачивать вплоть до того, что можно будет задавать тематичность предложений, лишь тем, что более грамотно распределять соотношение групп. А разница работы будет такая же как в скорости работы блендера и старушки которая взбивает крем в миске.

sokol_jack:
Смею вас расстроить. Яндексу не нужен ваш алгоритм. У него и так есть статистика вся, которая ему нужна. И хоть 20 алгоритмов пишите, если разные свойства текста не проходят фильтры Яшки (именно статистически!) - не поможет.

Хм, поумничаю, пожалуй, а назови, пожалуйста, хоть один не статический фильтр яндекса косательно текста? :) Но сверять текст со статистикой - это лишь тест. Конечно, если в распоряжении имеется огромная статистика и методы ее анализа - то можно попробовать сделать из этого что-то путевое, но пока приходится отталкиваться от нуля.

sokol_jack:
Есть решения, которые позволяют снимать омонимию

"На косой косе косарь косой косой косо косил". Как вам?
Смысл примерно такой - "На кривой косе(на берегу) косарь непрямой(испорченной) косой криво косил".

Ну, тут можно допустить и погрешность, я считаю. Опять таки, довольно точный метод определения в разы замедлит генерацию.

В общем, ладно, каждый верит в свое видение ситуации.

P.S. Идет эфир про "черное СЭО", сейчас про черные странички послушаю... А то скучно :(

Gorodetskiy добавил 03.11.2009 в 13:59

sokol_jack:
А еще за CMS и шаблоны банят, ага?

Ну, арбайтен вон рассказывал что сайты на простом хтмл сразу в бан уходят :D :D :D

freylon:
это решается путем определения частотности.

"отправить посылку" -> "залезть посылку"
видим, что частотность нулевая и не производим такую замену.

Во первых, такие словосочетания как "отловить посылку", "почитать посылку" и т.д., которые не несут никакого смысла, но могут быть восприняты как внятный текст чисто за счет морфологии так же стоит учитывать, в твоем методе их не будет.

Ты, скорее говоришь про метод перемешивания текста, чем генерации с нуля. Т.к. если пробовать генерировать такое с нуля, имея базу словосочетаний разбитую по частотности, то это будет занимать по очень много времени.

Сам подумай, сначала выбрать слово которое подходит по части речи и падежу, затем сопоставить его с предидущим словом, и затем уже попробовав подставить к нему различные предлоги сверить с базой частотности. На выходе будет метр генерироваться больше часа...

freylon:
я бы на месте яндекса автоматом банил тексты, где ключевик всавляется много раз и каждый раз не по морфологии.

ну еще бы банил за то, что ключевик вставляется так, что частотность примыкающих к нему слов стремится к нулю.

Эм, ты почитай тексты на белых сайтах. Именно тех, которые стремятся любой ценой попасть в топ - там только что и видно прямое вхождение кв под порой смешным окружением, которое было искажено лиж бы вставить КВ именно в нужной форме.

freylon:
мне кажется в яндексе таких алгоритмов знают миллион.
и знали еще наверное 10 лет назад.

Одно дело знать (читать "догадываться") как работает алгоритм, другое дело высмотреть его косяки, и обезвредить не задев "живые" сайты. На это уйдет немало времени, но вопрос зачем, если на этом алгоритме никто и не делает текст? Остается вопрос, определить какой текст юзают дорвейщики, определить его и зафильтровать. А тут как на ладони...

BredoGen.:
разбиваем текст на фразы, и вставляем *фраза* *ключ* *фраза* и т.д

Ага, шибко уникальный текст на выходе получится...

Вообще, ребята, советую такие детали обсуждать в личке\аське. Просто методику основную - да, можно узнать совета, узнать минусы, а все остальное - между собой. Вы поймите, вот увидит яндексоид текст выдаче, почитает, и в лучшем случае сможет определить лишь основу, по какому методу делается этот текст, но не учтет всех деталей. Заходит на серч, и тут вы ему алгоритм как на ладони выдаете, нехорошо ведь.

Мда, вот и все люди из этого раздела, у которых есть голова :)

Ну, чутка подскажу :) Значит, как уже правильно сказал su-root, слова должны быть разбиты на группы, т.к. простейшая морфологическая подмена при сложных структурах предложений выдает очень кислые варианты. А если фильтровать союзы, предлоги и знаки препинания - выходит вообще такая ересь, так что изначально надо ставить цели создать качественную структуру предложения.

Под этим понятием я подразумеваю не просто определить морфологию каждого слова и сделать под ним подмену, а так же выделить группу, к которой то или иное слово относится. Например в шаблоне глагол "отправить" нельзя заменять на "залезть" - т.к. после этих слов существительные должны идти в разных падежах.

Это такой вот маленький кусочек, что б людям не представлялся весь этот процесс в радужных тонах ;)

unemployed:
так это значит Арб нам врал в эфире?

Не-не-не, он конечно же поднимает по 80кр в сутки, на сиджах, та пофик на самом деле. Даже если б поднимал, не рассказал бы об этом на сеопульте просто так, зачем? Что б добротная часть посмотревших убежала в "черное сэо" и пусть по 3-5-10к трафа в сутки отбирала из общего котла? Наивно как-то. Я вот помогаю новичкам тоже, статьи у меня в подписи, в аське с некоторыми говорю (раньше вообще толпы) ну было просто желание помочь, но не делал бы я этого если б не рефские, все таки не настолько альтруист. И я этого не скрываю, в моем случае это естественно, а вот арбу заявить что он это делает ради рефов - нереально, поэтому он этого и не скажет.

Вы почитайте на его форуме топик про остапкеш вроде, там где он требовал завышенный процент, а как ему отказали, он на форуме написал что партнерка шейвит (админ потом лог аськи выкладывал). Везде есть свой профит, не будьте так просты.

Всего: 796