Говори почту, а лучше сразу кошелек.
Ну, грубо говоря, не очень быстро, но в то же время этого должно хватать. Цифра взята с потолка или же такая машинка имеется? Дело в том, что доры на таком тесте держались бы в индексе не один месяц (если иметь в распоряжении текст такого качества, то и остальное, думаю, не хромало бы). Но в топе я что-то такого текста не встречал. Или вы не по адалту?
Ну, водность это таки статический показатель. Имеется массив эталонного текста для данной тематики (скорее всего с разных мест собирался), и ваш текст. Сравниваем показатели, и если разница не критична - пускаем в индекс.
Ну... давай еще вспомним про замену русских букв на английские :D Это скорее не фильтры, а так, барьер против "особо умных".
Ну, опять таки, сравнение происходит с массивом текста нужной тематики.
Ну, естественно про это сразу подумал, но метод заполучить ее не вижу. Понятен метод как на этапе подбора бд словосочетаний определить частотность, но это займет очень много времени.
Да дело не в нравится, а в том, если текст будет соответствовать хотя бы нижней планке того, что мы тут обсуждаем, то моменты с неправильной вставкой омонимов не сыграют никакой роли.
Эт да. А то все в подполье ушли...
Та ну, басни это все. Тот же РБ на стыках выдает ересь...
Да и простая морфологическая подмена без всяких там проверок лезет на ура.
Дык и я о чем, но некоторые считают, что
Вот так вот.
Это да... Х.з. Ну был ведь план рассказов у него, ну возьми за пол часика до эфира набросай по пунктам по каждому разделу, мысленно продумай что скажешь, и уже будет хоть более-менее, но нет же, надо импровизировать... Переоценил себя.
Эй, у меня есть нулленный красный бетон, продайте мне аккуантов, арб сказал где-то тут есть!
Только мне это, надо трастовых, они ведь все трастовые?
Да я не про это. Там их сразу видно, т.к. больше по делу разговор идет, а тут умники только и что и могут маты покричать и школоту позагонять, с видом крутого дорвейщика, а как разговор за дело зашел, притихли, боятся глупость вякнуть, а то ведь засмеют.
Эх, ну не хочется об этом на людях говорить, скажем так. Если при вставке каждого слова проверять его на совместимость с предыдущим, и, стоит учесть, что процент "неверных" подстановок будет большой, что заставит проверять еще и еще - скорость генерации будет довольно медленной. А если правильно подобрать группы и задать в настройках какие группы с какими сочетаются - будет в разы быстрее, правда, изредка будут встречаться полу-ляпы. Но это алгоритм можно будет обтачивать вплоть до того, что можно будет задавать тематичность предложений, лишь тем, что более грамотно распределять соотношение групп. А разница работы будет такая же как в скорости работы блендера и старушки которая взбивает крем в миске.
Хм, поумничаю, пожалуй, а назови, пожалуйста, хоть один не статический фильтр яндекса косательно текста? :) Но сверять текст со статистикой - это лишь тест. Конечно, если в распоряжении имеется огромная статистика и методы ее анализа - то можно попробовать сделать из этого что-то путевое, но пока приходится отталкиваться от нуля.
Ну, тут можно допустить и погрешность, я считаю. Опять таки, довольно точный метод определения в разы замедлит генерацию.
В общем, ладно, каждый верит в свое видение ситуации.
P.S. Идет эфир про "черное СЭО", сейчас про черные странички послушаю... А то скучно :(
Gorodetskiy добавил 03.11.2009 в 13:59
Ну, арбайтен вон рассказывал что сайты на простом хтмл сразу в бан уходят :D :D :D
Во первых, такие словосочетания как "отловить посылку", "почитать посылку" и т.д., которые не несут никакого смысла, но могут быть восприняты как внятный текст чисто за счет морфологии так же стоит учитывать, в твоем методе их не будет.
Ты, скорее говоришь про метод перемешивания текста, чем генерации с нуля. Т.к. если пробовать генерировать такое с нуля, имея базу словосочетаний разбитую по частотности, то это будет занимать по очень много времени.
Сам подумай, сначала выбрать слово которое подходит по части речи и падежу, затем сопоставить его с предидущим словом, и затем уже попробовав подставить к нему различные предлоги сверить с базой частотности. На выходе будет метр генерироваться больше часа...
Эм, ты почитай тексты на белых сайтах. Именно тех, которые стремятся любой ценой попасть в топ - там только что и видно прямое вхождение кв под порой смешным окружением, которое было искажено лиж бы вставить КВ именно в нужной форме.
Одно дело знать (читать "догадываться") как работает алгоритм, другое дело высмотреть его косяки, и обезвредить не задев "живые" сайты. На это уйдет немало времени, но вопрос зачем, если на этом алгоритме никто и не делает текст? Остается вопрос, определить какой текст юзают дорвейщики, определить его и зафильтровать. А тут как на ладони...
Ага, шибко уникальный текст на выходе получится...
Вообще, ребята, советую такие детали обсуждать в личке\аське. Просто методику основную - да, можно узнать совета, узнать минусы, а все остальное - между собой. Вы поймите, вот увидит яндексоид текст выдаче, почитает, и в лучшем случае сможет определить лишь основу, по какому методу делается этот текст, но не учтет всех деталей. Заходит на серч, и тут вы ему алгоритм как на ладони выдаете, нехорошо ведь.
Мда, вот и все люди из этого раздела, у которых есть голова :)
Ну, чутка подскажу :) Значит, как уже правильно сказал su-root, слова должны быть разбиты на группы, т.к. простейшая морфологическая подмена при сложных структурах предложений выдает очень кислые варианты. А если фильтровать союзы, предлоги и знаки препинания - выходит вообще такая ересь, так что изначально надо ставить цели создать качественную структуру предложения.
Под этим понятием я подразумеваю не просто определить морфологию каждого слова и сделать под ним подмену, а так же выделить группу, к которой то или иное слово относится. Например в шаблоне глагол "отправить" нельзя заменять на "залезть" - т.к. после этих слов существительные должны идти в разных падежах.
Это такой вот маленький кусочек, что б людям не представлялся весь этот процесс в радужных тонах ;)
Не-не-не, он конечно же поднимает по 80кр в сутки, на сиджах, та пофик на самом деле. Даже если б поднимал, не рассказал бы об этом на сеопульте просто так, зачем? Что б добротная часть посмотревших убежала в "черное сэо" и пусть по 3-5-10к трафа в сутки отбирала из общего котла? Наивно как-то. Я вот помогаю новичкам тоже, статьи у меня в подписи, в аське с некоторыми говорю (раньше вообще толпы) ну было просто желание помочь, но не делал бы я этого если б не рефские, все таки не настолько альтруист. И я этого не скрываю, в моем случае это естественно, а вот арбу заявить что он это делает ради рефов - нереально, поэтому он этого и не скажет.
Вы почитайте на его форуме топик про остапкеш вроде, там где он требовал завышенный процент, а как ему отказали, он на форуме написал что партнерка шейвит (админ потом лог аськи выкладывал). Везде есть свой профит, не будьте так просты.