да я вот тоже думаю взять словарик хотябы на 5000 слов и посмотреть словосочетания на lib.ru
например "мягкий стол"
http://www.google.ru/search?hl=ru&source=hp&q=site%3Alib.ru+%22%D0%BC%D1%8F%D0%B3%D0%BA%D0%B8%D0%B9+%D1%81%D1%82%D0%BE%D0%BB%22&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=
не катит
а какой стол катит
http://www.google.ru/search?hl=ru&newwindow=1&q=site%3Alib.ru+%22*+%D1%81%D1%82%D0%BE%D0%BB%22&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=
может обеднный?
http://www.google.ru/search?hl=ru&newwindow=1&q=site%3Alib.ru+%22%D0%BE%D0%B1%D0%B5%D0%B4%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9+%D1%81%D1%82%D0%BE%D0%BB%22&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=
ну типа того :)
ну я вроде почти тоже самое делаю. есть куча предложений одного автора.
в итоге после прогона получаю такие шаблоны:
С ЕД,ИМ,ИМЯ,МР,ОД-----ЧАСТ -----Г ДСТ,ЕД,МР,НП,ПРШ,СВ-----ПРЕДЛ -----С ВН,МН,НО,СР
МС 2Л,ЕД,ИМ-----КР_ПРИЛ ЕД,КАЧ,МР,НО,ОД-----ИНФИНИТИВ ДСТ,НП,СВ-----ПРЕДЛ -----С ДТ,ЖР,МН,НО-----С ИМ,МН,МР,ОД
МС 1Л,ЕД,ИМ-----Н -----Г 1Л,БУД,ДСТ,ЕД,НП,СВ-----ПРЕДЛ -----МС 2Л,ЕД,ТВ
ПРЕДЛ -----С ЕД,МР,НО,ТВ-----Г ДСТ,ЕД,МР,НП,НС,ПРШ-----МС 1Л,ЕД,ИМ-----ПРЕДЛ -----С МН,МР,НО,РД
МС 2Л,ИМ,МН-----ЧАСТ -----Г ДСТ,МН,ПЕ,ПРШ,СВ-----ПРЕДЛ -----С ВН,ЕД,МР,ОД
С ЕД,ИМ,ИМЯ,МР,ОД-----Г ДСТ,ЕД,МР,ПЕ,ПРШ,СВ-----С ДТ,ЕД,ИМЯ,МР,ОД-----ИНФИНИТИВ ДСТ,НП,НС-----ПРЕДЛ -----С ДТ,ЕД,МР,НО
но в итоге при генерации получается не совсем то.
Я ОБУЛСЯ ПОЗАДИ ПОЧЕЧНУЮ КАБАЛУ . ФАЛЬШИВУЮ ПРОСЕКУ ОБУЯЕШЬ ПОПЕРЕК НЯНЕ . СЗАДИ ОРБИТАМ ПУТЕШЕСТВЕННИКА ИСЧЕРПАЛАСЬ ПРОХОДИМОСТЬ . Я Ж ЖМУ ОПЕРИРОВАТЬ РЕВИЗОРОМ . ПЕРЕВАЛИЛСЯ ОСТОРОЖНО ФЛОР ВОПРЕКИ МНЕ . РАДЖ ЗДОРОВО ТКНУЛСЯ СВЕРХУ НАУЩЕНЬЯ . ТЫ ЗАКУЛИСЕН ПРОСТИРАТЬСЯ ВОЗЛЕ УТВАРЯМ БИЗОНЫ . Я ГАДКО НАРОЖУСЬ ПОД ТОБОЮ . ВРОДЕ ГОНГОМ ЦЫКАЛ Я РАДИ СТАФИЛОКОККОВ . ВЫ РАЗВЕ ГЕРМЕТИЗИРОВАЛИ ПЛЮС ПРОФЕССИОНАЛА .
морфология вроде угадывается, но не везде и не в тему.
а у тебя вроде похоже на морфологический синонимайзер.
/ru/forum/146934
нашел твой топик.
ну я сейчас по такому же пути иду.
хотел сделать несколько сотен шаблонов для генерации предложений. скачал десяток книжек одного автора. с помощью aot сгенерил шаблоны, и оставил только те, в которых не встречаются омонимичные словоформы.
ну итог хреновый. генерит полную неморфологическую хрень.
придется видимо руками составлять каждый шаблон и генерить, смотреть, править по несколько раз каждый шаблон.
ну я даже не знаю по каким кеям искать эти обсуждения.
давай еще раз обсудим.
ну предложение должно генериться с морфологией. ключевик вставляться тоже с морфологией.
частотность сгенеренных словосочетаний проверить например на lib.ru
что еще можно сделать?
А как он должен выглядеть? (идеальный генеренный контент)
Спали ТЗ.
ну пробуй. я не буду.
думаю, что если дорвейный трафик на сайте перевалит за какое-то значение (допустим 20%), то варезник уйдет в бан. а изощрятся ради 20% неохота.
возможно еще учитывается посещаемость сайта.
у ТС меньше 10% юзеров попадают на доры, а у тебя наверное под 100% и эти все 100% сливаются куда-то.
если бы у тебя на сайте была посещаемость 1000 уников (до доров) и с доров 100 уников, то может бы и не забанили.
имхо.
но как сделать посещаемый сайт без доров, это уже белое сео, закладки и прочие недорвейные дела.
вообщем идея заключается в том, чтобы к большому числу нормальных страниц примазать несколько дорвейных страниц. чтобы процент дорвейных страниц не превышал какого-то значения. (допустим 1%).
если каждый день постить по 100 нормальных новостей\топиков и 1 доровую новость\топик, то бана, имхо, можно и не дождаться. но и трафа придется очень долго ждать.
круто.
а еще можно поставить форум, наполнить его таким же контентом, как и на дле.
а раздел курилка заспамить по самое небалуйся от разных юзеров.
только закончится всё как обычно. баном.
ну гугл успешно сам себя ест. (ел некоторое время назад, сейчас не знаю).
на сайтах, использующих поиск гугла.
вначале дор должен быть проиндексирован гуглом, а потом на сайт с поиском гугла ставится ссылка аля site:dor.ru viagra
в итоге получается страница поиска со снипетами.
правда, кликабельность такой страницы наверное низкая.