я придерживаюсь варианта плюстри-минустри
то есть
2 3 4 [5] 6 7 8
3 4 5 [6] 7 8 9
4 5 6 [7] 8 9 10
написал себе дорген на похапэ, под свои нужды :)
кстати почему его нет в списке?
и возникает сразу два вопроса: почему топик в ветке про дорвеи
и почем нынче ломанный фтп к сайту с пр5+ ?
для учащихся: индексируемая ссылка с сайта pr5-pr7 стоит куда больше, чем мама выделяет в месяц денег.
а ответ очевидно простой: гугля не передает пр с данных сайтов, так что забивать ссылками его можно по самые гланды.
поправка: небанят за определенные типы неуникального контента, из которого чем более чем полностью, может состоять сайт.
блог же забитый копи-пастой будет забанен вполне успешно
Посадить за дорвеи могут. Был бы повод и желание.
В этой стране реально наказуемо два повода:
голые дети, если доказано что это порнография
контент, содержащий межнациональную рознь и хуление руководства страны.
Поэтому не используйте картинки с детями моложе 18ти лет для ваших дорвеев и не используйте контент, где осуждается народным некультурным языком План Путина.
В остальном на все ваши дорвеи весьма насрать всем, кроме обманутых юзеров и Яндекса.
так я не понял? ребёнку будет дорген или опять предпятничное глумление?
зачем писать? есть готовые доргены, которые делают.
по сути разница между доргенами - в удобстве интерфейса, в количестве извращений (читай: макросов) и возможностями по работе с текстом.
и поэтому нормальный (по всем вышеописанным свойстам) дорген, сделанный с нуля (а не слегка переработанные методом индусского быдлокодинга, исходники нулленого РБ) стоит никак не двести и не пицот баксов. Ценник начинается от 1кб и сроки написания 1.5-2 месяца.
А как вы думали? всунуть в шаблон текст и кейворды и вот он афигенный дорген? увы, нет. Есть куча моментов, плавно и незаметно ускользающих от взора детей.
вот-вот и я когда-то примерно так же думал. проще снести и проще оставить.
теги сносить как раз не надо. одним регулярным выражением не обойтись. у меня фильтр из примерно 10 последовательных регэкспов.
и как раз на выходе остается то, что нужно. из 5 мегов исходного напарсенного текста остается 1-2.
кстати по факту определения стартового слова. Есть множество проблем связанных с тем, как считать начало предложения, так как кроме текст в хтмл может быть и разделен тегами и знаками переноса и всякой херней.
но в принципе самым простым решением: это искать комбинацию
точка (пробел) Любая Большая Буква [А-ЯA-Z], либо цифра
такой алгоритм отсекает всю прямую речь, используемую в книжках, что значительно повышает качество контента.
ну а как реализовать - дело второе. можно методом прямых рук, можно через жопу, по-индусски.
и тем не менее скрипт работает, определяет стартовые слова и конечную точку.
и мусор очищается и все что не нужно выкидывается.
если что-то кажется сложным и невыполнимым, не значит, что это сделать никому не возможно.
пример куска текста, на выходе парсера:
----------
Серия Guilty Gear существует уже несколько лет, завоевала массу фанатов, и стала одним из достойнейших представителей файтингов на киберспортивных турнирах. Так же подумали и ребята из Arc System Works, приготовив игрокам новую ловушку, пожирающую время в промышленных масштабах, но доставляющую массу веселья! Три расы, развитие города, какое-то пафосное фэнтезийное название, все это мы уже видели не раз и ни два. В этом плане игра не предлагает ничего оригинального. Видимо поэтому IT Arcama решили прикрутить к посредственному клону квесты и ролевую систему. Мутант получился тот еще, но не лишенный некоторой доли обаяния.
Контент состоит из морфологически и синтаксически верных предложений, которые друг с другом не всаимосвязанны сюжетом (что впрочем для дора монопенисуально).