number4

Рейтинг
89
Регистрация
27.07.2008
Интересы
интернет магазины

я придерживаюсь варианта плюстри-минустри

то есть

2 3 4 [5] 6 7 8

3 4 5 [6] 7 8 9

4 5 6 [7] 8 9 10

написал себе дорген на похапэ, под свои нужды :)

кстати почему его нет в списке?

и возникает сразу два вопроса: почему топик в ветке про дорвеи

и почем нынче ломанный фтп к сайту с пр5+ ?

для учащихся: индексируемая ссылка с сайта pr5-pr7 стоит куда больше, чем мама выделяет в месяц денег.

а ответ очевидно простой: гугля не передает пр с данных сайтов, так что забивать ссылками его можно по самые гланды.

поправка: небанят за определенные типы неуникального контента, из которого чем более чем полностью, может состоять сайт.

блог же забитый копи-пастой будет забанен вполне успешно

Посадить за дорвеи могут. Был бы повод и желание.

В этой стране реально наказуемо два повода:

голые дети, если доказано что это порнография

контент, содержащий межнациональную рознь и хуление руководства страны.

Поэтому не используйте картинки с детями моложе 18ти лет для ваших дорвеев и не используйте контент, где осуждается народным некультурным языком План Путина.

В остальном на все ваши дорвеи весьма насрать всем, кроме обманутых юзеров и Яндекса.

так я не понял? ребёнку будет дорген или опять предпятничное глумление?

зачем писать? есть готовые доргены, которые делают.

по сути разница между доргенами - в удобстве интерфейса, в количестве извращений (читай: макросов) и возможностями по работе с текстом.

и поэтому нормальный (по всем вышеописанным свойстам) дорген, сделанный с нуля (а не слегка переработанные методом индусского быдлокодинга, исходники нулленого РБ) стоит никак не двести и не пицот баксов. Ценник начинается от 1кб и сроки написания 1.5-2 месяца.

А как вы думали? всунуть в шаблон текст и кейворды и вот он афигенный дорген? увы, нет. Есть куча моментов, плавно и незаметно ускользающих от взора детей.

graber.txt:
проще оставить только то что нужно, правильно составить регулярное выражение и всё
теги проще снести

вот-вот и я когда-то примерно так же думал. проще снести и проще оставить.

теги сносить как раз не надо. одним регулярным выражением не обойтись. у меня фильтр из примерно 10 последовательных регэкспов.

и как раз на выходе остается то, что нужно. из 5 мегов исходного напарсенного текста остается 1-2.

кстати по факту определения стартового слова. Есть множество проблем связанных с тем, как считать начало предложения, так как кроме текст в хтмл может быть и разделен тегами и знаками переноса и всякой херней.

но в принципе самым простым решением: это искать комбинацию

точка (пробел) Любая Большая Буква [А-ЯA-Z], либо цифра

такой алгоритм отсекает всю прямую речь, используемую в книжках, что значительно повышает качество контента.

ну а как реализовать - дело второе. можно методом прямых рук, можно через жопу, по-индусски.

Kalessin:
А вообще дурацкая идея. Если предложение такое:
"Эту собаку зовут Каштанка, потому что её шерсть каштанового цвета."

И как скрипт правильно определит стартовое слово, их тут два с большой буквы. Кроме того, мусор может оказаться внутри предложения, что и происходит во время генерации дора, т.к. доргены предложения так и определяют-начало большая буква, конец точка.

и тем не менее скрипт работает, определяет стартовые слова и конечную точку.

и мусор очищается и все что не нужно выкидывается.

если что-то кажется сложным и невыполнимым, не значит, что это сделать никому не возможно.

пример куска текста, на выходе парсера:

----------

Серия Guilty Gear существует уже несколько лет, завоевала массу фанатов, и стала одним из достойнейших представителей файтингов на киберспортивных турнирах. Так же подумали и ребята из Arc System Works, приготовив игрокам новую ловушку, пожирающую время в промышленных масштабах, но доставляющую массу веселья! Три расы, развитие города, какое-то пафосное фэнтезийное название, все это мы уже видели не раз и ни два. В этом плане игра не предлагает ничего оригинального. Видимо поэтому IT Arcama решили прикрутить к посредственному клону квесты и ролевую систему. Мутант получился тот еще, но не лишенный некоторой доли обаяния.

----------

Контент состоит из морфологически и синтаксически верных предложений, которые друг с другом не всаимосвязанны сюжетом (что впрочем для дора монопенисуально).

Всего: 352