здесь кроме тебя с ру никто и не работал. тоже мне, открыватель огня обезьянам.
какой еретический ужас. вам по отдельном скурипту на каждый случай надо? для большой буквы и точки, для маленькой и точки, для любой буквы и любого знака препинания? взять любой кастомайзбл парсер и собрать, настроив правила.
теперь результаты парсинга складываются в базы, атомарность которых вы сами задаете, плюс с помощью браузера базы ключевиков будет доступен экспорт в отдельные файлы (текстовые, экселевские, etc.)
что значит кучу файлов прогонять?
из кучи файлов можно загрузить ключи в очередь на парсинг и отпарсить их все. Это и в текущей версии доступно.
в готовящейся версии можно загрузить из той же кучи файлов слова в базу, и в дальнейшем либо поместить их в очередь на парсинг вручную, либо парсер сам доберется до них, в случае наличия свободного рабочего времени.
если я не ответил на вопрос, прошу переформулировать :)
думаешь стоит?
ты даже насрать нормально не можешь.
верни пост, плакса.
да мало ли кто там сколько дерет за те или иные услуги. некоторые и за дорген 120 баксов отдают, хотя фришные околоаналоги доступны сто лет в обед. не убедил. да и капчу для дерганья серпа распознавать вовсе не обязательно 🚬
что немало? 28кк серпов? много, конечно. но не $56к, это точно 😂
да я думаю все равно в цене не сойдемся. Мне фрилансеру дать задание и хау-ту, через месяц будет готово и бюджет будет раз в 56 скромнее. Вообще я пытался сказать, что твое предложение как раз таки выгодно тем, у кого выборки маленькие, так что не пугал бы школьников 🍻
а для кого тогда? я сначала не хотел писать, но раз у пошла такая пьянка: прочекать у тебя 28кк кеев встанет мне в $56к. Самому не смешно? :)
это чисто деловой подход. мы ж о вундервафлях :)
организовать бизнес-процесс, наняв кучу редакторов, и самостоятельно поднять схожие объемы за счет технологических преимуществ - это очень разные вещи, для очень разных людей.
высокие требования к исходной базе объектов, сильные заморочки в морфе скелетов предложений, большой объем ручной работы для худо-бедно заполненной базы скелетиков, способной на троечку описать хотя бы сотню объектов типа "пылесос" или "авто".
Когда речь идет не об адронном коллайдере, класс объекта имеет в среднем ну 10-15 полей характеристик (о методах/мессаджах и прочих взаимодействиях объектов не говорим). Эти цифры из довольно обширного опыта по сбору и обработке всех этих баз чудо-парсерами и анализаторами. Подавляющее большинство полей тех же бытовых приборов или автомобилей обладают малой вариативностью (например чайник выпускается всего в трех цветах, а у машины всего два подходящих варианта кондея: "есть" и "нет"). Это довод в пользу того, что прямым переносом значений полей в текст большого разнообразия не добьешься. Нужно ацки морфить структуру применяемых при описании заготовок. Например, есть 100 чайников. Надо описать их цвет. Допустим, 10 чайников обойдутся без описания цвета. 10 получат "заглушку", мол, цвет неизвестен или чайник очень красивый (заглушки, кстати, тоже не по щелчку пальцев берутся). Оставшиеся 80 чайников должны получить шатко-валко уникальное описание цвета. Сколько скелетов понадобится? Сколько скелетов можно сгенерить на основе базовых (введенных предварительно оператором)? Да тупо от руки попробовать накопирайтить 80 описаний цвета чайника - я пробовал (правда, с девочками 😂) - удовольствие воистину задротское.
Вывод: не забивайте голову. Грамотная работа с неуником куда продуктивнее изобретений генераторов контента.
Если строить систему с взаимодействующими объектами, получаем лавинообразный эффект, соотв. имеем множество состояний системы одних и тех же объектов. Упрощенно говоря, описав однажды Сашу и Машу и научив их различным телодвижениям, изменяющим состояние, получим широкие возможности по генерации контента, поступательно описывая изменения в состоянии системы. При таком раскладе скелетики сами по себе становятся более атомарными и меньшее их количество необходимо для получения большего числа уникальных текстов. Но готовы ли вы написать собственный смоллтолк, да еще научить его разнообразно документировать протекающие в сценариях взаимодействия объектов процессы?