response

response
Рейтинг
324
Регистрация
01.12.2004

здесь кроме тебя с ру никто и не работал. тоже мне, открыватель огня обезьянам.

какой еретический ужас. вам по отдельном скурипту на каждый случай надо? для большой буквы и точки, для маленькой и точки, для любой буквы и любого знака препинания? взять любой кастомайзбл парсер и собрать, настроив правила.

ksylite:
чето я уже сам запутался что хотел...
поформулирую еще... что то хотел чтобы из нескольких файлов поочередно кеи брало и их обрабатывало по очереди, сохраняя результаты автоматом по раздельным файлам...

теперь результаты парсинга складываются в базы, атомарность которых вы сами задаете, плюс с помощью браузера базы ключевиков будет доступен экспорт в отдельные файлы (текстовые, экселевские, etc.)

ksylite:
А не планируется сделать что-то типа чтобы кучу файлов с кеями можно было прогонять на автомате?

что значит кучу файлов прогонять?

из кучи файлов можно загрузить ключи в очередь на парсинг и отпарсить их все. Это и в текущей версии доступно.

в готовящейся версии можно загрузить из той же кучи файлов слова в базу, и в дальнейшем либо поместить их в очередь на парсинг вручную, либо парсер сам доберется до них, в случае наличия свободного рабочего времени.

если я не ответил на вопрос, прошу переформулировать :)

Данил:
Может работу с сервисом распознавания каптч прикрутишь? Тогда можно без всяких задержек отлично парсить.

думаешь стоит?

moneySEO:
Картинки можно спарсить отдельно Парсером Картинок:
/ru/forum/520201

ты даже насрать нормально не можешь.

верни пост, плакса.

Solo_by:
а во сколько тебе встанет разгадка 28кк капч?

да мало ли кто там сколько дерет за те или иные услуги. некоторые и за дорген 120 баксов отдают, хотя фришные околоаналоги доступны сто лет в обед. не убедил. да и капчу для дерганья серпа распознавать вовсе не обязательно 🚬

Solo_by:
а если без их разгадки, во сколько лет тебе встанет всё это прочекать на частотность и конкуренцию, хрен с ним с вордстатом, но ведь нужно открыть 28миллионов серпов. Ты не считаешь, что это какбэ немало?

что немало? 28кк серпов? много, конечно. но не $56к, это точно 😂

Удивительно:
При таких больших объёмах обговорим скидки 🚬

да я думаю все равно в цене не сойдемся. Мне фрилансеру дать задание и хау-ту, через месяц будет готово и бюджет будет раз в 56 скромнее. Вообще я пытался сказать, что твое предложение как раз таки выгодно тем, у кого выборки маленькие, так что не пугал бы школьников 🍻

Удивительно:
Это не для школьников предложение.

а для кого тогда? я сначала не хотел писать, но раз у пошла такая пьянка: прочекать у тебя 28кк кеев встанет мне в $56к. Самому не смешно? :)

Solo_by:
response, а может ну их эти алгоритмы и проги, может лучше вот так?

это чисто деловой подход. мы ж о вундервафлях :)

организовать бизнес-процесс, наняв кучу редакторов, и самостоятельно поднять схожие объемы за счет технологических преимуществ - это очень разные вещи, для очень разных людей.

Дeнис:

Наверное и информацию об объекте (том же пылесосе) в этом чудо-парсере-анализаторе надо собирать и структурировать на неком языке объекта/образа, а уже потом выдавать хоть на русском, хоть на английском.

высокие требования к исходной базе объектов, сильные заморочки в морфе скелетов предложений, большой объем ручной работы для худо-бедно заполненной базы скелетиков, способной на троечку описать хотя бы сотню объектов типа "пылесос" или "авто".

Когда речь идет не об адронном коллайдере, класс объекта имеет в среднем ну 10-15 полей характеристик (о методах/мессаджах и прочих взаимодействиях объектов не говорим). Эти цифры из довольно обширного опыта по сбору и обработке всех этих баз чудо-парсерами и анализаторами. Подавляющее большинство полей тех же бытовых приборов или автомобилей обладают малой вариативностью (например чайник выпускается всего в трех цветах, а у машины всего два подходящих варианта кондея: "есть" и "нет"). Это довод в пользу того, что прямым переносом значений полей в текст большого разнообразия не добьешься. Нужно ацки морфить структуру применяемых при описании заготовок. Например, есть 100 чайников. Надо описать их цвет. Допустим, 10 чайников обойдутся без описания цвета. 10 получат "заглушку", мол, цвет неизвестен или чайник очень красивый (заглушки, кстати, тоже не по щелчку пальцев берутся). Оставшиеся 80 чайников должны получить шатко-валко уникальное описание цвета. Сколько скелетов понадобится? Сколько скелетов можно сгенерить на основе базовых (введенных предварительно оператором)? Да тупо от руки попробовать накопирайтить 80 описаний цвета чайника - я пробовал (правда, с девочками 😂) - удовольствие воистину задротское.

Вывод: не забивайте голову. Грамотная работа с неуником куда продуктивнее изобретений генераторов контента.

Если строить систему с взаимодействующими объектами, получаем лавинообразный эффект, соотв. имеем множество состояний системы одних и тех же объектов. Упрощенно говоря, описав однажды Сашу и Машу и научив их различным телодвижениям, изменяющим состояние, получим широкие возможности по генерации контента, поступательно описывая изменения в состоянии системы. При таком раскладе скелетики сами по себе становятся более атомарными и меньшее их количество необходимо для получения большего числа уникальных текстов. Но готовы ли вы написать собственный смоллтолк, да еще научить его разнообразно документировать протекающие в сценариях взаимодействия объектов процессы?

Всего: 3770