Мартовский Заяц

Рейтинг
7
Регистрация
21.03.2009
dandandan:
Скорее всего вы используете не все возможные варианты генерации статей. Я уже задал этот вопрос на один пост выше вашего. Например всего возможных вариантов у вас 500 000, а в настройках вы ставите 50 000 и еще указываете случайным образом выбирать данные. Что он выберет - никому не понятно. А посчитать все возможные варианты проходов - неизвестно как.

И, скорее всего, именно из-за этого у Вас не получается экспоненциальная зависимость. Ведь она должна получиться, когда Вы генерируете тексты из всех возможных вариантов, а не ограниченного количества.

С вашим вопросом мой, уж извините, не имеет ничего общего.

Подозревать меня в детских методических ошибках не надо - с методологией научных исследований я знаком прекрасно. Именно поэтому все генерации были выполнены с ОДИНАКОВЫМ, МАКСИМАЛЬНЫМ числом итераций - 500000. Причем последние 50000-100000 итераций идут почти вхолостую, прибавляя 1-2 статьи, то есть 500000 - это еще и с запасом.

Количесво статей на некоторое стандартное количество итераций - величина относительно постоянная для данного шаблона для данных параметров. Величина эта определяется вероятностными факторами, однако она очень четко связана с максимально возможным количеством статей, о котором вы с таким трепетом говорите. Если не верите - проведите эксперимент: генерируйте с одними и теми же параметрами из одного и того же шаблона с одним и тем же количеством итераций - через пару дней, я думаю, сами все поймете.

x_art, у меня к вам появилась парочка серьезных вопросов.

Я вознамерился сделать формулу для более удобного вычисления цены размножения в зависимости от числа копий, уникальности и длины использовавшегося при сравнении шингла. Для этого я стал размножать куски уже имеющихся у меня шаблонов с разными параметрами, и обнаружил несколько интересных моментов, сильно похожих на баги.

Итак, во-первых: при генерации с шинглом 3 и схожестью 0% получается огромное количесвто вариантов. При размножении того же шаблона с шинглом 4 и схожестью 0% получается около 20 вариантов. Сравниваю полученные тысячи вариантов с шинглом 3 в том же ACE: 1) при сравнении по трехсловным шинглам все варианты уникальны; 2) при сравнении по 4-словным шинглам совпадение до 30 %. Надеюсь, объяснять, почему так не бывает, не нужно? (Возможно, кто-то уже замечал и писал об этом - я в топике такого не нашел).

Второй момент, меня лично очень пугающий. При генерации с различным процентом схожести наблюдается СТУПЕНЧАТОЕ увеличение количества статей. Чтобы было ясно, о чем я говорю, привожу пару примеров:

Проба 1. Размер средней статьи 205 зн с пробелами, размер шаблона 1666 знаков с пробелами, в среднем около 20 слов в статье, одно предложение. Количество статей при генерации по 6-словному шинглу:

0% - 126

1% - 125

2% - 122

3% - 125

4% - 126

5% - 220

6% - 301

7% - 300

8% - 300

9% - 324

10% - 424

Проба 2. Размер средней статьи 214 зн с пробелами, размер шаблона 2704 знаков с пробелами, в среднем около 20 слов в статье, одно предложение. Количество статей при генерации по 10-словному шинглу:

0% - 3516

1% - 3506

2% - 3521

3% - 3526

4% - 3514

5% - 5855

6% - 7775

7% - 7809

8% - 7843

9% - 8010

10% - 10623

Если построить графики по двум пробам, они будут одинаковы: плато при 1-4%, с 5% до 7% подъем, потом опять плато, опять резкий подъем и (судя по выборочной проверке с большими процентами схожести) так далее. Пробы, как вы понимаете - абсолютно разные предложения. Степень вложенности до 5-6 уровня, в пробе 2 глубина шаблона побольше. Выборочный анализ других отрывков и личные наблюдения в процессе генерации подтверждают вывод: количество вариантов увеличивается только начиная с 5%, причем от сложности шаблона это почти не зависит. Интересно, что с большими статьями (от 3тыс зн без пробелов), это менее заметно, но тоже вполне просматривается. С предыдущими версиями ACE та же история.

Насколько я понимаю, теоретически никаких ступеней, тем более совпадающих для разных статей и разных шинглов, быть не должно - должен быть равномерный экспоненциальный рост. Складывается такое ощущение, что алгоритм сранения неверен.

Возможно, я зря дергаюсь, и это так и должно быть. Тогда, пожалуйста, объясните почему. Я додуматься не могу. Если можете, покажите формулы сравнения - возможно, все дело в них.

Вопрос довольно серьезный, согласитесь, поэтому я надеюсь на быстрый и максимально конкретный ответ.

ddreamer:
На мой взгляд, фиксированной цена может быть исключительно на конечные тексты, отвечающие заданному критерию отбора, но если заказчику нужна сама формула для размножения, то оплата должна быть за проделанную работу, т.е. за сложность созданной формулы. По-моему, любой копирайтер с этим должен согласиться.

Я соглашаюсь :) С фиксированной ценой на конечные тексты особенно соглашаюсь - это намного проще, чем высчитывать цену на тысячу исходника. Хотя над формулой все же подумаю.

ddreamer:
Может кто-нибудь из постоянных заказчиков размноженного контента хочет охарактеризовать свои критерии отбора текстов, применительно к конкретным задачам?

По поводу критериев что-то не спешат заказчики высказываться :) Я скажу за себя. Я ни у кого текстов не заказывал, но для себя размножал много. Для меня основной критерий для любых задач - человекоподобность. Даже не читабельность, а именно отсутствие машинности. То есть, если есть какие-то мелкие ошибки и корявины, но они похожи именно на ошибки человека и их не больше 2-3 на тысячу текста, то я на них особого внимания не обращаю (но это тексты для себя, опять же - на продажу лучше этого дела избегать в принципе). Уникальность меряю по десятисловным, ориентируясь на 1-2% максимальной схожести. На четырехсловных это у меня соответствует 15-20% максимальной, 7-8% средней. Считаю, что этого достаточно. При 1-2% максимальной схожести можно получить несколько тысяч текстов, при 0% по десятисловным - несколько сотен с того же шаблона (имею ввиду статью в 3000 без пробелов). Посколку разницы принципиальной между ними не вижу, выбираю большее количество - когда-нибудь по-любому пригодится.

ddreamer, я с вами по поводу увеличения затраченного времени в геометричской прогрессии согласен. Последнюю статью из 4000 исходника размножал почти неделю (много вариантов хотелося увидеть). Жэсть...

Но вот требовать оплаты за размеры формулы - это, по-моему, неправильно (тут я согласен с gfa5). С другой стороны, фиксированная оплата за 1000 знаков исходника явно некорректна - требования разные могут быть. Тут обычно каждый "множитель" прикидывает сам по сложности текста и требованиям заказчика. Я так думаю, что неплохо было бы разработать некую формулку, по которой высчитывать стоимость работы. В такой формуле должны, на мой взгляд, отражаться:

- количество тысячезнаков исходника (куда ж без йих, родимых)

- требуемая уникальность (опять же, без этого параметра не обойтись)

- количество копий статьи с заданной уникальностью (ясен пень, чем больше копий с определенной уникальностью - тем дольше придется работать, в геометрической, опять же, прогрессии)

- некий коэффициент, которым автор измеряет свои умения и проблемность текста (доля субъективности, как вы понимаете, в вопросе оплаты труда неистребима)

В принципе, первые три пункта вполне характеризуют объем проделанной работы и при этом опираются на конечный результат, а не на размер шаблона.

Может, кто нибудь уже пользуется подобной формулой для рассчетов? Ну или имеет идеи по этому поводу?

koval77, понятно. Пожалуй, мне стоит все-таки приобрести monkeywrite, а то "какбечоневышло".

И все ж таки не понятно, почему обезьянка так зверствует. Пойду-ка, поищу топик создателя...

koval77:
Шаблон получается, как минимум в 10 раз больше.

Я так и думал. Хотя, признаюсь, у меня была надежда, что хорошего качества можно добиться и без такого объема работы, просто я почему-то не знаю, как это сделать. Нет, похоже, что другого пути не существует. Вообще, соотношение объема шаблона к объему исходника - тоже неплохой показатель качества, только для заказчика малоинформативный.

А как считаете, koval77, станет 0% по десятисловным стандартом размножения в ближайшие год-два? А может это уже стандарт для высокого качества? Или пока и 1-3% прокатит :) ?

ddreamer:
Мне тоже кажется, что при оценке качества и для защиты от "склейки" нужно ориентироваться на маленький (желательно смещающийся) шингл и приемлемый процент схожести (до 5%), но только не за счет близлежащих шинглов. К сожалению, алгоритмы программ не афишируются, а разрабатывать свою систему оценки качества довольно затратно. Хотя, если с полной ответственностью размножать на заказ, наверное другого пути нет.

Ну вот по поводу маленьких шинглов возникает вопрос: а насколько маленькими они могут быть для поисковика? Человек отличит два разных технических текста с повторяющимися стандартными выражениями. А поисковый робот? Если сравнить два разных текста какой-нибудь узкоспецифической тематики по, скажем, 3-словному шинглу, вполне можно обнаружить кучу совпадений. А причина проста: стандартная терминология, стандартные для данной области выражения, стандарьные описания стандартных ситуаций. А тексты разные. А еще бывает использование цитат. Текст с цитатами ценен не цитатами, а комментариями автора, но по шинглам любой длины он будет сильно-сильно неуникален. Как робот отличит тупой копипаст от активного обдуманного обсуждения? По-любому какой-то дозволенный уровень неуникальности должен быть задан. Насколько он велик? Не знаю, но пример рассказать могу. Имеется у меня группа сайтов с размноженным контентом. Сайтам уж больше года, размножал древним SEO Anchor Generator'ом. Недавно проверил уникальность контента на них с помощью ACE - до 15% совпадений по 10-словным шинглам, Copyscape для каждого сайта по 3-5 дублей отлавливает. И что? Висят себе в индексе и у Яши, и у Гоши - толька парочка выпала из Яши, и то из-за хостинга (неудачный выбор хостинга, понимаете ли). Для меня вывод прост - дозволенный уровень неуникальности пока еще достаточно велик, и в ближайшее время врядли что-то изменится. ИМХО.

Вот такую интересную вещь заметил. Делаю шаблон, по ходу время от времени генерирую сотню статей (поглядеть, как оно там размножается). Так вот периодически вижу такие циферя:

макс. совпадение - 18%

мин. совпадение - 12%

среднее совпадение - 9%

Ну или так:

макс. совпадение - 32%

мин. совпадение - 21%

среднее совпадение - 17%

Довольно странная ситуация: среднее совпадение оказывается меньше, чем минимальное. Не должно быть такого. Великая наука математика такое запрещает!

Причем бывает так не всегда, а только время от времени. Как правило, когда ограничение по проценту схожести заведомо слабое (ну, допустим, ограничение на схожесть в 90 % при том, что максимальное совпадение совершенно точно не превышает 40%). Иногда бывает и при более строгих ограничениях, но редко.

Версия ACE последняя вроде.

koval77, все понятно. Меня этот вопрос тоже заинтересовал по принципу "чтобы наверняка". Потому как ежели делаешь для себя, то оно без разницы - 2 или 7. А если на продажу или на заказ, то может возникнуть столкновение лобовыми костями на большой скорости по причине элементарной разницы в интструментарии.

В топике ACE один товарищ вообще поставил вопрос по поводу того, что при измерении программа показывает схожесть больше, чем должна (шингл там теряется один), автор пока не прокомментировал. С учетом того, что и стоп-слова (это те, которые предлоги), и псевдолемматизация (это та, которая "окончания слов") в ACE предусмотрены, да еще и результат с большинством программ и сервисов совпадает, наиболее логичное предположение такое: обезьянка слишком строга. На этом я, пожалуй, и успокоюсь.

А вот такой к вам вопрос: во сколько раз доделанный вами шаблон оказывается больше оригинальной статьи (или больше среднего размера статьи - они обычно почти совпадают). У меня при хорошем качестве разница получается раз в десять-одиннадцать.

koval77:
Использую исключительно monkey write для проверки, т.к. многие сервисы и программы показываю результат намного лучше. Например то, что по ACE 2% по 10 шинглам, по монкей 7%.

Что-то меня ваше сообщение взволновало. Я сам пользуюсь исключительно ACE и о таком коварстве ранее не слышал. По другим программам результат с ACE вроде совпадал до мелочей. А вот с обезьянкой отношения не сложились - демка так и не запустилась, поэтому я решил не связываться. С чем, по-вашему, связана разница? Особенности псевдолемматизации? Список стоп-слов?

1 234 5
Всего: 43