Все так думают. И я так думал. Даже злился, что кто-то не так говорит. Но если бы это было так, это не считалось бы парадоксом. Уважаемый гражданин 6666 провел же эксперимент. И я проводил.
Фишка в том, что 50/50 - распределение при отсутствии дополнительной информации. А дополнительная информация есть - она появляется в процессе этих манипуляций ведущего. Это очень неочевидный момент и причина для долгих раздумий. Проще понять, если представить, что дверей, к примеру, сто. Если в момент первого выбора открыть выбранную дверь, то вероятность угадать 1/100, тогда как за оставшимися 99 дверями вероятность найти автомобиль 99/100. И выбор УЖЕ сделан. Вероятность распределена. 1/100 - на выбранную дверь, 99/100 - на все оставшиеся. Дальше только ПЕРЕРАСПРЕДЕЛЕНИЕ вероятности. Если открыть одну дверь из оставшихся, то 99/100 распределятся по 98 дверям, если еще одну, то те же 99/100 уже будут в 97 дверях. В конце концов эти 99/100 будут приходиться на одну дверь, которая не была выбрана. Если НЕ ЗНАТЬ, что двери открывали, а только выбирать из 2-х последних, то из-за отсутствия дополнительной информации распределение действительно 50/50. Но это если не знать, а по условиям задачи мы знаем. С тремя дверями распределение, соответственно, 1/3 и 2/3. Это не самое простое объяснение, но именно оно мне помогло врубиться. Прошу прощение за нудность изложения.
Мартовский Заяц добавил 03.12.2009 в 23:19
Блин, пока писал, уже все объяснили:)
Ну, это же почти идеально для такой выборки! Если не подводит память, должно быть 33,(3)% (если не менять) и 66,(6)% (если менять). Тоже когда-то ставил эксперимент, схемами бумажки марал, таблицу в экселе измыслил. И до сих пор удивляюсь.
maldivec, спасибо за отзыв!
У Адвего шингл коротенький совсем, поэтому уникальность бывает низковата (в смысле, не 100% к внешним источникам), хотя совпадения иногда совершенно левые.
Ну, пока такой контент в индексе держался нормально, и траффик собирал при должном усилии. Что будет через год-два, я не знаю. Думаю, никаких принципиальных изменений не будет. Если еще и разбавить чем-нибудь уникальным, то никаких проблем возникнуть не должно.
Я изначально это делал для себя, продаю не от хорошей жизни :) Тему "Форекс" взял потому, что хорошо с ней знаком, да и коммерческая перспектива у этой темы имеется. Наличие специальной терминологии, действительно, создает проблемы. В общем-то, основные проблемы при получении нужного уровня уникальности и заключаются в необходимости употреблять специфические профессиональные словечки. Кстати, при ручном рерайте тоже трудновато уйти от шаблонов профессионального жаргона.
Если вам будет не очень лениво, отпишитесь, как прошла индексация.
Замечательно. Третий пакет выслан на указанный в личке мейл.
Было бы интересно выслушать мнение других форумчан по поводу того, по какой цене должен продаваться подобный контент.
Третий пакет за отзыв никому не нужен? Или репутация до 5000 ни у кого не достает? Слабо в это верится, откровенно говоря. Давайте тогда отдам пакет за отзыв любому гражданину с положительной репкой и количеством сообщений более 20. Уж на такие-то условия желающий должен найтись!
Ну, 15 уе - это уже уровень поштучного строго ручного рерайта, а я все же размноженный контент продаю. Просто на форуме некоторые граждане продают размноженку хорошего качества по 0,08 и даже по 0,05 у.е за 1000 зн. б\п. Это, конечно, демпинг безбожный, но считаться приходится.
Чтобы увидеть, заказывать, в принципе, не обязательно. Я специально для этих целей сделал демонстрационный сайтик (в первом посте адресочек имеется).
Простите, у меня образовались сильные проблемы со связью. Вернусь, когда интернет начнет работать нормально (завтра уже, скорее всего - техпод уже дрыхнет)
megaBOT, ICQ у мну было где-то, но очень давно не пользовался. Я бы предпочел все делать через личку. Заодно проверю, как оно работает - тут для начинающих какие-то ограничения обещали.
Komissarov, а я уже попросил прощения за занудство свое :) Просто хотел предотвратить кучу стандартных вопросов. Вы, я так понял, тоже за отзыв хотите пакетик? Тогда в личку.
Об ей речь и шла - серия генераций с одним и тем же набором. И вообще, я не совсем в тему о наборе стоп-слов написал, x_art говорил о сравнении с другими программами в том посте.
А я помню ваш вопрос, я был бы тоже не против узнать на него ответ. А еще я задавал вопрос, почему при генерации у меня значение среднего совпадения периодически оказывается меньше, чем минимальное совпадение (ну не должно такого быть!). По-моему, все это намекает на какую-то проблему в механизме сравнения.
У меня тоже получается экспоненциальный рост(в АСЕ), токмо не ровный, а ступеньками. И спать спокойно это мешает. Что примечательно, при измнении длины шингла с фиксированным процентом совпадений экспоненциальный рост вполне себе четкий, ровный, даже слишком ровный. А вот при фиксированном шингле - ступеньками. Тьфу.
Ну вот я не знаю, как у nittis'а, а у меня набор стоп-слов стандартный из ACE. Да и не должен набор влиять. Если на количество статей при изменении шингла не влияет, то и на количество статей при измнении процента совпадения влиять не должно.
Если кто-то не понимает, почему я так ношусь с этими ступеньками, так я объясню. По тем данным, что я получил, выходит, что АСЕ генерирует одинаковое количество статей для заданного шингла (любого, кроме трехсловного, потому что там вообще бардак) при 0% схожести, 1%,2%,3%,4%. А проще говоря, неизвестно, какой там РЕАЛЬНЫЙ процент схожести и сколько можно сгенерировать статей на самом деле. Нельзя достоверно оценить ни уникальность, ни объем работы для получения заданного количества статей (потому что количество вообще непонятно как формиуется). Это довольно серьезный вопрос. Если кто-нибудь аргументированно (желательно экспериментально) опровергнет мои выводы, я буду только рад.