Videoson

Рейтинг
26
Регистрация
10.06.2007
Hkey:
Любой известный мне Алгоритм оценки сходства статей основан не на сверки слов каждый с каждым а на сверки кусков текста. Для любого алгоритма вариант изменить 10 слов в разных кусках текста будет уникальнее, чем изменить 10 слов рядом.
Можно наглядно показать это в общем виде. Пусть есть Алгоритм, результаты, которого не зависят от расположения слов. Есть два варианта первый вариант - алгоритм учитывает все слова, кроме стоп-слов, и их плотность. Из-за закона нормального распределения плотность слов в двух текстах будет иметь большую вероятность примерно совпадать. Т.е. в большой выборке текстов (в рунете пару миллиардов) мы будем иметь дофига "левых" дублей.
Если же Алгоритм будет работать не по всем словам, а выбирая менее частотные, то два текста по одной тематики, имеют большой шанс стать "левыми" дублями.
Другими словами я показал, что алгоритмы полностью не базирующие на относительном положении слов дают много ошибочных предположений. Я не уверен, что Яндекс и Гугл используют шинглы, но я уверен, что алгоритм учитывает относительное положение слов.

Hkey добавил 10.05.2009 в 18:46

3. Если правильно склонять слова, то необходимость снятия омонимии в синомайзинге отпадает. Ну эффект +10% замен. Если расписать... Есть три вида О.
а. Коса (у девушки), Коса (на море) Они склоняются одинаково и решить о.. можно только из контекста. Нет разницы в этом типе О. и разных значениях слов. В словаре оператором контекста решается этот вопрос.
б. Стали (нож из стали), Стали (мы стали единым целым). Когда написания разных слов в некоторых формах не отличается. В базе есть исключения на этот случай.
в. Омоморфия. Города (следующие города: Одесса, Москва и Минск), Города (на окраине города) когда слово в разных формах пишется одинаково. Обычно синоним имеет такую-же омоморфию и нормально склоняется, хотя есть 10% случаев, в которых случая ОММ переходит в строковую неоднозначность. В последующих версиях с помощью WScript я решу этот вопрос, но он не принципиален.
4. Написано было "двухсловные"
7. Я и не знаю, что такое шинглы.
9. 404

3. Вы бы не проявляли подобную самонадеянность, если бы знали, что над проектом работало несколько десятков человек

ваш вариант хорош ровно до тех пор, когда количество ошибок не превысит некий барьер - дальше - фтопку, т.е "в бан"

9 зайдите на сайт акунина и скачайте азазель - без всяких 404 - кто хочет ищет способ, кто не хочет - причину

Videoson:
вот про это поподробнее плиз

повторно прошу

Videoson добавил 09.05.2009 в 21:10

Hkey:
По перепишем.ру:
Для начала начну с мелочей, потом по наростающей:
1. С мылом вместо ника - это глупость. Мыл у тем кто связан с нетом обычно больше одного. Я сегодня минут пять тупил и пытался зайти на сайт вводя Hkey а не мыло.
2. Минут тридцать я ипался, чтобы найти как статью рерайтить. Я уже думал, что меня разводят, поэтому, написал, "если еще кому-то интересно".
3. Ждать 15-20 секунд минимум для рерайта текста не допустимо. В программах хоть полоски загрузки есть, а моя прога за десятые доли секунды делает это.
4. Такое впечатление, что половину автозамен взяли из толкового словаря. "Тельняшка" -> "матросская рубашка". Это автозамена. В принципе это верно (если не придираться к слову рубашка), но текст выглядит идиотским после таких замен. Такого рода замен множество и они все автоматические. Мне ничего не стоить написать прогу которая из толковых словарей берет определения максимум в два слова и фигачит из них синонимы. Более того я это делал, но результат не был достоен даже флага "--- -А". Есть еще множество тем с префиксами глаголов "дорисовать" -> "закончить рисовать" "перерисовать"-> "заново нарисовать". Это очень просто реализуется (20 строк на си, 1 строка на WScript).

5. Настроек я не нашел, как с флагами у меня. Для этого нужна меченая база.
6. Единственное у них больше ручных синонимов (у меня они малек глючат в демо, их на самом деле больше).
7. Шинглы. Нет проверки, у меня она динамическая с подсветкой.
8. Интерфейс. На вебе не сделаешь такой интерфейс как у меня. Нету удобной опции вывести прошлый текст зачеркнутым. Нет в один клик замены синонимов. Я еще не расписал быстрые клавиши - в интерфейсе у меня больше строк кода, чем в морфологии. На сайте всплывающее меню ограничено не окном браузера, а полем ввода - приходиться как придурку вращать ползунок, когда замен много.
9. Накидайте мне ссылки на материалы, например, новости. Я выложу скрины обработки моей беты и других прог.

1. могу оскорбить и сильно... читайте ФАК сначала

2. для "студентов и школьников", а также "для вебмастеров и..." есть пошаговая инструкция, со страниц, предназначенных для них... простите, что мы не нашли времени пошагово объяснить, как до нее добраться... или Вы посчитали себя поисковой системой, - ну тогда да, оттуда ссылки на инструкцию нет - она автоматически обходит все страницы сайта и сама найдет эту инструкцию...

3. Вы ФАК читали? Вы читали описание того как работает программа? Вам понятие омонимии знакомо?

4. Ваше впечатление ошибочно, в противном случае вместо "Вася" было бы подставлено "имя", а вместо "HKey" - "безапелляционный"

5. Вы ещё не нашли кнопку бабло, которая наверняка есть в ряде программ, не так ли?

6. Это вы про кого?

7. "Шинглы"? А Вы знаете что это такое? Тогда почему так смело утверждаете?

8. Это да, кому какой интерфейс удобнее.

9. www.akunin.ru/azazel - будьте так любезны

Hkey:
+ один сравнения омонимии + один отчистка омонимии + одно склонение с перебором омонемии)

вот про это поподробнее плиз

Hkey:


Hkey добавил 08.05.2009 в 12:36

Если кого, то кроме вас интересует это я отвечу.

посмотрите функционал перепишем.ру и скажите, - можете ли сделать лучше?

Вы думаете зря смартбайт-сотоварищи так резко скинул цену? с 28 до 10 долларов?

да потому, что не конкурент и ему все равно за сколько продать свой продукт

не сравнивайте крестьянскую лошадку с трактором 🍻

по производительности хотя бы ;)

Hkey:
Работает быстрее и лучше всех синомайзеров. Обладает встроенным интерпретатором скриптового языка для работы со словами. Кроме этого может работать со словами, словосочетаниями (до 10ти слов) и строками.
Бета версия - нет помощи.
Если нет критических ошибок, допишу хелп и выпушу первую версию. Интересует работает ли программа на висте.
Ссылка для закачки http://altalabs.ru/SynInterface.rar

расскажите, чем она лучше, чем www.perepishem.ru ?

Niksmile:
Много раз поднималась тема, но все же подскажите хороший синонимайзер?
Какой лучше WordSyn или SmartRewriter?

попробуйте www.perepishem.ru - через недельку у него будет более френдли-интерфейс и минимум кнопок для получения текста

ЗЫ а ни один из представленных не работает на автомате

при достаточном количестве заявок будет представлен генератор карты сайта и уникального контента с заданным количеством совпадений слов в исходном и обработанном тексте

Maximalist:
кстати, да, можете воспользоваться :)
хотелось бы чтобы кто-то (посторонний пользователь) сравнил системы и отписал ;)

могу сравнить независимо

"сам я Пастернака не читал..." (С)

Ваш продукт может быть хорош тем, кому нужны совсем-совсем бюджетные решения, кто только-только начинает свой бизнес в этой области и тогда да, по сравнению с платными рерайтерами, которые берут 0,5-1,0 WMZ (Т.е. около 17-34 WMR), условно-бесплатная программа - бесценна. Почему "условно"? Да потому, что человек при этом тратит своё драгоценнейшее время.

Проект "Перепишем.ру" ориентирован на тех, кто все давно знает и умеет и понимает, что главный невосполнимый ресурс - это время. И лучше за полчаса сделать 1000 проектов, каждый из которых принесет по (условно) 100 рублей в день, чем кряхтя и потея за месяц сделать 1 проект, который принесет 200 рублей.

Поэтому, делая выбор между экономией времени или денег, я лично выбираю ВРЕМЯ.

Согласитесь, сделать качественный сайт за 5-10 минут - это все-таки существенная экономия времени.

А с запуском сервиса размножения за те же 5-10 минут человек будет получать тексты не на 1, а 5-10 (или сколько угодно в зависимости о собственных потребностей) сайтов.

Maximalist:
не, Вы наверное не правильно меня поняли...
я начал ч того, что БД весит 100 ГБ ;)

это как раз там, где http://perepishem.ru/faq/29/ - Вы же процитировали сообщение

Из чего я лично делаю вывод о том, что Вы начали с этого вопроса: "как хакнуть сервак", Вы не заметили разницы стоимости и вообще не читали всего остального

А БД действительно весит 100 Гб.

Что в этом удивительного?

Вы прочитайте неторопливо все, что написано на сайте, и Вам уже не останется удивляться

Videoson добавил 26.04.2009 в 12:07

Maximalist:
кстати, да, можете воспользоваться :)
хотелось бы чтобы кто-то (посторонний пользователь) сравнил системы и отписал ;)

могу сравнить независимо

Условно-бесплатный синонимизатор может быть хорош тем, кому нужны совсем-совсем бюджетные решения, кто только-только начинает свой бизнес в этой области и тогда да, по сравнению с платными рерайтерами, которые берут 0,5-1,0 WMZ (Т.е. около 17-34 WMR), условно-бесплатная программа - бесценна. Почему "условно"? Да потому, что человек при этом тратит своё драгоценнейшее время.

Проект "Перепишем.ру" ориентирован на тех, кто все давно знает и умеет и понимает, что главный невосполнимый ресурс - это время. И лучше за полчаса сделать 1000 проектов, каждый из которых принесет по (условно) 100 рублей в день, чем кряхтя и потея за месяц сделать 1 проект, который принесет 200 рублей.

При этом стоимость более чем доступна: на создание 1 сайта на 100 кб текста (100 статей по 1 кб или 50 - по 2 кб или т.д.) нужно не более 800 WMR (около 24 WMZ) и не более 5 минут времени. А возьмите рерайтеров: сначала ты их найди, потом проверь их труды, потом переведи аванс, потом тупо долбись в аську, потому что он (-она) ушли за пивом и сегодня недоступны, потом ты кряхтя и потея доверяешь мнению других людей, которые, важно надувая усы, будут говорить, что Ваш новый текст уникален на 30, на 50, на 70%...

У нас все честно - человек может сам оценить работу программы в демо-версии без всяких ограничений, кроме вырезания некоторых букв, потом сам поправить то, что ему не нравится и сам нести ответственность за всё.

И все это за совсем маленькие деньги, которые пойдут на дальнейшее развитие отечественной, заметьте, науки...

Поэтому, делая выбор между экономией времени или денег, я лично выбираю ВРЕМЯ.

Согласитесь, сделать качественный сайт за 5-10 минут - это все-таки существенная экономия времени.

А с запуском сервиса размножения за те же 5-10 минут человек будет получать тексты не на 1, а 5-10 (или сколько угодно в зависимости о собственных потребностей) сайтов.

Maximalist:
да я уже больше половины просмотрел :)


упс, сори, на заметил что есть скидки... 🙄

но начали Вы почему то с того, в котором кто-то пытается взломать сервис 🙅🙅🙅🙅

Всего: 77