- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
тут садовод в последнем интервью поведал, что задача распознавания синонимизированных статей "алгоритмически разрешима". прям так и сказал.. "алгоритмически разрешимая задача" говорит..
то же самое примерно говорили знаменитые дорвейщики - Монах и его друг там (не помню как зовут к сожалению) в интервью своих.. "не юзайте", говорят, "синонимизированные тексты, яндекс их палит. юзайте одинаковые тексты это лучше" типа.
так вот, вопрос, собственно, тем, кто рубит в алгоритмах чутка - каким образом задача такого рода может быть алгоритмически разрешима?
я лично не вижу никаких нормальных решений кроме попарного сравнения таких статей по длинным шинглам.
но комбинаторика - великая вещь, сейчас, думаю, каждый день генерируется гораздо больше статей, чем яндекс может прошерстить попарным сравнением: дело в том, что нагенерировать статей намного проще, чем произвести сравнение такого рода. генерация статей вида { | } почти не требует никаких ресурсов. а распознавание схожести по шинглам с попарным сравнением всех документов по рунету - жрёт ресурсы тока в путь, документов ведь миллионы, а шинглов и того больше..
садовский наврал?
садовский наврал?
Почему же сразу наврал? :)
– Теоретически, алгоритмически разрешима?
– Разрешима.
Единственное, теория и практика, вещи разные. :)
так вот, вопрос, собственно, тем, кто рубит в алгоритмах чутка - каким образом задача такого рода может быть алгоритмически разрешима?
Сначала вкуриваем http://www.cir.ru/docs/ips/publications/2009_rcdl_markov.pdf, а потом понимаем насколько просты синонимы =) Скажу даже больше, определять синонимизированный контент (забыл добавить, что именно алгоритмически) могут даже простые смертные, вроди нас, а уж яндекс и подавно. Для этого не надо даже столь сложных вещей, как вычисление цепей Макарова, все гараздо проще, но принцепы чем то схожи.
Единственное, теория и практика, вещи разные.
Золотые слова :)
садовский наврал?
не наврал а запутал. это его хлеб. :)
Думал написать много умного текста, но потом решил просто дать ссылку на статью человека, который уже все что надо написал.
http://steelpear.com/internet/sinonimajzer-kaput/
Я об этом как-то писал на маулнете
KupluSsilki,
садовский наврал?
Он не наврал. Так и есть. У Роботов есть алгоритмы, позволяющие определять сабж.
KupluSsilki,
Он не наврал. Так и есть. У Роботов есть алгоритмы, позволяющие определять сабж.
алгоритмы-то есть, чё.. сравнивай попарно тексты в рунете, и ищи каждый заведомо неслучайный шингл (длиной пять например), вот тебе и весь алгоритм. :)
это будет кол-во страниц по рунету в квадрате, да помножить на сто строк длиной пять в рамках страницы.. :) т.е. 10E6*10E6*100=где-то десять в пятнадцатой степени строковых операций.
если на одно сравнение у нас уходит 0.01сек, всего суммарно для рунета имеем 275 миллионов лет работы на одной машине. :) но рунет постоянно растёт, а количество сравнений, соответственно, растёт экспоненциально там - с учётом прироста в 40%/год имеем около миллиарда лет попарных сравнений в следующем году. и где тут алгоритмическая разрешимость-то..
алгоритмическая разрешимость проблемы определения комбинаторных искусственных текстов существовала бы,
если бы существовал такой алгоритм, который может вычислять тексты-дубликаты быстрее, чем они появляются.
но рунет постоянно растёт
Словарь великого, могучего то не растёт и синонимов больше не становится, как впрочем и комбинаций слов =)
прочитал все статьи, всем кто запостил спасибо и + в овощ.
(статейки кстате так себе. курсач так ваще убожество. ну всё равно спасибо)
так вот, товарищи! :)
согласно любой из этих статей, тексты, написанные с использованием операторов вида { | }, распознать в один прогон нельзя, даже если привлечь на свою сторону всемогущую статистику -
при дополнительном условии, конечно, что таковые тексты грамотно написаны и грамотно размножены.
видимо, Де Сад имелл ввиду всего лишь тексты с синонимами, т.е. составленные прогами-синонимизаторами втупую.. и, видимо, по Зипфу их рубит - за счёт в первую очередь их неудобоваримости..
ну что ж, туда им и дорога, но это ведь сильно упрощённый подход к делу, товарищи. всё равно что заявлять типа:
KupluSsilki добавил 02.12.2009 в 19:29
Словарь великого, могучего то не растёт и синонимов больше не становится, как впрочем и комбинаций слов =)
гы, ты б ещё сказал - мол, "если всё в двоичный код перевести, то рунет это сплошные дубликаты - ведь кругом одни нули и единицы.. :)"
каждая статья это комбинация слов. каждая новая статья это новая комбинация слов.