Синонимайзеры и закон ципфа.

webpavilion
На сайте с 10.10.2009
Offline
35
#21
Stripe:
80% на 20% это все-таки Парето, а не Ципф, сохраняйте копирайты ))

вовсе не он. в вводной статье все расписано, я почти месяц сидел в настоящей бумажной библиотеке.

G00DMAN
На сайте с 19.04.2008
Offline
122
#22
vitali_y:
тут есть "знатоки Яндекса"... может есть сами Яндекса писатели?

Писателей из Яндекса на серче почти нет, некому тут писать и не о чем. :)

vitali_y:
или может кто мне дать нормальное разумное объяснение как с помощью синонимизации можно захламить поисковую выдачу?
т.е. сослаться на определенную математическую модель стоящую за поиском (к примеру Яндексова) и привести пример - вот в таком случае при таком запросе будет в топе.

Не, Вы не поняли, синонимизация захламляет не топ выдачи, а индекс. Яндекс в ру-индексе с этим еще как-то пытается бороться, а гугл походу просто не понимает, что он индексирует кучу хлама.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
vitali_y
На сайте с 23.05.2007
Offline
33
#23
G00DMAN:
Не, Вы не поняли, синонимизация захламляет не топ выдачи, а индекс. Яндекс в ру-индексе с этим еще как-то пытается бороться, а гугл походу просто не понимает, что он индексирует кучу хлама.

а зачем это делать? зачем захламлять индекс? с какой целью?

и зачем бороться с этим?

т.е. если бы я писал поисковик - большой для интернета - я бы эту проблемму решал просто - те страницы что открываются наиболее часто и пользователь задерживается на коих большее время - увеличивал бы их коэффициент релевантности - таким образом весь шлак все равно бы уполз вниз...

webpavilion
На сайте с 10.10.2009
Offline
35
#24
vitali_y:
а зачем это делать? зачем захламлять индекс? с какой целью?

Для продажи ссылок и манипуляции выдачей.

vitali_y:
и зачем бороться с этим?

Думаю банальная экономия ресурсов.

При желании я мог бы генерить тысячи ГС с синонимизированным контентом автоматизировав процесс до нажатия одной кнопки. Я не жадны и продал свои наработки еще сотне умельцев. Допустим 500 человек по 3000 сайтов по 3000 страниц с 3000 тысячами знаков на каждой. ~12TB мусорного контента в день. сервера для обработки подобного объема информации стоят немалых денег а пользы от полученного результата нет.

vitali_y
На сайте с 23.05.2007
Offline
33
#25
webpavilion:
Думаю банальная экономия ресурсов.

это да согласен. но определение такого сайта человеком - пара секунд.

автоматически это тоже делается легко или достаточно легко - я бы смог написать такую программу - без проблем или без больших проблем. т.е. для 1 или 2 статей на сайте это может оказаться не просто - но для целого сайта... потом сайт банится - т.е. не индексируется, не попадает в поиск.

3000 сайтов - 10$ на регистрацию +хостинг - 30000$ в год - дорогое удовольствие.

G00DMAN
На сайте с 19.04.2008
Offline
122
#26
vitali_y:
т.е. если бы я писал поисковик - большой для интернета - я бы эту проблемму решал просто - те страницы что открываются наиболее часто и пользователь задерживается на коих большее время - увеличивал бы их коэффициент релевантности - таким образом весь шлак все равно бы уполз вниз...

Ну так это и делается, только не все так просто, как Вы думаете. :)

webpavilion:
Для продажи ссылок и манипуляции выдачей.

Да, причем текущая ситуация стимулирует веб-заводы выдавать ГС для продажи ссылок сотнями в день.

vitali_y:
Думаю банальная экономия ресурсов.

При желании я мог бы генерить тысячи ГС с синонимизированным контентом автоматизировав процесс до нажатия одной кнопки. Я не жадны и продал свои наработки еще сотне умельцев. Допустим 500 человек по 3000 сайтов по 3000 страниц с 3000 тысячами знаков на каждой. ~12TB мусорного контента в день. сервера для обработки подобного объема информации стоят немалых денег а пользы от полученного результата нет.

Не только в обработке и хранении информации дело. Не контролируемая несколько лет сео-отрасль увеличила ссылочную массу в рунете минимум в три раза, заодно автоматизировав проверку всей этой массы говноссылок на индексацию после каждого апдейта. Сео-запросы забирают до 30% ресурсов Яндекса, кому из яндексоидов это понравится? :)

vitali_y:
это да согласен. но определение такого сайта человеком - пара секунд.
автоматически это тоже делается легко или достаточно легко - я бы смог написать такую программу - без проблем или без больших проблем.

Это Вам так кажется, потому что опыта борьбы с текстовым спамом нет. На самом деле все гораздо сложнее, поисковики применяют достаточно навороченные технологии, но окончательно победить не смогут еще много лет. Те же дорвейщики успешно обходят алгоритмы всех поисковиков, спам-технологии развиваются параллельно с антиспамом. :)

vitali_y
На сайте с 23.05.2007
Offline
33
#27
G00DMAN:
Это Вам так кажется, потому что опыта борьбы с текстовым спамом нет. На самом деле все гораздо сложнее, поисковики применяют достаточно навороченные технологии, но окончательно победить не смогут еще много лет. Те же дорвейщики успешно обходят алгоритмы всех поисковиков, спам-технологии развиваются параллельно с антиспамом.

:) верьте мне на слово, с "навороченными" технологиями я знаком.

задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.

я решу легко ввиде программы. если для вас формулировка задачи другая - сформулируйте пожалуйста о чем речь то идет.

"спам-технологии" - я смеялсо :) тут столько же технологий как и технологий в молотке для современного механика. замена слов и перестановка абзатцев - это технологии?!

если для вас написать определитель спама - "высокие технологии"...

это достаточно тривиальная задача - уверяю вас - любому думающему человеку умеющему программировать и немного знакомого с математикой и алгоритмами это под силу.

это скорее knowhow... я за правильную терминологию.

vitali_y добавил 17.11.2010 в 14:39

ТС, если не ошибаюсь, в своем блоге обещал раскрыть "технологию" Янекса.

webpavilion
На сайте с 10.10.2009
Offline
35
#28

vitali_y, к чему выносить свое невежество на показ? если вы считаете что все вокруг пользуются молотками, это не значит что так и есть.

проблема захламленности рунета генерированными текстами на данный момент не может быть решена полностью, глупо это отрицать.

S
На сайте с 29.01.2006
Offline
404
#29

vitali_y,

есть текст A и есть набор текстов {A1, ..., An}

А если этих текстов десятки тысяч?

замена слов и перестановка абзатцев

Цепи Маркова, насколько я понимаю, это совсем другой принцип.

vitali_y
На сайте с 23.05.2007
Offline
33
#30

webpavilion, так просветите невежу... в чем дело?! - небольшой пример, который покажет как я мало знаю проблемму будет кстати.

vitali_y добавил 17.11.2010 в 14:51

Scaryer:
А если этих текстов десятки тысяч?

я же написал n - подставьте "сотни миллиардов" и не спрашивайте глупые вопросы.

Scaryer:
Цепи Маркова, насколько я понимаю, это совсем другой принцип.

это ваши технологии?! вы надеюсь знаете что представляет собой цепь Маркова на практике?

и вообще что скрывается под этим термином.

vitali_y добавил 17.11.2010 в 14:54

генерировать осмысленные тексты с пом. цепей Маркова, да вы новатор, однако! ;)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий