+1
Тогда все понятно.
На счет человека согласен.
Хотя, синонимайзером тоже можно, правда читабельность страдает сильно
http://www.liex.ru/uniquelize.jsp - или это просто демка?
ну на мой блог о фотографии ссылается примерно 300 сайтов, >4000 беков - и что? тИЦ как болтается в районе 50, так и болтается уже год. При этом, сами понимаете, все ссылки тематичные.
---------------------
На счет уникальности - ну посмотрел я генератор от liex - 30-40% схожести при использовании метода шинглов для оценки, что уже не есть хорошо. Учитывая, что Яндекс использует подобие метода описательных слов, то такие сгенеренные статьи он сможет отлавливать достаточно хорошо
До конца не осознал плюсы продвижения статьями по сравнению с тем же блогуном (написание мини-обзора). В блогуне заказываешь обзор - текст напишут хоть и краткий, но уникальный, анкор твой подставят. В новом посте все будет, который не проиндексирован...
Итого, может сейчас статьи и дают в некоторых случаях больше преимуществ, чем Сапа, но на перспективу - кажется мне, что все эти биржи, когда станут массовыми, выродятся и превратятся в обычную помойку. Что поможет? Ручная модерация площадок, жесткий контроль, доступ не для всех и все в таком же духе.
Как пользователь, я могу сказать, что ранжирование по низкочастотным запросам стало хуже, мне стало труднее искать.
Из-за отказа от контекстных ограничений сменилась логика поиска, его изначальный принцип... С точки зрения алгоритма, может изменения и не такие сильные
Не, понятно что напрямую через строку запроса можно задать что типа такого
Просто нет переколдовки типа "пластиковые &/(-1 3) окна", как раньше была
Вроде бы осталась "тошнота" и какой-то алгоритмический учет словопозиций.
При этом, словопозиции, возможно, учитываются как на ромипе 2006.
Хрен его знает, как точно, надо сидеть ковыряться - я как-то темку поднял , да желающих поговорить было немного.
П.с. Имхо, это сильные изменения :)
Это про два Ромиповских доклада?
+ труд австралийцев про lexical spans?
Только ща Ромип*04 неактуален по большей части...
Если говорить о синтаксической оценке текста, то тут ничего сложного нет - структуру предложения (подлежащее, сказуемое, группа однородных прилагательных и т.д.) выделить можно. Можно даже пойти дальше и вести оценку текста как в Word'е .т.е. используя тезаурус. Вопрос в затратах - хз, насколько это ресурсоемко.
Вопрос также и в том, а повышает ли такая глубокая оценка точность оценки релевантности текста? Тут можно долго гадать, пока мы не попробуем провести практический эксперимент. Яндекс наверняка проводит, так что ему виднее, где накручивать, а где достаточно TF*IDF
да, поспешил я мальца...
П.с. <index></index> - это вроде для того, чтобы робот Бегуна индексировал то, что хочет вебмастер