Налицо явный идиотизм конкретного сотрудника ЯК. Звоните в яндекс, требуйте начальника отдела ЯК и объясняйте ему ситуацию, начиная с отквоченной фразы.
XAH666, где вы там ссылки то нашли?
xant добавил 11.03.2009 в 23:29
А в ошибках есть ченить? Может вам сайт запретили к индексации?
В общем-то, да. У нас принят закон об ЭЦП, где-то там умные люди изобретают схемы, однако для российского государства любая бумажка пшик, пока на ней нет оригинала подписи и печати (омг печать... вы когда-нибудь пытались объяснить буржуйским коллегам, что вам на бумажке нужно поставить их печать?).
Пофиг на то, что ответчица не явилась в суд и не прислала адвоката, главное в этой истории то, что суд, пусть даже третейский, принял документ с цифровой подписью...
может, они ссылки поснимали? типа, если у них своя сетка была...
Вам для чего? Если для ТЫЦ - 1 ссылка с сайта, если для позиций - можно несколько. (ИМХО)
Вы поймите, что формулу релевантности пишут не программисты, которым "так захотелось", а математики на основе серьезного анализа огромных объемов данных. Такой анализ проводится методами мат. статистики. Все формулы уже есть - нужно только составить адекватную модель и обоснованно эти формулы применить.
Фишка в том, что большинство факторов, используемых для вычисления релевантности, известны не точно, а с некоторой ошибкой. Возьмем, например, текстовое - казалось бы, откуда в TF*IDF ошибка? А вот откуда: тексты страниц известны не на момент запроса юзера к яндексу, а на тот момент, когда их индексировал робот. С тех пор страницы могли измениться и, соответственно, могло измениться текстовое. И второе: на многих сайтах есть динамические блоки типа "списков юзеров онлайн" и ротаторных блоков вида "популярные статьи/товары" - такие страницы изменяются при каждом обращении к ним. Аналогично со ссылочным и статвесом.
Для получения вида формулы общей релевантности необходимо знать статистическое распределение ошибки каждого фактора. Узнать тип распределения из неких высших соображений нельзя, но можно подобрать экспериментально. Собирается статистика по репрезентативной выборке данных, строится гистограмма распределения ошибки, затем эта гистограмма апроксимируется различными распределениями, а результат апроксимации оценивается критерием Колмогорова-Смирнова.
Я не встречал, чтобы где-нибудь публиковались данные о подобных исследованиях, но могу предположить, что большинство факторов подчинены законам Гаусса и Лапласа. Распределение Гаусса (оно же - "нормальное распределение", "закон 80/20" и т.п.) встречается "в природе" чаще всего, распределение Лапласа в целом похоже на распределение Гаусса, но отличается более "длинным хвостом" (да-да, тот самый "long tail") и часто встречается при обработке в том числе социологических данных.
Так вот, из мат. статистики следует, что для вычисления совокупного влияния нескольких факторов, подчиняющихся закону Гаусса, необходимо использовать сумму этих факторов. Для закона Лапласа используется, если мне не изменяет мой склероз, среднеквадратичное, то есть квадратный корень из взвешенной суммы квадратов значений факторов.
Операция произведения используется для гамма-распределения (гамма-функция это обобщенный факториал). Гамма-распределение в природе встречается довольно редко, я так сходу назову только радиолокацию. Поэтому для использования произведения нужны очень весомые математические доводы.
Если нужно учесть влияние факторов с разными распределениями, нужно брать ручку/запускать Mathematica и считать. В принципе, ничего сверхсложного в таких вычислениях нет, нужно просто владеть мат. аппаратом.
Что будет, если взять неправильную операцию, например, произведение для гауссовых величин? Ничего хорошего не будет) Функция будет вести себя неадекватно: игнорировать любые изменения одних факторов и "колбасится" от небольших изменений других. В результате будет каждый ап - абсолютно новый серп. Так как этого не наблюдается, то можно предположить, что с математиками в яндексе и гугле всё в порядке) Что, в принципе, известно и без мат. статистики.
Что касается ваших наблюдений по резким прыжкам при резком изменении текстового, то это доказывает всего-лишь относительно большой вес текстового фактора, и ничего более.
Если вы уже в ЯК и вам присвоена тематика, то очень слабо влияют.
Если вы не в ЯК, то любые хорошие ссылки с хороших сайтов увеличивают тыц.
Верстка на два с минусом...
Есть мнение, что яндекс не понимает вложенный ноиндекс, и соотвественно после первого </noindex> дальше всё индексируется нормально.
Как быть с навигационными запросами? Любой, самый молодой сайт, если он не под фильтрами, даётся на первом месте, если искать по его урлу. С названием сайта, если оно достаточно уникально, то же самое... Как быть с НПС-результатами, когда текстовый фактор равен нулю? Как быть с результатами с нулевым ссылочным?
Мое имхо - итоговая формула вычисления релевантности представляет собой взвешенную сумму различных факторов. Отдельно накладываются только фильтры.
Несколько вариантов.
1. Зарегистрировать авторские права на произведение в РосПатенте
2. Зарегистрировать авторские права на произведение в библиотеке конгресса США (признается во всем мире)
3. Издать произведение в бумажном виде в нормальном издательстве с оформлением всех выходных данных.
4. Сделать нотариально-заверенную копию сайта. Минус в том, что это не более чем заверенная копия сайта, которая сама по себе ничего не доказывает, кроме факта наличия текстов на вашем сайте на указанную дату. Плюсы в том, что можно заверять любые тексты, а не только ваши личные. В частности, можно заверять копию сайта-нарушителя, если вы решили с ним судиться.
5. Бюджетный вариант, не имеющий юридической силы, но позволяющий "произвести впечатление на судью", если до этого дойдет. Распечатать несколько копий своего сайта и послать их по почте самому себе. В итоге вы получите запечатанные конверты с почтовым штампом.