Igorx

Рейтинг
54
Регистрация
05.09.2005
wolf:
Немножко раскрою тему. Дело в том, что обратная частота по корпусу текстов документов используется в алгоритме таким образом, что манипулировать ею нет возможности. Для нас она - константа. Поэтому точное знание этой константы, может, и любопытно само по себе, но какой бы то ни было практической ценности, на мой взгляд, не имеет.

wolf, ну хорошо, обратная частота константа. Это понятно. А не используется ли в алгоритме соотношение весов (обратных частот) для двусловных и более запросов? 🚬

И вообще - зачем нам манипулировать обратной частотой? Конечно мы не можем этого сделать. Зато мы можем манипулировать частотой терминов в анкор-файле, подгоняя ее под "идеальную" частоту. Или в этом тоже нет практической ценности?

Хотя конечно, текстовая обратная частота, не соответствует анкорной... Но хоть какие-то соотношения по ней выявить можно?

mas7777:
в интервале 0-1 часа ночи по Московскому времени, уже сегодняшего дня, я проверил на индексацию свой давно забытый мусорный каталог и... с его 2-х страничек стало 17 000!!! я бы в шоке и одновременно рад ) перепроверив все другие каталоги... у всех в индексе было от 5 до 20 тыс страниц, что меня удивило, так как на их реанимацию Яши я так и не надеялся... Спать я ложился в предвкушении денег полученных с сапы, но уже сегодня днём повторная индексация показала возвращение к 2-3 несчастным страничкам... Может это был сон? ))))

Не сон. У меня с одним сайтом такое уже пару месяцев.

Во время апдейта все страницы сайта в индексе - их там неск. тысяч. С утра, после окончания апдейта, остаются только статические html страницы, все php страницы вылетают.

Думаю, это срабатывает один из фильтров яндекса, который борется с "автоматически сгенерированным контентом".

Хотя в моем случае, контент уникальный. Правда есть один из разделов сайта с доской объявлений. Объявления добавляют сами пользователи, но ссылки режутся, т.е. ссылки там разместить нельзя и ссылочного спама там никакого нет.

Т.е. в данном случае фильтр ошибся. Писал Платону, он говорит "спасибо, что обратили внимание на ошибки индексации - разберемся." На самом деле, никто конечно не разбирался. Страницы так и исчезают в конце апдейта. Больше писать Платону не стал, не Яндексом единым...

Проверил. Работает :)

Почти совпадает с весами, которые нашел самостоятельно. Но похоже здесь точнее. Так что, респект! Михаил, скоро у тебя будет неплохая база запросов с весами 🚬

Одно опасение, как бы после появления сервиса яндекс не урезал язык запросов 🙅

Intelis:
Очень легко определил.
Есть 7 сайтов с одинаковыми данными релевантности исходному запросу - <название_нашей_компании>. Он просто прописан в tittle на главных этих сайтов и все. Выдается тот, у которого больше всего ссылок, содержащих соотв. анкор.

Ну написали же всё уже. В выдаче по конкретному запросу останется самый релевантный этому запросу сайт по мнению яндекса.

А рассчитывается эта релевантность по совокупности многих факторов, в том числе учитывается и ссылочное, и виц, и контент, и куча фильтров, и еще что-то, одному яндексу известное.

Проведите эксперимент над своими сайтами, позадавайте к примеру запросы, которых нет ни в одной ссылке. И посмотрите, какие сайты будут в выдаче.

В выдаче будет оставаться все равно 1 сайт, но релевантность уже будет рассчитываться исходя из ВИЦ и контента...

Перец:
Я спрашивал на конференции у Садовского про разные сайты одной фирмы в топе. Он сказал, что они анализируют конкретный случай и дописывают в фильтр новое правило. Обновленный фильтр начинает работать сразу без ребута.

Во! Я ж говорил - никакого ссылочного и прочего. Просто правило в фильтр на выдачу _руками_.

Перец:

Вообще, со слов Ашманова Яндекс славится своим нежеланием лишний раз делать что-то руками, когда можно положиться на алгоритм. Поэтому и обсуждаемый фильтр вполне может быть сейчас автоматизирован.

Это плохо ;-( Со слов прогрессивной общественности рунета, Яндекс славится введением новых авто-фильтров, от которых страдают незаслуженно белые и пушистые сайты. Особенно на начальном этапе отладки фильтра.

При этом Яндекс еще славится тем, что не желает признавать существование фильтров и тех эффектов, которые эти фильтры производят. 🙅

Kimi:
То есть вы считаете, что задав в поиске "google", в выдаче пользователю очень удобно будет наблюдать на первых 10 страницах все домены Google, все их сервисы, веб-службы и т.д. и т.п.?

Сравните выдачу по этому запросу в самом Google и в Яндексе. По-моему, в Яндексе информация представлена поразнообразнее. В данном случае группировка вполне целесообразна.
Аналогичная ситуация и с запросом "Яндекс", кстати.

Google и Яндекс - это интернет-ориентированные компании, поэтому данный пример не показателен. Да и не думаю, что сайты подобных компаний группируются по принципу аффилированности.

Этот фильтр в текущем его виде яндекс должен будет применить для google, если google выпустит к примеру сервис maps.google.ru на разных доменах: googlemaps.ru mapsogoogle.ru и т.д. Если яндекс увидит, что три этих домена присутствуют в выдаче к примеру по запросу "карты", он должен будет их сгруппировать.

А по поводу - что должно выдаваться по запросу google - спорный вопрос. В том же яндексе по запросу "Яндекс" 3 первых места занимают сайты яндекса. Считаю это правильным, так как пользователь искал Яндекс и получил прежде всего информацию из первоисточника.

Кстати, а почему бы яндексу не сгруппировать три приведенных сайта по принципу аффилированности? ☝

euhenio:
-таки они не могут или не хотят? Сейчас у вас получается, что не хотят. А раньше получалось, что не могут:

Да я даже и не задумывался могут или нет. Потому что не надо.

Если все же этот вопрос интересует, то думаю, что смогут, но с определенной, не очень высокой точностью. С очень высокой автоматом - не смогут 🚬

euhenio:
rhost="ru.*" - 333 306 доменов (плюс-минус километр)
rhost="org.*" - 8502 домена
rhost="net.*" - 15 069
rhost="com.*" - 448 960 доменов - ну, как на ру :)

euhenio, ну какая разница сколько там доменов и сколько на это нужно времени? Я же написал ниже, что пробивка всей базы для нашей задачи и не требуется. Одинаковая информация в whois может быть только косвенным подтверждением аффилированности сайтов, а не начальной точкой отсчета при наложении фильтра.

И вторая мысль - в качестве буквоедства, не имеющего отношения к теме. А почему вы решили, что пробивать нужно только зону ru или только зоны, приведенные выше?

Что делать, если один сайт компании в зоне ru, а другой в зоне info к примеру? Или ua? Или в еще какой-то?

Или еще - как роботу сравнивать, если информация а разных зонах представлена в абсолютно разных форматах и в некоторых зонах по whois вообще сложно определить владельца домена?

Так что не такая уж тривиальная эта задачка...

gekos:
Igorx, а если телефон и е-мейл ставить картинкой, например?
В ВК тематиках не сработает, там по стуку все, а в менее конкурентных сети по идее выживут на ура.
Хотя попробуем поставить опыт.

gekos, мое мнение - фильтр накладывается вручную модераторами. Поэтому телефон - картинкой не поможет, модератор и стукач будут прекрасно видеть его.

Инициатором наложения фильтра скорее всего может служить стук + плюс возможно у них есть некий механизм проверки высококонкурентных топов...

Кстати, у кого-нибудь есть примеры наложения такого фильтра в низкоконкурентных тематиках? Если таких примеров нет или их очень мало, это может служить доказательством именно ручного наложения фильтра - ведь роботу все равно, какая конкуренция, главное наличие совокупности факторов...

wolf:
Ну и что страшного в их группировке? По маслам будет один сайт выдаваться, по фильтрам - другой. Я имею в виду с точки зрения пользователя ПС, а не продвигатора, который толкает оба сайта по одному и тому же набору запросов. ;)

wolf, ничего страшного конечно нет.

Но вот такой побочный эффект есть у этого фильтра. Есть к примеру группа компаний, объединенных одним названием-брендом. Каждая компания занимается своим направлением деятельности и имеет свой сайт.

Пользователю очень удобно - введя в поиске название бренда он видит все сайты группы компаний и выбирает тот, который ему необходим.

После введения фильтра по запросу бренд в выдаче Яндекса будет лишь 1 сайт.

Ну и еще 1 эффект есть, долгоиграющий :) Про него я писал уже. Анализируя топы вижу, что под фильтр не попадают сайты одной компаниии, на которых вообще не указана контактная информация. Или указан отдельный телефон + email типа info@названиедомена.ru или форма отправки.

Введением этого фильтра яндекс стимулирует вебмастеров к созданию обезличенных сайтов, что в конечном итоге вредит пользователям ПС.

Решив проблему краткосрочно, яндекс в долгосрочной перспективе ухудшает выдачу...

Всего: 192