zig

Рейтинг
16
Регистрация
23.06.2006

Все таки нашел.

/ru/forum/56951

Виталий21:
Быстрый алгоритм - основная функция Яндекса - поиск. Яндекс начинает отсеивать дубли, когда пользователь начинает листать страницы с результатами поиска, при этом количество найденных документов уменьшается, ИМХО конечно. Но по-моему представители Я сами так об этом писали где-то на этом форуме.

Хм. По логике так и должно происходить - во время конкретного запроса делать анализ. Т.к. выборка все равно происходит при запросе и она в некоторой степени оригинальна. Рассуждения по поводу дальнейшего использования инфы из конкретного серпа приводить не буду - много их.

Кстати, иногда по запросу "хостинг" дальше второй страницы нет сайтов. Не во время апов.

Вот фильрует ведь дубли:)

Не стоит доверять этим цифрам.

И не стоить путать зеркала и дубли.

Дубли в выдаче есть и будут, их ну никак нельзя убирать.

Максимум - опускать дубли вниз.

Кол-во страниц не должно при этом изменятся в серпе, было бы странно.

И почему именно на второй-трейтьей-пятой странице серпа?

Могу предположить, что в целях экономии ресурсов конечно... но скорее это может объясняться структурой поискового движка и конкретным механизмом кластеризации.

+ могут оказывать влияние механизмы кеширования серпов.

Все ес-но мое имхо и не сфера моеё деятельности.

Если кто-то что-то знает по теме - сообщите.

Интересно, для общего развития.

Alar:
Программисты меня поймут. берёться допустим предложени или абзац. из анализируемой страницы и гоняеться по всй базе сайтов, беруться какие-то ключи скорее всего случайные, например несколько слов. После прогона появляется какая-то выборка.

У меня много было опыта подобных разработок, некоторые схожи с вашим предложением.

У яндекса есть одно НО - размер базы.

Нужен какой-то быстрый алгоритм выборки.

Искать по предложению или абзацу - немного не правильно, очень долго, и не рационально.

Для документа должно быть посчитано несколько значений - слепков.

Слепок делается например по частоте слов, буквам, оригинальным словам и их комбинациям и т.д.

И уже по ним нужно делайть поиск и последующее сразвнение.

Как вы правильно сказали - процесс поэтапный.

Dreammaker:
В php и mysql есть функции определения "похожести" английского текста или похожести его звучания, как они работают не знаю (в исходники не заглядывал), но может быть взяты похожие алгоритмы.

Функция soundex.

Soundex-ключи имеют то свойство, что слова, произнесённые одинаково, дают тот же самый soundex-ключ и могут, таким образом, быть использованы для упрощения поиска в БД, где вы знаете произношение но не написание. Эта soundex-функция возвращает строку длиной в 4 символа, начиная с буквы.

К делу отношения не имеет.

Какой алгоритм я знаю и применяю...

Каждое слово в словаре для всех документов имеет свой индекс.

Берем документ и вычисялем частоту каждого слова в документе.

Для каждого документа имее скромную табличку типа

[индекс слова]:[колв-л слов]

Еще делаются слепки из такой таблицы, но это уже для удобства и скорости. + Порядок слов влияет конечно, там тоже свой метод, но загружать не буду.

Ищем по базе другие документы по определенной маске и при совпадении каких-то ключевых параметров и схожести текста по приведенной выше таблице процентов на 95%(все завсисит от обьема текста и логики) - поределяем документы как похожие.

С помощью нехитрых алгоримов можно достаточно точно определить похожесть страниц.

Другое дело, что возможны нежелательные погрешности и посему процент совпадения(исключаем доп. ключевые факторы) очень высок для признания документа похожим. С увеличением кол-ва документов в сети будут понижать эти проценты. // Это все образно было сказано.

Все конечно утрировано, но мне примерно такой алгоритм помогает фильтровать дубли.

Я не специалист по обработке больших обьемов данных( я по разработке комп. игр), это просто мое имхо. Строго не судить:) Интересно другие мнения услышать, сейчас как раз cms пишу для доски объявлений.

AVV:
Как работает Яндекс - сиё тайна великая есть!

Ну не так уж страшно все. Вроде как люди делают, алгоритмы пишут.

PPM:
Вот именно вопрос: а был ли бан?
Бан в моём понимании это ВСЕ ЧТО УГОДНО, накладываемое на сайт, в результате чего сайт "улетает" по раскручиваемым запросам.

ban

1. сущ.

1) запрещение

- under a ban

2) церковное проклятие, анафема

3) приговор об изгнании; объявление вне закона

2. гл.

1) налагать запрет; запрещать

2) уст. проклинать, налагать проклятие

В целом вы правы.

Бан - проклятие, насланное на сайт модератором:)

Просто сайтов в выдаче нет, робот жрет по черному.

назовем это "страшный бан". Т.е. "страшное проклятие".

Кто-то говорил что два года жрет уже сайт.

Контент с забаненого сайта где-то еще лежит? Не было случаев бана других сайтов? На сайте причины сносились?

Deni:
несколько Гигабайт трафа в месяц с одного моего сайта для анализа ? :)

Вот и я думаю - зачем яндексу тратить столько ресурсов на это?

Трафик тоже исчисляется гигабайтами - по 100-300 метров в неделю бывает с одного сайта. А сайтов забаненых сотни... Жуть.

Хотя с той позиции, которую я ранее озвучил это ничколько не противоречит.

И еще, зачем бы asessor.yandex.ru заходить на забаненый сайт?

Кто-нибудь откликнулся и написал бы свои наблюдения...

Может он заходит до поры до времени?

Возможно, что у кого-то были ситуации массового бана каталогов на одной базе или скрипте после бана одного из них по стуку?

Deni, посмотри по логам, был ли asessor.yandex.ru на сайте после бана.

На 5 моих катах и одном авто-сайте были.

MLinks:
Для TrustRank ссылки с "плохих" сайтов никак не нужны. Вот если на плохой сайт ссылается, то да... все что на забаненом сайте - это для других внешние факторы, которые не могут влиять на их ранг.

Согласен, о чем и написал.Ссылки пофигу.

"Похожесть" страниц - вот об этом можно подумать.

Dreammaker:

С тем, что алгоритм хорошо продуман - категорически не согласен.
Если бы всё было продумано, то не было бы директа - он бы быстро обанкротился

Алгоритм работы роботов продуман.

Все, что касается корректного ранжирования страниц в серпе - это уже на порядок более сложные вещи в разработке.

Да я даже простенькие поисковики делал по сеткам городским - "черный список" робот не трогал при индексации.

Но это простое решение, для элементарного поисковика.

Для более сложного - грех не воспользоваться готовым "черным списком" и не проанализировать его.

Т.е. механизм анализа есть - вопрос какой.

Неужели никто закономерноестей не выявил? Хотя бы намек...

Deni:

А делает он это (мое имхо) более интенсивно по следующей причине:
Бан и индексация програмно не связаны. Робот банально не знает про бан. Кушает все подряд а вот на этапе выдачи страницы обрезаются
Колличество заходов робота растет так как на забаненый сайт много жирненьких ссылочек а вот в индексе робот его не видит и воспринимает его как новый сайт. Из за этого и повышенный аппетит.
Еще раз напомню что чисто мое ИМХО

Вы думаете механизм яндекса так плохо продуман, что жрет кучу трафика за зря? Думается, что нет.

Вносят домен в черный список и все - все роботы знают об этом.

По этому поводу даже вопросов не возникает.

Тут мне кажется дело в другом.

Страницы индексируются для опознания других сайтов для бана и определения "хорошести" похожих сайтов.

По идее, забаненый сайт - "плохой сайт".

Ссылки и похожие страницы с плохого сайта - вариант для определения других "плохих сайтов". Насчет ссылок это конечно вероятнее всего не верно, но вот содержание страниц - очень может быть.

Просто вариант только один у меня остается - индексирует для анализа.

Что это за анализ и для чего делается - вот в чем вопрос.

И еще один факт - через 3 недели после бана был заход с asessor.yandex.ru. Может все это для TrustRank?

HoSStiA:
На усмотрение здравого смысла - никто не принуждает ~70% русскоговорящего населения планеты набирать по утрам http://www.yandex.ru (к связке Firefox и Google и то можно нарыть побольше претензий). Если любят настукивать лапками именно Yandex - значит, он им чем-то полюбился.

Никто не принуждает население планеты выбирать в качестве ОС Windows. Однако, в результате судебных исков, Microsoft раз от раза накладывает на себя ограничения для разрешения конфликтов.

Государство должно бороться с монополиями - они ценообразователи и давят конкуренцию своими мускулами.

Демпинг и слив конкурентов со стороны предприятия-лидера - это нарушение закона.

Но вот с yandex вроде странно звучит все это... не продает он свои услуги - он бесплатен. Он продает директ. Но, разве там он монополист?

The WishMaster:
Показывай пациента

Их много.

Основные пострадавшие - обычные каталоги. Хотя, есть и другие.

На катах были нарушения - h1, спамные описания.

Короче говоря - перенаправление трафика.

Понимаю за что забанили и каков будет ответ Я.

До того момента, как начинаешь смотреть логи все понятно.

Вопрос я уже выше озвучил. Мне его логика не понятна : после бана месяц уже жрет в разы больше, чем до бана.

Всего: 241