Утечка исходных кодов сервисов Яндекса

EE
На сайте с 02.01.2021
Offline
118
#71
В факторах присутствует упоминание доменных зон: com, ru и ua – а то думаю что-то мои сайтики на su как-то плохо себя чувствуют. Правда не понятно, что под этим подразумевается, эх расшифровочку бы получить.
богоносец
На сайте с 30.01.2007
Offline
764
#72
EdwardEdit #:
доменных зон: com, ru и ua – а то думаю что-то мои сайтики на su

А ещё много зон не упомянуто. Вас это не смущает? 

Оставлял сцылку на Бакунова, удалили  

по сути это довольно бесполезно, подходит для изучения кода, но запустить из этого свой яндекс не выйдет. Во-первых, попробуйте хоть что-то оттуда собрать, это очень неочевидно и часто требует внутренней инфраструктуры Яндекса. Во-вторых, для ИИ-проектов нет самого главного — натренированных весов, т.е. модель, которая у вас получится после сборки, просто не обучена. Датасета для обучения тоже нет

Вот почему-то все имевшие отношение, кто в телеге, кто на хабре.  Вы явно не в центре мира.

P
На сайте с 26.04.2010
Offline
369
#73
богоносец #:
по сути это довольно бесполезно, подходит для изучения кода, но запустить из этого свой яндекс не выйдет.

Ахаха. Запустить свой яндекс... Основная проблема слива - могут найти уязвимости. И крякнуть реальный Яндекс.

sochi-russia
На сайте с 06.01.2012
Offline
191
#74
plab #:

Ахаха. Запустить свой яндекс... Основная проблема слива - могут найти уязвимости. И крякнуть реальный Яндекс.

Там нечего кряхать, пустышка

Супер Хостинг от 9,20 руб в день https://clck.ru/Rk2P5 🖧 VPS от 19 руб. https://clck.ru/afhGc 🖧 Выделенные СЕРВЕРЫ - БЕСПЛАТНЫЕ плюшки https://clck.ru/YhkZe 🖧 / / Хостинг от 6руб в день! https://clck.ru/Rk2P5
Антоний Казанский
На сайте с 12.04.2007
Offline
703
#75
sochi-russia #:
+1 Ко всем балам

Это вряд ли :) Общая формула не складывает линейно значения. 


Неуч #:
Мало интересного. И так давно многое из этого известно. Интересней вебмастер и индексатор. 

Про Самовар действительно было занятно :)


EdwardEdit #:
В факторах есть кое что, что не очень похоже что старые.

Так там и даты указаны, правда после 2019 года.

√ SEO продвижение ► https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга.
nukex
На сайте с 11.05.2007
Offline
130
#76
 Судя по некоторым данным в одном из файлов readme,( дата кстати 2022-07), они до сих пор выкатывают выдачу в ручном режиме, есть какие-то конкретно ответственные за это, автоматизация возможно есть, из каких-то говно-скритов.  Комментарии к коду и в редми написанный на каком-то пара-олимпиадном, понятные только им. Много ссылок на внутреннюю вики-систему, вот там,  содержится много интересного, возможно подробное описание факторов ранжирования и тп . 

Есть конфиги железа их краулеров. Сервисы мониторинга и аналитика ботов. Много упоминание про postgres, скорей всего и кэш выдачи хранится в этой базе. Короче много интересного, и все как-то по колхозному (особенно именование и структура директорий и файлов), будто смотришь репозиторий it отдела на каком-то заводе нефтемаш)) Я представляю щас гугловцев , они щас тоже изучают их код и охренивают))


   

 

alaev
На сайте с 18.11.2010
Offline
786
#77
plab #:

Ахаха. Запустить свой яндекс... Основная проблема слива - могут найти уязвимости. И крякнуть реальный Яндекс.

Еруднду просто говорят. Ок, кто-то запустил свой Яндекс. Дальше что? Кто туда пойдёт и кто про него узнает?

А вот инфы много интересной слито.

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
Gonchar-web
На сайте с 23.02.2022
Offline
70
#78
Никто пока факторы ранжирования не выложил в человеческом, читаемом виде здесь или на сайте? Ведь можно и в ТОПчик попасть и траф хороший собрать?!
anbarter
На сайте с 14.02.2013
Offline
99
#79

По слитым документам с факторами ранжирования (спасибо Seo Bro): Разбивка по тегам нереально облегчает поиск, группировку и анализ инфы по нужным факторам. При анализе факторов обращаем внимание на тег TG_UNUSED. В первую очередь меня интересовали ссылочные факторы. Часть из них была знакома, часть в новинку. Выбрал интересные с моей точки зрения(TG_UNUSED и нет).

53 фактора ссылочного ранжирования

  • "Относительная частота слов запроса в ссылках (1 - слова запроса часто встречаются в ссылках, 0.3 - редко); если точнее, значение этого фактора пессимизируется при условии: TR=0 && LR=0 && (нет ни одной ссылки со всеми словами запроса) && (не прошёл кворум) && (в тексте встречается хотя бы одна пара слов запроса)"
  • "В ссылках есть все слова запроса"
  • "В одной ссылке есть все слова запроса"
  • "Есть ссылка, прошедшая кворум"
  • "Какая доля ссылок “хорошая”"
  • "Насколько много “плохих” ссылок (плохой = dpr = 0)"
  • "Максимальный dpr ссылки"
  • "TfIdf обычный TF*IDF по ссылкам. Частота слова в ссылках умножается на обратную документную частоту и суммируется по всем словам, потом нормируется на длину документа."
  • "Есть точная форма всех слов запроса в тексте/линках"
  • "Есть лемма всех слов запроса в тексте/линках"
  • "Число ссылок, точно совпадающих с запросом"
  • "Число обратное дисперсии временам появления ссылок со словами запроса"
  • "Линковая релевантность с учетом тематичности"
  • "Линковая релевантность с учетом качества каждой ссылки"
  • "Линковая релевантность с учетом качества каждой ссылки и тематичности каждой ссылки"
  • "Линковая релевантность с учетом некоммерческости каждой ссылки"
  • "Линковая релевантность с учетом некоммерческости каждой ссылки, качества каждой ссылки и тематичности"
  • "Процент входящих ссылок со словами запроса"
  • "Процент слов запроса в ссылках (с точностью до синонима)"
  • "В ссылках есть все слова запроса (с точностью до синонима)"
  • "LR по парам слов запроса в обратном порядке"
  • "LR по парам слов запроса через одно слово в текстах"
  • "Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года"
  • "LR с учетом совпадения языка ссылки и запроса и накрученности"
  • "LR по отписанию в Яндекс.Каталоге"
  • "Максимальный возраст значимого скопления ссылок, внесших что-то в LR""Хост ранк по максимально выраженному слову запроса (обычно это название сайта)"
  • "Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0."
  • "Фактор CommLinksSEOHosts умноженный на NonCommercialQuery"
  • "Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок."
  • "Вес слов запроса, которые есть в линках"
  • "Простой BM25 по точной форме в текстах ссылок"
  • "LR по ссылкам из Яндекс.Маркета"
  • "Дополнительные факторы про раскрученность сайта линковыми кольцами”
  • "Линковая релевантность с пессимизацией за большой возраст линка"
  • "Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени”
  • "Считали LinkQuality для этой страницы или нет (не считали, если ссылок мало)"
  • "Количество различных внутренних ссылок на страницу"
  • "Периодичность ссылок на сайт"
  • "Количество почти-периодических ссылок"
  • "Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одной ссылке; нормировано на кол-во ссылок."
  • "Число входящих ссылок с морд"
  • "Бинарный фактор, каждое слово запроса есть в тексте или в линках"
  • "Отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок"
  • "Количество входящих сео-треш ссылок между хостами"
  • "Доля уникальных триграмм заголовка в триграммах ссылок"
  • "Сумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца."
  • "BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним)"
  • "Вес слов запроса, которые есть в тексте в точной форме"
  • "Позволяет оценить является ли документ 'живым' с точки зрения ссылок на него приходящих."
  • "Дисперсия количества слов запроса в ссылках."
  • "BM с затуханием по тексту каталожных ссылок."
  • "На данный урл есть ссылка из Infobox-ов в Википедии."
  • "Ранк качества текстов на хосте. Чем выше — тем больше вероятность того, что хост полон статей - рерайта, плохого копирайта, заказанного на биржах контента.

SEO бро
SEO бро
  • t.me
А, ну и чтобы вы не качали 45 гигов 😂
https://semotion.ru - позитивное продвижение сайтов ;)
Антоний Казанский
На сайте с 12.04.2007
Offline
703
#80
anbarter #:
меня интересовали ссылочные факторы

Это всё конечно очень мило и увлекательно, но когда в  в топах стоят сайты с хорошими поведенческими и 2-3 сотнями ссылок (а иногда и без оных) большая часть которых просто из тематических справочников, то все эти доли триграмм заголовков в триграммах ссылок выглядят как анекдоты Омирбека.

Кто-то после этого списка серьёзно начнёт рассчитывать BM25 по точной фразе в текстах ссылок? 

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий