Эксперимент: Яндекс, тематика, ТИЦ и все-все-все :)

Dweep
На сайте с 11.12.2006
Offline
207
#41
sokol_jack:
Хм. А как быть с теми сайтами, у которых тематика немного "размыта"?
Да и грубо говоря берем любой сайт в качестве примера (беру свой СДЛ) - есть раздел "Психология", есть раздел "Здоровье детей", есть раздел "Отдыхаем в выходной". Тематика каждого из разделов "немного" отличается, ИМХО. И насколько тематичным будет считатся сайт например магазина детских товаров? Почему?

Ну от, как я себе это представляю, это что то типа: весь контент первого сайта сравнивается со всем контентом второго сайта, и по этому определяется на сколько сайты тематичны.

sokol_jack:
А почему именно первая ссылка? А если она "мигнула"?
По-хорошему, надо брать сайт, размещать на него 1000 ссылок по 2-3 на каждый сайт (морда, 2-3ув, просто "хорошая" страница) и потом снимать периодически один "тип" ссылок и смотреть на результат. Вот только параметры доноров еще меняются со временем, и результат может очень сильно зависеть от этого. Так что надо брать 1000 сайтов :)

Первая для определенности. Каждая ссылка с Сайта А на сайт В передает одинаковое количество ИЦ, и при подсчете учитывается передаваемый ИЦ лишь одной любой ссылки.

Одна моя компания на xap.ru это с ссылки с каждого их сайта на мой. Так вот на некоторые свои сайты я создавал по одной компании, на некоторые по несколько, на один вообще 40 компаний создал. И ИЦ, полученный с xap почти не различался на всех сайтах(год назад было около 50 единиц цитирования).

У меня есть убеждение, что если ссылка с сайта А передает мне какой то ИЦ, то если ссылку пареместить на другую любую страницу сайта А или изменить текст страницы или ссылки, то передаваемый мне ИЦ никак не изменится.

sokol_jack:

Ну, знаете... Уж что-что, а "морда" зачастую это просто "Новые поступления:....".

Ну лучше уж морда, чем первая попавшаяся внутренняя страница. А вообще еще лучше создать страницу со всем контентом одного сайта, и со всем контентом второго сайта, и их уже сравнивать. Это, по моему, будет как раз то что надо.

sokol_jack:

Посмотрел. Свойства коэф. b - не согласен. Свойства коэф. s - тут я так понимаю вобще не важно, сколько у меня страниц на сайте 😮 - что с одной 200 ссылок, что с 200к - всего 200 ссылок, а "s(200) = 0.9 (если с сайта - донора двести ссылок, то s=0.9)"?

Ссылка с яковского сайта с моей подрубки мне налегке дает 7 ИЦ в среднем, хотя наверное я действительно этот коэффициент немножко завысил. Думаю в обычных сайтах ситуация аналогичная, просто трудней найти тематические по мнению яндекса сайты. Количество страниц что реципиента, что донора, по моему на ИЦ никак не влияет.

sokol_jack:

Ну, и как вы прокоментируете в рамках своей теории несколько моих сайтов, которые за этот ап получили от 100 ТИЦ? Никаких дырок Яндекса, ковровых бомбардировок и прочего не использовалось. 90% доноров - 0 ТИЦ, куча внешних. Это не "тема" matr, о которой он писал (за его сайтом наблюдаю не первый месяц, кстати ;) ).

Ну так и прокомментирую, например b(0) = 2, s(куча внешних) = 0.5, k ~ 0.2

То есть один нулевой сайт передаст 2 * 0.5 * 0.2 = 0,2 ИЦ-а, и 500 нулевых сайтов передадут 100 ИЦ. Как то так, коэффициенты шаманить надо, я с нулевыми сайтами не сталкивался почти.

di_max
На сайте с 27.12.2006
Offline
262
#42
sokol_jack:
Тогда получится через всякие Хеопс, Сфинкс выходить на Египет и пирамиды...

Да это только частный пример, извините, но более понятный большенству.

А вот с Италией - реальность в Туризме.

Про жаргонизмы я уж не стал говорит. (Канары = Канарские острова)

Как и про синонимы в химии, медицине и тп. (Аспирин = Ацетилсалициловая кислота)

sokol_jack:
Вы бы уже не палки в колеса ставили (достаточно уже 😂), а что-то полезное-полезное посоветовали.

Да уж какие, извините, это палки?🙄

Это реальность, рабочие будни, в которой работают суровые оптимизаторы;) в Туризме, Путешествия и тп. :)

А вот это - целый лом!🙄

Суровая реальность для Яндекса.


ИС - Человек вводит в строку поиска слово "жизнь". Что выдавать? Что он ожидает увидеть?
К - Да какая разница? Все равно понятно, что этот человек - идиот.
ИС - Вы почти угадали. Но этот запрос можно понять. Оказывается, люди так ищут газету "Жизнь"

Из интервью Ильи Сегаловича, опубликованного в журнале "Компьютерра" 21 марта 2006.

(К - корреспондент)

// Все наши проблемы от нашего не знания...
SJ
На сайте с 16.03.2008
Offline
78
#43
di_max:
Да уж какие, извините, это палки?🙄
Это реальность, рабочие будни, в которой работают суровые оптимизаторы;) в Туризме, Путешествия и тп. :)

Тему читал, конечно.

Неужели чтобы понять Яндекс, надо стать Яндексом? Хнык... А как же построение упрощенной модели? Ну не нужны мне в моей модели все их эти Платоны 😂

Вобщем, вы считаете что пока не вывести контекстный подбор синонимов на должный уровень, погрешность в эксперименте будет слишком высока?

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
di_max
На сайте с 27.12.2006
Offline
262
#44
sokol_jack:

Неужели чтобы понять Яндекс, надо стать Яндексом? Хнык... А как же построение упрощенной модели? Ну не нужны мне в моей модели все их эти Платоны 😂

Вобщем, вы считаете что пока не вывести контекстный подбор синонимов на должный уровень, погрешность в эксперименте будет слишком высока?

Вопрос только в степени приближения результатов моделирования и реального Яндекса.

Какова, по Вашему мнению ДО начала эксперимента, реально достижимая погрешность между моделью и реальным Яндексом?

Плюс - не стоит забывать и о динамике в алгоритмах Яндекса.

- Каковы, по Вашему мнению, сроки, в которых данная модель будет давать приемлимую точность?

sokol_jack:
Ну не нужны мне в моей модели все их эти Платоны 😂

Ну... Видимо совсем от хорошей жизни в Яндексе пошли на РУЧНУЮ обработку и набивку.

Хотя руководители многократно заявляли о автоматизации процессов.

А это вносит еще одну погрешность, в виде "человеческого фактора", в модель.

Я это все не к тому, что эксперимент надо хоронить, а к тому, что ДО его начала - нужно четко понимать ЧТО получишь в конце.

G00DMAN
На сайте с 19.04.2008
Offline
122
#45
sokol_jack:
- Яндекс вполне понимает, что у слова есть синонимы и наличие на одной странице слова "автомобиль", а на другой - "машина" вполне может дать + ;)

Вы думаете, что сейчас в Яндексе реализовано сравнение документов по синонимам? А объем вычислений прикидывали? Мне кажется, что это маловероятно, тем более, что цель не особо значимая - лучше отранжировать ЯК. Не верю. :)

Да и задача как-то сложновата, даже в теоретическом плане, о чем уже упоминалось выше.

sokol_jack:
- пишу умный скрипт, который будет собирать эту самую текстовую составляющую со страниц, приводить к базовым формам слова, фильтровать что не надо, расширять синонимами и сравнивать две страницы на совпадаемость по словам (возможно, дальше и на уровне двух или трех слов подряд)...

И как вы собираетесь сравнивать? По типу есть/нет в документе? Да хреново это, "есть в документе" и "тематичность" - немного разные понятия... У донора и акцептора может быть достаточно большое пересечение по каким-то общим словам, даже тупо без синонимов, а документы будут очевидно не тематичны.

Я бы предложил забить на синонимы и определять тематичность по количеству вхождений слова в документ. Это не совсем то, что делает Яндекс, но достаточно близко к истине. Т.е. если в тексте у акцептора несколько раз встречается "автомобиль", то и доноров искать с таким же свойством, и анкор лепить аналогичный. Геморно, но прирост тИЦ должно дать явно больше среднего, имхо. ;)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
DS
На сайте с 30.10.2007
Offline
47
#46
G00DMAN:
Я бы предложил забить на синонимы и определять тематичность по количеству вхождений слова в документ.

а ещё лучше думаю по tf*idf. наверное, там контрастность всё-таки считают :)

Поисковый аудит сайтов (/ru/forum/283538). Продвижение сайтов в Яндексе. ICQ 239410два-8-три.
G00DMAN
На сайте с 19.04.2008
Offline
122
#47
D_Search:
а ещё лучше думаю по tf*idf. наверное, там контрастность всё-таки считают :)

Лучше при нормальной базе IDF. Базы времен бОльшей открытости Яндекса что-то у меня не особо катят. :(

stabuev
На сайте с 18.11.2003
Offline
150
#48

Мдя, любят же люди жизнь усложнять 🍾

Швейцарские часы (http://www.horlogerie.ru/)
[Удален]
#49
stabuev:
Мдя, любят же люди жизнь усложнять 🍾

И не говори) Такого напридумывают лишь только бы не работать)

😂

di_max
На сайте с 27.12.2006
Offline
262
#50
Leonid.Sh:
И не говори) Такого напридумывают лишь только бы не работать)
😂

+100! разов

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий