Эксперимент: Яндекс, тематика, ТИЦ и все-все-все :)

SJ
На сайте с 16.03.2008
Offline
78
#51
G00DMAN:
Вы думаете, что сейчас в Яндексе реализовано сравнение документов по синонимам? А объем вычислений прикидывали? Мне кажется, что это маловероятно, тем более, что цель не особо значимая - лучше отранжировать ЯК. Не верю. :)

А вдруг оно еще как-то на качества донора\акцептора влияет? :)

Я бы предложил забить на синонимы и определять тематичность по количеству вхождений слова в документ. Это не совсем то, что делает Яндекс, но достаточно близко к истине. Т.е. если в тексте у акцептора несколько раз встречается "автомобиль", то и доноров искать с таким же свойством, и анкор лепить аналогичный. Геморно, но прирост тИЦ должно дать явно больше среднего, имхо. ;)

Ну, как-то это слишком просто :)

А забить на синонимы проблем нет - один флажок менять :)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
G00DMAN
На сайте с 19.04.2008
Offline
122
#52

sokol_jack, вы так и не ответили на мой вопрос - как вы собираетесь сравнивать документы? ;)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
di_max
На сайте с 27.12.2006
Offline
262
#53
G00DMAN:
sokol_jack, вы так и не ответили на мой вопрос - как вы собираетесь сравнивать документы? ;)

По результам прогона через БАК.;)

// Все наши проблемы от нашего не знания...
SJ
На сайте с 16.03.2008
Offline
78
#54
G00DMAN:
sokol_jack, вы так и не ответили на мой вопрос - как вы собираетесь сравнивать документы? ;)

Отвечу. Только торопится тут не надо - вон уже шуточки про БАК начались ;)

Сейчас делаю кое-какие наброски, мучаю теорию.

Dryoma
На сайте с 24.12.2007
Offline
12
#55
D_Search:
а ещё лучше думаю по tf*idf. наверное, там контрастность всё-таки считают :)

эта формула уже не работает.

Найдите самые частотные из не стоп-слов, допустим первые пять. Если в таких списках три пересечения, то ссылку можно считать тематической. Параметры три и пять из головы. Можно еще анализировать текст анкора.

N
На сайте с 08.08.2006
Offline
133
#56
sokol_jack:
Отвечу. Только торопится тут не надо - вон уже шуточки про БАК начались ;)
Сейчас делаю кое-какие наброски, мучаю теорию.

Думаю тема стоить эксперимента.

Можно брать >% прямого вхождения слова в документ. И относительно него тематику донора рассчитывать.

Просто с синонимами можно либо уйти не туда, либо получить не то, что ожидалось. :)

Склонения можно тащить отсуда:

http://export.yandex.ru/inflect.xml?name=эксперемент тематика

словами, парами. :)

P.S. Время эксперимента ?

Что делать, если страница (сайт) в бан ушёл ?

Аналитик
SJ
На сайте с 16.03.2008
Offline
78
#57
Dryoma:
эта формула уже не работает.

И сразу примеры, почему не работает, если не сложно.

Найдите самые частотные из не стоп-слов, допустим первые пять. Если в таких списках три пересечения, то ссылку можно считать тематической. Параметры три и пять из головы. Можно еще анализировать текст анкора.

Как-то слишком упрощенно.

Грубо говоря, на первой странице у нас рассказ о том, как хорошо отдыхать на море, на второй - как хорошо отдыхать в горах, на третьей - научная статья о формах жизни в Тихом океане на глубине 1000м.

Первая страница - море, стрелка, арабатская, вода, отдых.

Вторая страница - заповедник, территория, посещение, проезд, крым, карта, водохранилище

Страница №3 - вид, глубина, океан, море, эльпидия, глубоководный, тело

Однако я бы назвал страницы один и два тематичными (тематичными на поределенный %, а не да\нет!).

sokol_jack добавил 30.01.2009 в 11:09

Nicola:
Склонения можно тащить отсуда:
http://export.yandex.ru/inflect.xml?name=эксперемент тематика
словами, парами. :)

Зачем? С морфологией проблем нет (если вы читали топик :) ).

P.S. Время эксперимента ?

Наше время. Солнечная система, планета Земля. ;)

Пока не получу результат или его отсутствие :)

Что делать, если страница (сайт) в бан ушёл ?

Если донор - то вводить поправку на количество "сработавших" сайтов. Если акцептор - "Мочить" конкурентов? ;)

Dryoma
На сайте с 24.12.2007
Offline
12
#58
sokol_jack:
И сразу примеры, почему не работает, если не сложно.

Скажем, это результат моих экспериментов, которые я пока не собираюсь раскрывать. Вам от них пользы мало будет, так как вы вряд ли знаете как узнать IDF😎 Мне самому от них пользы пока мало. Со времен Миныча и ХРНС все усложнилось:(

На счет ваших примеров --- может вы и правы. У первых двух сайтов действительно общая широкая тематика. Но лично я, если на информационном сайте читаю про какое-то слово, то хочу по ссылке прочитать еще что нибудь про это слово и в этом случае я бы не посчитал, что эти сайты на одну тему. А если я на коммерческом сайте, то вряд ли там среди наиболее частотных слов не будет "купить", "путевка", "база", "отдых". В любом случае не важно что думаем мы с вами, важно как оценивает тематику Яндекс.

SJ
На сайте с 16.03.2008
Offline
78
#59
Dryoma:
Скажем, это результат моих экспериментов, которые я пока не собираюсь раскрывать. Вам от них пользы мало будет, так как вы вряд ли знаете как узнать IDF😎

А, ну точно. Логарифм - это ж не для обычных людей. Даже с учетом факльтета прикладной математики КПИ за плечами. Пишите еще.

G00DMAN
На сайте с 19.04.2008
Offline
122
#60
sokol_jack:
Однако я бы назвал страницы один и два тематичными (тематичными на поределенный %, а не да\нет!).

Ни разу не верю, что ПС сейчас так определяет тематичность.🚬

G00DMAN добавил 31.01.2009 в 18:21

sokol_jack:
А, ну точно. Логарифм - это ж не для обычных людей. Даже с учетом факльтета прикладной математики КПИ за плечами.

А от чего необычные люди будут брать логарифм? ;)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий