Эксперимент: Яндекс, тематика, ТИЦ и все-все-все :)

Kamchess
На сайте с 05.07.2007
Offline
305
#61
sokol_jack:
некоторые из них отдают предпочтение статьям - может, что-то знают?

Многие сейчас стали отдавать предпочтение статьям. Сео-мода такая. Кто-то действительно что-то знает, а кто-то и нет... ;)

А вообще что-то много стало экспериментов в последнее время в этом разделе. Не в обиду ТС будет сказано, но многие экспериментаторы используют данные темы всего лишь для наращивания собственной репы. Ведь как показали предыдущие ветки - конкретными результатами эксперимента авторы делится с общественностью не собираются.

Тут (http://www.youtube.com/watch?v=ctD8-rKO6e0) я попиарился на TV, Свежак (http://www.1tv.ru/documentary/fi=8391) - интервью со мной!
Re@L
На сайте с 02.11.2008
Offline
175
#62

Накопилась кучка вопросов по тИЦу, думал создать топик, но отпишусь здесь если можно.

1) У меня есть сайт в ЯК - если я буду оставлять только ссылку на сайт, типа как на WP в поле Сайт, т.е. это будет бэк, но сколько он мне принесёт тИЦа? Так же как и с нормальным анкором?

2) Есть сайт в ЯК>Спорт>Футбол. Как думаете покупать ссылки из ссылки из других рубрик в категории Спорт , если в Футболе уже всё что можно выкупил и обменялся?

3) И как думаете насчёт % ключиков, тиц меньше передастся?, т.е. схожости тематичности у сайтов? Что мы здесь и обсуждаем, а то на многих сайтах видял в разде Футбол вооще сайт про авто или развлекательный портал какой то.. беспредел.

4) Если поддомен или просто раздел какого то сайта в моей рубрике, то нужно оставить именно там ссылку или можно на основной домен? ( ну в плане тематичности и пророста тИЦа... )

wolf
На сайте с 13.03.2001
Offline
1183
#63
Dryoma:
Скажем, это результат моих экспериментов, которые я пока не собираюсь раскрывать. Вам от них пользы мало будет, так как вы вряд ли знаете как узнать IDF Мне самому от них пользы пока мало. Со времен Миныча и ХРНС все усложнилось

Даже во времена Миныча совсем необязательно было знать IDF. :) Достаточно было просто манипулировать этим параметром с помощью чудесного оператора ::, который сейчас, увы, не столь чудесен.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
wolf
На сайте с 13.03.2001
Offline
1183
#64
Dryoma:
Сообщение от D_Search Посмотреть сообщение
а ещё лучше думаю по tf*idf. наверное, там контрастность всё-таки считают

эта формула уже не работает.

Что не работает? tf*idf? Я таки понимаю, яндексоиды, по-Вашему, сделали революцию в Information Retrieval и никому об этом не говорят? :)

A
На сайте с 11.05.2007
Offline
155
#65

Я в свое время тоже ставил подобный эксперимент. У меня был такой результат:

"тематику Яша не учитывает, рост тиц примерно одинаков от теметика\нетематика".

Оговорюсь сразу имею в виду что подопытный НЕ из ЯК, под "тематикой" понимаем как логическую близость соответствующих разделов\подразделов из ЯК(на глаз выбираем к чему сайт МОГ бы относиться) так и сематническую близость страниц (по пересечению в одном сегменте индекса по большому числу слов в т.ч. title).

Dryoma
На сайте с 24.12.2007
Offline
12
#66
wolf:
Даже во времена Миныча совсем необязательно было знать IDF. :) Достаточно было просто манипулировать этим параметром с помощью чудесного оператора ::, который сейчас, увы, не столь чудесен.

Чтобы провести его эксперименты действительно не надо было знать настоящий IDF (кста, тут есть какая-то непонятка, связанная с тем, что IDFом называют не обратную частоту вхождений в коллекцию, а логарифм этой величины. Имхо было бы логично IDFом называть то, что вбивалось через :: (насколько я поинмаю, это и было что-то вроде обратной частоты вхождений), а weight=Ln(IDF) назвать весом и тогда старая ф-ла имела бы вид TF*weight) слов.

Формулу TF*IDF предложили в этой теме для того чтобы оценивать насколько страница про данное слово. В этом случае достаточно знать IDF существующих слов.

Information Retrieval это не функциональный анализ, не дифгеометрия и не квантовая теория поля. Чтобы сделать открытие в IR не надо 20 лет учиться, можно просто поменять пару коэффициентов или функций и посмотреть насколько поиск станет более или менее релевантным, более того, это достижение трудно будет назвать открытием (или революцией:D). Так что тот факт, что по сравнению c Ln значительно уменьшился вес частотных слов мне не кажется неправдоподобным.

A0
На сайте с 29.10.2006
Offline
114
#67
sokol_jack:
В последнее время идут бурные обсуждения - ТИЦ это таки тематический индекс или нет? А влияет ли тематика на что-то? А на что? :)

...
- Яндекс оценивает тематичность по "совпадению" основных текстовых составляющих страниц на
...

Мне кажется, вы сразу пытаетесь исследовать два вопроса:

-влияет ли тематика на ТИЦ?

-что такое тематика?

Вероятно, лучше сразу вопрос для исследования сформулировать так: "Влияет ни текстовая составляющая страниц [донора и акцептора] на ТИЦ?" Ну или еще как-нибудь, как вам больше нравится.

Что касается определения тематики, то рекомендую посмотреть этот документ:

Маслов М. Ю., Пяллинг А.А., Трифонов С.И. "Автоматическая классификация веб-сайтов".

В частности:

В связи с этим возникла потребность в создании
достаточно простого и устойчивого алгоритма,
способного классифицировать большие объемы
данных по большому числу тем. В результате был
построен классификатор байесовского типа,
который и описан в этой статье.
При построении классификатора использовались
следующие идеи:
1. Классификация строится по каждой теме
независимо друг от друга.
2. Тему документа можно определить по
списку встреченных слов (bag of words).
3. Для каждой темы есть слова, характерные
для темы, и слова, которые в теме не
встречаются.
4. Множество характерных для темы слов
можно разбить на 2 части:
a. Характеристические слова – множество
слов, без которых невозможно раскрыть
тему. Если в документе нет ни одного
слова из этого множества, то документ к
теме не относится.
b. Остальные слова, характерные для темы.
Мы не можем определить только по
наличию или отсутствию этих слов в
документе, в теме документ или нет.
5. Кроме характерных слов, классификатор
существенно использует слова,
нехарактерные для темы.

Если вы будете исследовать как Яндекс определяет тематику, то надо еще посмотреть не учитываются ли при этом ссылки.

wolf
На сайте с 13.03.2001
Offline
1183
#68
Dryoma:
Чтобы провести его эксперименты действительно не надо было знать настоящий IDF (кста, тут есть какая-то непонятка, связанная с тем, что IDFом называют не обратную частоту вхождений в коллекцию, а логарифм этой величины. Имхо было бы логично IDFом называть то, что вбивалось через :: (насколько я поинмаю, это и было что-то вроде обратной частоты вхождений), а weight=Ln(IDF) назвать весом и тогда старая ф-ла имела бы вид TF*weight) слов.

Вообще-то, в случае текстовой релевантности там был корень квадратный из логарифма от IDF. А может, от ICF ;)

А в классике idf потому и пишется маленькими буквами, чтоб обозначить, что это есть некая функция от IDF (или ICF, или еще чего там). Так же и tf есть некая функция от TF.

murvuz
На сайте с 14.06.2007
Offline
191
#69

Даааа, ребята. Моя твоя не понимать.

Я надеюсь выкладки из эксперимента будут делаться на человеческом языке ;)

" А не спеть ли нам песню? О любвииии..."
Posting_i_PIAR
На сайте с 03.02.2008
Offline
213
#70
murvuz:
Даааа, ребята. Моя твоя не понимать.
Я надеюсь выкладки из эксперимента будут делаться на человеческом языке ;)

:)))... Поисковых роботов писали программисты, а понять программный код может только программист, и то не каждый.

Моё субъективное мнение по поводу передачи ТИЦа в том, что тематичность ссылки определяется процентным вхождение тематичных слов в контент страницы, складывается оно лишь потому, что я в своё время сталкивался с проблемой обработать большую базу сайтов, с целью разделить их по тематикам. Для этого было решено заказать написание скрипта.

Смысл работы скрипта:

1) для каждой тематики определяется список тематичных слов. Понятное дело, что появляются проблемы со словами одного написания, которые могут иметь различное значение. Но на то и наш великий могучий русский язык, что не всё так просто.

2) С каждого сайта из базы парситься контент. В контенте ищутся все слова из списка слов для тематик.

3) После того, как слово найдено в контенте страницы сайта из базы, тематике, из которой это слово, даются очки. Размер очков за совпадение(найденное слово в контенте) зависит от тегов, в которых находиться данный контент. За найденные тематические слова в тегах <title> <h1> дается больше очков чем за тематические слова в тегах <h2>, <strong> и т.д .

4) Сайт анализируется по каждой тематике, по каждому слову в каждой тематике. В результате тематика, набравшая по данному сайту больше всего очков, присваивается данному сайту.

Итак скрипт был написан. Работал он примерно так, как я расписал. Правда был даже более простым:). Но разве не всё гениальное просто???🚬

Не скажу, что программисты Яндекса имели аналогичную логику, однако мне как заказчику скрипта было необходимо оценить качество работы.

Так вот после разбиения базы сайтов по тематикам, качество разбиение было хорошим. То есть большиство сайтов отнесенное в тематику авто, действительно оказалось автосайтами. ☝ . То есть я ручками проходился по разделенной базе и убеждался, что скрипт действительно работает.

Высказал только своё мнение. Прошу не пинать, если что не так:)........

Услуги по Яндекс Директ ( https://smo-i-seo.ru/zakazat-nastroyku-yandeks-direkt ) | Настройка и ведение таргетированной рекламы VK (https://smo-i-seo.ru/nastrojka-i-vedeniu-targetirovannoj-reklamy-vkontakte) | Услуги копирайтинга ( https://smo-i-seo.ru/uslugi-kopirajtinga )

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий