HUMMER

Рейтинг
11
Регистрация
23.07.2005
Cude:
Всех безусловно интересует, может ли Яндекс определить тематику страницы. Все бы хорошо, но что есть тематика? Что обозначает этот термин?

Я тут как-то уже задавался этим вопросом на что мне ответили что это философия и все такое. Тогда получается, что все разговоры о возможности определения тематики пустая трата времени.

http://www.yandex.ru/yandsearch?text=%EE%E6%E5%E3%EE%E2+%F2%E5%EC%E0%F2%E8%EA%E0&stype=www

http://slovari.yandex.ru/search.xml?text=%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D0%BA%D0%B0

Wade:
Вот тут поднимались темы о том, что до анализаторов контента пока далеко, а между тем, по моим данным, без него не была бы возможна технология Google Ad Sense, к тому же, есть явные указания на то, что для Гугла важна *тематичность* ссылки, причем Гугл рассчитывает тематичность не по близости в своей Google dir, а именно за счет анализатора контента, и, если обнаружена степень схожести тематик чуть выше пороговой, то ссылка отдает куда больше (есть мнение, что если ссылка тематическая, то отдается и ПР и vote, а если нет - то только vote (не знаю перевод термина на русский, если кто знает - подскажите)).

Насколько мне известно, у Я нет подобной технологии (или она находится в разработке), одно из самых ярких подтверждений этому, как я считаю - текущая значимость ссылок с раскрученных сайтов.

откуда такие сведения?

у яндекса есть технологии автоматического определения тематики документа и сайта в целом

Идут математик физик и философ по пустыне.

На холме боком к ним стоит чёрная овца.

Философ: В Австралии есть черные овцы!

Физик: Нет, в Австралии есть как минимум одна чёрная овца.

Математик: Нет, в Австралии есть как минимум одна овца, и как минимум с одной стороны она чёрная.

Относительно затронутого вопроса – страница сайта имеет гораздо больше характеристик, чем морда и неморда, поэтому на заданный вопрос нельзя однозначно ответить.

Вообще же гонка за мордами, как правило, является следствием не учета остальных (иногда более важных характеристик) и общего непонимания принципов продвижения.

скушает

а потом склеит

а будет много, забанит

MVH:
# Размер базы

речь идет не о базе сайта, а о базе яндекса ("глобальная для всех коллекций статистика слов")

MVH:
Вот это интересно, но как я понял, никто точно не знает (или знает и молчит )...

знает, причем очень точно сам яндекс

и, кстати, он не молчит

alexosv:
В-третьию, Яндекс вовсю пытается начать определять тематику сайта или страницы. Для этого они хотят составлять тематические словари. Если процент слов с сайта из такого словаря превысит определенный порог - страница или сайт считаются более релевантными по поисковому запросу из данной тематической группы.

Яндекс давно имеет эти словари

а первоисточники прочитать влом?

Если слово из основного текста документа не расценено как спам и есть в "keywords" среди первых 50, то вес этого слова в запросе повышается...

Или самому эксперимент сделать – найти сайт с длиннющим метакивордом и задать запрос #keywords=(слово)

2

совпадение важно в тексте. в метакиворде важен факт наличия

поэтому можно, а возможно нужно

карта улиц города москва

тут дело не в парсинге. я как то при подобной задаче парсил по 60 гиг в сутки. и то парсилка была просто детской а мощности при желании наращивались на порядок за пару дней.

более важно правильно сформировать базу парсинга и грамотно интерпритировать результаты.

а насчет обойдемся без яндекса :)

так ведь речь идет действительно о "Русском PR" для Яндекса

и в любом случае парсить выдачу яндекса придется чтобы синхронизировать базу обсчета

Ceres:
Насчет шкуры соглашусь, так и знал что ты это напишешь :) А с другой стороны - это же бизнес - вкладывать лаве надо. Можно уже по другому сказать - небольшой бизнес-план, просчет и т.д.
Насчет водки не согласен. Если ввести такой сервис - с оптимизацией вообще завязать можно. Сами подумайте - PR у нас как часто смотрят, в надежде хоть что-то увидеть. А толку-то? А вот если будет возможность видеть "Русский PR" - пусть за деньги - желающих будем масса, и негативных последствий от того, что оптимизаторы будут смотреть его на интересующих их сайтах не будет. Ведь реальный PR видят все буржуи, и он от этого не кончается ;)

в том то и дело что пр доступен всем, а Yпр :) будет доступен только участникам проекта (вернее тому кто это первый сделает)

имеющие более-менее достоверные данные будут участвовать в марафонском забеге на феррари, при этом большая половина и так бежит на костылях :)

поэтому сравнение с пропитием денег от продажи водки вполне адекватно

какие преимущества будут у хмл запросов?

почему бы просто не выкачать обычными запросами? будет гораздо дешевле и можно будет делать это регулярно.

я как раз собирался выкачать из яндекса несколько другую, но сопоставимую по размеру базу, жду пока устаканится ситуация. можно будет сразу и ссылочную заодно выкачать.

правда с первых расчетов толку будет мало, кроме средней температуры, но путем некоторых экспериментов и последовательных уточнений можно будет добиться вполне достоверных результатов.

п.с. а оптимизаторы начинают мыслить масштабно – это не может не радовать

Всего: 127