http://www.yandex.ru/yandsearch?text=%EE%E6%E5%E3%EE%E2+%F2%E5%EC%E0%F2%E8%EA%E0&stype=www
http://slovari.yandex.ru/search.xml?text=%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D0%BA%D0%B0
откуда такие сведения?
у яндекса есть технологии автоматического определения тематики документа и сайта в целом
Идут математик физик и философ по пустыне.
На холме боком к ним стоит чёрная овца.
Философ: В Австралии есть черные овцы!
Физик: Нет, в Австралии есть как минимум одна чёрная овца.
Математик: Нет, в Австралии есть как минимум одна овца, и как минимум с одной стороны она чёрная.
Относительно затронутого вопроса – страница сайта имеет гораздо больше характеристик, чем морда и неморда, поэтому на заданный вопрос нельзя однозначно ответить.
Вообще же гонка за мордами, как правило, является следствием не учета остальных (иногда более важных характеристик) и общего непонимания принципов продвижения.
скушает
а потом склеит
а будет много, забанит
речь идет не о базе сайта, а о базе яндекса ("глобальная для всех коллекций статистика слов")
знает, причем очень точно сам яндекс
и, кстати, он не молчит
Яндекс давно имеет эти словари
а первоисточники прочитать влом?
Или самому эксперимент сделать – найти сайт с длиннющим метакивордом и задать запрос #keywords=(слово)
2
совпадение важно в тексте. в метакиворде важен факт наличия
поэтому можно, а возможно нужно
карта улиц города москва
тут дело не в парсинге. я как то при подобной задаче парсил по 60 гиг в сутки. и то парсилка была просто детской а мощности при желании наращивались на порядок за пару дней.
более важно правильно сформировать базу парсинга и грамотно интерпритировать результаты.
а насчет обойдемся без яндекса :)
так ведь речь идет действительно о "Русском PR" для Яндекса
и в любом случае парсить выдачу яндекса придется чтобы синхронизировать базу обсчета
в том то и дело что пр доступен всем, а Yпр :) будет доступен только участникам проекта (вернее тому кто это первый сделает)
имеющие более-менее достоверные данные будут участвовать в марафонском забеге на феррари, при этом большая половина и так бежит на костылях :)
поэтому сравнение с пропитием денег от продажи водки вполне адекватно
какие преимущества будут у хмл запросов?
почему бы просто не выкачать обычными запросами? будет гораздо дешевле и можно будет делать это регулярно.
я как раз собирался выкачать из яндекса несколько другую, но сопоставимую по размеру базу, жду пока устаканится ситуация. можно будет сразу и ссылочную заодно выкачать.
правда с первых расчетов толку будет мало, кроме средней температуры, но путем некоторых экспериментов и последовательных уточнений можно будет добиться вполне достоверных результатов.
п.с. а оптимизаторы начинают мыслить масштабно – это не может не радовать