Еще вариант придумал от балды. Берете логи сервера и выделяете оттуда ipы. Усекаете ipы до доны Ц или Б(11.22.33.44->11.22.33), агрерируете запроcом наподобии:
select ip_c,count(*) from ips group by ip_c. Получаете самые популярные сегменты сети с которых реальные юзеры ходят на сайт. Ищите в сети актуальный список адресов гуглоботов и удаляете эти адреса из своей выборки. А потом скриптом анализируете и показываете попап только юзерам из полученного списка.
Если поступит жалоба юзера(конкурента) в гугл, то сайту не жить при любом клоакинге.
Ваш попап скорей всего рассчитан на русский, украиснкий трафик, поэтому можно сделать так.
Смотрите скрипт который вызывается для открытия попапа, если он не внешним файлом сделан, то упаковываете во внешний файл. Ставите себе симпл тдс, в ней настраиваете по геозоне для ру и уа ссылкой перехода - ваш скрипт, а всем прочим(и буржуйским ботам) скрипт с пустым или безопастным содержимым. Меняете в шаблоне: ссылку на скрипт -> ссылку на тдс. Получается, что тдска по зонам покажет либо скрипт попапа, либо пустой(безопастный) скрипт.
Плюс в тдску дописать банальный анализ реферера на наличие googlebot.
еще мысли?
а на 3й странице вордстата сидит черный черный ключ, все кто его себе в дорген вставит - всех покарает красная волчанка и антитоп
параноя это все, такой бАльшой, а в сказки верите), и тут речь не о дорах, тут сдл, если его забанили то его не стыдно и Платону написать.
на СДЛах коммерческой тематики копирайтеры выделяют ключи, опять мимо
Думаем дельше. как все-таки определить в какую тематику поместить статьи. Мой дру и товарищь предложил сделать так: по каждой категории нужно собрать словарь и статью прогонять по каждому словарю. В каком попаданий больше - в ту категорию и относим. Пока все очень туманно но принцип ясен.
А тут можно попробовать воспользоваться принципом гугла. Если входящих ссылок на статью много в яхе, то статья походу мега полезная людям.(или срумер поработал )))
как ни крути без вордстата не обойтись, ведь мы делаем не СДМ - сайт для меня, где ключи будут вида "как я кастрировал золотую рыбку", а нужны поисковые, используемые людьми запросы, значит без ключей никак не обойтись в этом нелегком деле ) а дальше дело техники ) парсим, анализируем, фильтруем, добавляем.
самый сложный вопрос - это определение тематики, кто что подскажет об этом?
главный ключ - это тема сайта, разделы - это СЧ, материалы - НЧ. парситься из вордстата и потом парсятся материалы сайтов по ключам + список стоп слов, в котором будет и "скачать"
смутно хочем чего знаем )
мысль здравая, может парсить контент из нигмы не включая яндекс в поиск?
http://nigma.ru/index.php?s=%D1%80%D0%B0%D0%B7%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5+%D0%B0%D0%BA%D0%B2%D0%B0%D1%80%D0%B8%D1%83%D0%BC%D0%BD%D1%8B%D1%85+%D1%80%D1%8B%D0%B1%D0%BE%D0%BA&t=web&rg=t%3D%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0_c%3D%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F_&rg_view=%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B5&gl=1&rm=1&ms=1&yh=1&av=1&ap=1&nm=1&lang=all&srt=0&fs=autocomplete&sf=1
TopperHarley добавил 27.05.2010 в 15:30
задача конечно не простая. тут еще есть такой момент как отсеивание неуник статей в своей же базе ))
в общем пипец задачка, ну ее на* ))