bearman, идея абсолютно ясна, "дальше сам" - могу, чай инженер-математик. Пользовать хеши я в любом случае собирался, правда в привязке к файлам, чтобы:
1.не хранить адских имен файлов (ваше url = varchar(1000)) ;)
2.немножко обезопаситься от всякого рода инъекций и т.п. - чем делать кастрацию инъекций - проще сделать 1 раз md5 и не париться - время выполнения будет такое же
Но вот все равно, не лежит у меня душа к БД... что-то мне подсказывает что деревья - лучше будут. Может быть есть красивые решения хранения деревьев в БД?
Слава Шевцов, спасибо, буду курить. С первого взгляда - немного не то, (позволит ли хостер/нужно отдельный сервак, насколько быстро/медленно работает библиотека в рhp/perl/java/т.д.). Кроме того, это именно кеш (пользуем Ram серванта) - т.е. отдача наиболее часто требуемых данных, а я об этом собираюсь думать далее. Сейчас в приоритетах - именно структура хранения данных. Самое главное что мне понравилось в том что нашел про memcached - это то, что она сама по себе является некоей хеш-таблицей. Чувствую, надо хорошенько разобраться как она это делает. Спасибо за наводку!
Респектищще! Добавил в закладки!
Давно думал про подобное, но мои мысли не забредали в сторону получения и распознавания картинок. 😂 Все больше в сторону парсинга думал.
Кстати, а для сайтов которые с галкой "не участвовать в рейтинге" картинку получить можно?
Если да - аплодирую!
И еще, Вы сервис развивать собираетесь?
ali13, не приведи господи если у Вас дальше все пойдет по моему сценарию =) вот как приклеит все ваши мазды-ауди к сайту про холодильники. вот это будет ахтунг.
Вообще, мне кажется что ввиду массовости (?) косяков с зеркальщиком ситуация известна работникам Я. будем ждать исправлений.
Зеркальщик просто с ума сошел. Ситуация:
3 сайта - zzz.ru, xxx.ru, и поддомен второго ccc.xxx.ru
все на одном хостинге.
Так вот, все три были проиндексированы как три разных сайта.
В районе 9 мая страницы xxx.ru и ccc.xxx.ru были свалены в одну кучу.
Ну там хоть тематика была похожая.
10 мая ccc.xxx.ru пропал из индекса, я попытался добавить его в адурелку и получил:
Сайты ccc.xxx.ru и zzz.ru ничего общего кроме хостинга не имеют.
Вот уж действительно, торжество высоких технологий зеркалирования!
SPORT-OK.RU КУ22 246$
Nomerkov, 1545$, КУ62
Выводы по поводу борьбы с плагиатом неправильные.
Тег нужен для другого. К примеру я на одном из сайтов уже воспользовался новым тегом - страницы "для печати" прикрыл. Дело в том что они маленькие, необремененные излишествами всякими - их гугль уважает больше обычных. Они и в индекс раньше обычных попадают. Не нравилось мне это... ждать приходилось пока поисковик исправится... Что теперь будет - посмотрим.
Динозавром себя не считаю. =)
Может дело в том, что никогда не было необходимости гуглевской адурелкой пользоваться. Этот поисковик всегда только ссылками прикармливал. =)
Результат (вот прямо из последнего) - 2 дня и первые порции страниц сайта в индексе. Это не Яндекс, которого тыкай - не тыкай, а появления бота можно ждать месяцами.
в том что ее раньше не было.
Извиняюсь, катастрофически отстал от жизни =)
аддурлить гуглю? адрес адурелки в студию! 😂
А вот ссылок понаставить действительно можно.
В то что гугль берет запросы из контента и подставляет их в формы поиска - я по-прежнему как-то не верю... Что он может таким образом для себя нового найти?
Разубедите меня кто-нибудь!