toolbarqueries.google.com/search?client=navclient-auto&ch=<тут чексум>&ie=UTF-8&oe=UTF-8&features=Rank:FVN&q=info:<тут url> :)
Вы правильно поняли. У меня не магазин, но суть та же. Дело в том, что краулеры не сразу находят страницы, если они должны пройти до n-й страницы при многостраничном просмотре товаров. Это лечится хорошей навигацией или картой сайта.
Моё мнение, что надо делать сайпмапы с новыми страницами (ещё один тип карт сайта), в которых будут только новые, которые хотите проиндексировать.
Сам гугл советует их убирать из карты после индексации и использовать другой тип (см.выше), которым сообщать только о новых или изменённых страницах.
Не вижу смысла писать своего поискового бота. Всё, что он найдёт, гугл найдёт тоже.
Человек ведь сам знает свой сайт и его структуру, поэтому может написать скрипт, который просто расскажет какие адреса есть на сайте. Если это статьи, то все адреса у них будут вроде "article/about-beach-girls.html", причём "about-beach-girls" - это ключ в базе, который вытащить оч. просто. В данном случае статьи - это один тип страниц, новости ("news-01.html") - это второй тип и тд (отвечая на Ваш первый вопрос).
Я говорю именно о таком скрипте, зачем городить огороды?
При этом, если ведёте статистику просмотров каждой страницы, то и её достаточно просто вытащить из базы, отсортировать и проставить приоритеты в зависимости от посещаемости, от типа статьи, ключевых слов или фантазии автора.
Статистика может быть разной, хоть по продажам (или переходам из поисковиков, кому как нравится).
Но я не заметил влияния приоритетов на индексацию. Гугл просто брал всё.
Даже волка. :) И зайца. :)
Если серьёзно, то можно написать скрипт, который будет распознавать простенькие цифры и буквы, но без наворотов. Если капча будет разными цветами, размером, наклоном, то всё, пиши пропало.
А распознавание образов (волки и зайцы) - это нейронные сети. Такой задачей занимается одна знакомая кафедра, долго уже занимается (для видео).
Могу дать контакты. Может, напишут. Не от 500.
UAWEB, я имел в виду тот, что написал для себя. Поправка, там нет заброса на FTP (перепутал с froogle).
Могу кинуть Вам свой как отправную точку, если хотите. Для начала нормально будет, потом допишете что надо.
stealthy, это зависит не от количества страниц, а от количества типов страниц. Если страницы с товаром, урлы для которых генерятся по одному принципу, то всё быстро напишется.
А вот если какой-то заумный принцип расстановки приоритетов, тогда сложно сказать, в зависимости от заумности.
Этот скрипт пишется за полчаса, столько же уйдёт времени на разбор приведённого Вами.
Всё равно под каждый сайт надо своё писать, только сам алгоритм закидывания на FTP общий будет (3-4 строки).
Вы поакуратнее со спортивным интересом :) Я как-то начал с простого соединения к pop3, а закончилось почтовым клиентом из-за простого вопроса "а сможешь получить мне почту?".
Короче, времени на это можно убить много.
В спам-технологии правильно копаете. Где-то видел обсуждения, как распознать цифры на картинке. Может, и скрипты уже выполняют.
Под linux есть текстовый браузер links, он умеет выполнять javascript - http://links.twibright.com/features.php
Если покопать исходники, то может, и выцепите модуль для этого.
Это значит, что у него несколько IP-адресов - http://getip.ru/ru/counter.yadro.ru/ и DNS вернул один из них. :)
Artad, если надо отдельно под почту - то регьтесь в гугле, 2 гига на домен вроде.
Но там пользователей вручную надо добавлять (через панель) и логины в виде user@site.ru.
Всё бесплатно, от Вас нужно внести MX-записи в ДНС.
Доступ к почте через интерфейс гуглмайла или pop3s/smtp.
Вот я создавал тему не так давно - /ru/forum/102954
Вот именно. :) Если одним запросом не сделать - тогда уж проще достать данные и закинуть их.
Если запросов много получится - то одной транзакцией (Если innodb). И все дела. :)
Насколько помню, для этого SELECT должен возвращать одно поле, это как раз Ваш случай.
У ТС полей несколько, в этом случае не выйдет.
Правда, может в 5.1 по-другому всё.