комментарии уберу....
что касаеться нечего оценивать потоомучто использую шаблон ..тут по мимо шаблонного дизайна есть еще и юзабельность ...читабельность...и еще что нить что мне пока не известно
..на счет домена это он пока 4-го уровня через месяц дадут домен arkanar.kiev.ua... это уже по приятней..)
ну а всем высказавшим свое мнение огромное спасибо)))
хм ..странно тогда ... я проверил в поисковике(яндекс) свой сайт а там просто заголовок сайта и все ... и никакого описания хотя все meta теги на странице есть.....такое ощущение что он просто не прошолся по ссылкам имеющимся на странице(ссылки имеют вид http://arkanar.ho.com.ua/index.php?id=1) и не проиндексировал динамическое содержимое страниц...Чем енто может быть вызвано?
сайтик http://arkanar.ho.com.ua если можно поделитесь плызз тогда линками на ресурсы где на ваш взгляд каталог сделан наиболее хорошо
сенки за помощь всем..) Нигму я не переписываю потому что от вас узнал о ее существовании)..пока реализовал механизм вытяжки и прохода по страницам для поиска урлов без участия БД..просто рекурсию тащу урлы и тут же их добавляю в массив по ссылкам которого бежит паук но алгорит еще оооочень сырой и не красивый...Про маны спасибо ..буду дальше читать)))
так ну вроде бегать по страничкам вытаскивая из них урлы у меня получилось может кто подскажет оптимальную структуру бд для хранения индексированных данных
а что такое Нигма ???
ок сенки всем кто помогает буду фантазировать..хотя вариант с хранением данных в табличках БД легче реализовать но я предполагаю что в таком варианте будет реальная нагрузка на дисковую подсистему+не возникает в таких случаях ситуации наложения тоесть пока поток ставит флаг в таблице что запись перешла на индексирование другой поток успеет ее схватить тоже ? (В общем спасибо буду мыслить))
хотя что то я зашео в тупик ..получаеться между потоками нужно организовать очереди тоесть создать для каждого потока пул откуда он будет брать данные для дальнейшей работы ...никто не подскажет по оптимальной организации очередей?
подскажите еще вот с таким ньансом (если с пауком впринципе все понятно то с парсингом страниц нет)
передача страницы на парсинг как в большинстве случаев осущ-тся? странички сливаються в какую нить директорию откуда их indexer подбирает и парсит на наличие ключевых слов и т.д или данные передаються indexer-у в поток для парсинга?
да еще вопрос паук тащит страничку в большинстве поисковиков методом HTTP
Get???