- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
хотя что то я зашео в тупик ..получаеться между потоками нужно организовать очереди тоесть создать для каждого потока пул откуда он будет брать данные для дальнейшей работы ...никто не подскажет по оптимальной организации очередей?
По-моему совсем некритично это. Вариантов много как реализовать. Сделайте например mysql-таблицу, и в неё складывайте документы, у каждого - флажок, взят ли каким-то из потоков-парсеров на индексацию, обработан ли.
Наверняка лучше всего, чтобы индексатор индексировал сразу несколько потоков. Можно, конечно, организовать хранение распарсенных страниц в виде разделяемого ресурса (если все верно организовано, небольшой буфер разделяемой оперативки переполняться не должен), можно - в виде тех же таблиц mysql... все дело в фантазии, разве нет?
ок сенки всем кто помогает буду фантазировать..хотя вариант с хранением данных в табличках БД легче реализовать но я предполагаю что в таком варианте будет реальная нагрузка на дисковую подсистему+не возникает в таких случаях ситуации наложения тоесть пока поток ставит флаг в таблице что запись перешла на индексирование другой поток успеет ее схватить тоже ? (В общем спасибо буду мыслить))
kasperlet, Вы случайно не Нигму переписываете?
а что такое Нигма ???
так ну вроде бегать по страничкам вытаскивая из них урлы у меня получилось может кто подскажет оптимальную структуру бд для хранения индексированных данных
Нигма: http://www.nigma.ru/ - метапоисковик.
ок сенки всем кто помогает буду фантазировать..хотя вариант с хранением данных в табличках БД легче реализовать но я предполагаю что в таком варианте будет реальная нагрузка на дисковую подсистему+не возникает в таких случаях ситуации наложения тоесть пока поток ставит флаг в таблице что запись перешла на индексирование другой поток успеет ее схватить тоже ? (В общем спасибо буду мыслить))
Нагрузки не возникнет на диск, т. к. если между считыванием страницы качальщиком и началом обработки индексатором времени не много пройдет - она в кеше с большой вероятностью останется.
Наложения тоже не будет. Как раз за счет использования mysql эта проблема сама по себе решится.
kasperlet, Уж сколько копий здесь сломано. В конечном счете каждый строит либо гебридную БД, либо что-то совсем свое. Читайте маны, станете рутом. Есть, кстати, в этом разделе тред про подбор СУБД. Читайте. Очень полезный тред. Ваш покорный слуга (или покорная?) в свое время его и начинала...