- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Кстати, я когда писал похожего бота, то реализовал следующий алгоритм.
1. Заметил, что слабое место это количество потоков на одном сервере. и количество контента, которое получается скачать с интерната.
Также у меня был десяток хостингов.
На хостинги я залил специальный файл.
Потом формировал файл задач, например надо найти информацию про 1000 урлов.
Отправлял по 100 урлов на сервер, на каждом сервере запускалось по 10 потоков, то есть каждый поток искал всего 1/100 от общей задачи.
Потом возвращал информацию в виде:
урл и список внешних ссылок со страницы.
Это раз.
И два.
Я искал в яндексе список до 1000 страниц, которые индексирует яндекс.
Если сайт индексируется плохо, то соответсвено я анализировал все что в индексе.
Такой подход позволяет просканировать важные(по мнению яндекса) страницы сайта. А заодно приблизить результаты к тому что хочет увидеть много оптимизаторов. Минусы - неизвестен уровень вложенности страниц.
Имея под рукой 100 активированных аккаунтов с яндекс-хмл можно сделать 100 000 запросов к яндексу, то есть найти список проиндексированных страниц более 1000 сайтов.
1. предложенный вами метод тоже имеет право на жизнь
2. насколько можно понять, вы хотите (или предлагаете) приблизить базу индексируемых URLов к базе яндекса. вопрос: а) для 1000 сайтов - ок. а для 1 млн? б) зачем?
вопросы а и б, как вы понимаете, риторические...
Dweep, solomono решили сделать свой яндекс с блекджеком и ... ну Вы поняли.
Так что этих проблем у них нет)
Большие сайты остаются в пролете.
Dweep, solomono решили сделать свой яндекс с блекджеком и ... ну Вы поняли.
Так что этих проблем у них нет)
Большие сайты остаются в пролете.
Єто как дополнение к прямой индексации сайта.
Большие сайты в любом случае будут в пролете, так как 100к страниц одного сайта мало кто додумается регулярно переиндексировать.
Dweep добавил 29.11.2011 в 15:24
1. предложенный вами метод тоже имеет право на жизнь
2. насколько можно понять, вы хотите (или предлагаете) приблизить базу индексируемых URLов к базе яндекса. вопрос: а) для 1000 сайтов - ок. а для 1 млн? б) зачем?
вопросы а и б, как вы понимаете, риторические...
Ну если у вас нет проблем с пропускной способностью канала и с загруженностью процессора при парсинге контента страницы - то естественно незачем.
б. ) Потому что что можно в свою базу загнать миллиард страниц, и гордится тем что база больше чем у яндекса, только всем будет на этот подвиг наплевать, так как клиентов в основном интересует именно те страниц, которые индексирует яндекс, а не все подряд.
Єто как дополнение к прямой индексации сайта.
Большие сайты в любом случае будут в пролете, так как 100к страниц одного сайта мало кто додумается регулярно переиндексировать.
Dweep добавил 29.11.2011 в 15:24
Ну если у вас нет проблем с пропускной способностью канала и с загруженностью процессора при парсинге контента страницы - то естественно незачем.
б. ) Потому что что можно в свою базу загнать миллиард страниц, и гордится тем что база больше чем у яндекса, только всем будет на этот подвиг наплевать, так как клиентов в основном интересует именно те страниц, которые индексирует яндекс, а не все подряд.
К сожалению, в пункте б) вы не совсем точны в каждом из 6 утверждений. В любом случае, ваше предложение хорошое.
Тогда Яша сам купит solomono, ну хотя бы чтоб на это посмотреть )
В любом случае solomono молодцы, удачи вам ребята) А на форуме сидеть - не мешки ворочать.
А от чего это Соломоно не показывает ссылки на мой сайт. хотя таких и в сапе закуплено больше 100 и статьи были, да и в ручную размещал. Абыдно да ?
А от чего это Соломоно не показывает ссылки на мой сайт. хотя таких и в сапе закуплено больше 100 и статьи были, да и в ручную размещал. Абыдно да ?
Если ссылки есть, они будут показаны, раньше или позже. Другого не дано.
Что-то уже несколько дней все пишет, что сервер перегружен и перегружен.
Чем постоянно перегружен сервер? Посетителями? Не верю.
Посетителями?
ботами :)
10 парсеров