Solomono - все ссылки на сайты конкурентов

Solomono
На сайте с 22.02.2010
Offline
51
#251
Dweep:
Кстати, я когда писал похожего бота, то реализовал следующий алгоритм.
1. Заметил, что слабое место это количество потоков на одном сервере. и количество контента, которое получается скачать с интерната.
Также у меня был десяток хостингов.
На хостинги я залил специальный файл.

Потом формировал файл задач, например надо найти информацию про 1000 урлов.
Отправлял по 100 урлов на сервер, на каждом сервере запускалось по 10 потоков, то есть каждый поток искал всего 1/100 от общей задачи.
Потом возвращал информацию в виде:
урл и список внешних ссылок со страницы.


Это раз.
И два.
Я искал в яндексе список до 1000 страниц, которые индексирует яндекс.
Если сайт индексируется плохо, то соответсвено я анализировал все что в индексе.
Такой подход позволяет просканировать важные(по мнению яндекса) страницы сайта. А заодно приблизить результаты к тому что хочет увидеть много оптимизаторов. Минусы - неизвестен уровень вложенности страниц.

Имея под рукой 100 активированных аккаунтов с яндекс-хмл можно сделать 100 000 запросов к яндексу, то есть найти список проиндексированных страниц более 1000 сайтов.

1. предложенный вами метод тоже имеет право на жизнь

2. насколько можно понять, вы хотите (или предлагаете) приблизить базу индексируемых URLов к базе яндекса. вопрос: а) для 1000 сайтов - ок. а для 1 млн? б) зачем?

вопросы а и б, как вы понимаете, риторические...

Белый Ум
На сайте с 27.04.2009
Offline
251
#252

Dweep, solomono решили сделать свой яндекс с блекджеком и ... ну Вы поняли.

Так что этих проблем у них нет)

Имея под рукой 100 активированных аккаунтов с яндекс-хмл можно сделать 100 000 запросов к яндексу, то есть найти список проиндексированных страниц более 1000 сайтов.

Большие сайты остаются в пролете.

Skype: shum_beliy
Dweep
На сайте с 11.12.2006
Offline
207
#253
Белый Ум:
Dweep, solomono решили сделать свой яндекс с блекджеком и ... ну Вы поняли.
Так что этих проблем у них нет)


Большие сайты остаются в пролете.

Єто как дополнение к прямой индексации сайта.

Большие сайты в любом случае будут в пролете, так как 100к страниц одного сайта мало кто додумается регулярно переиндексировать.

Dweep добавил 29.11.2011 в 15:24

Solomono:
1. предложенный вами метод тоже имеет право на жизнь
2. насколько можно понять, вы хотите (или предлагаете) приблизить базу индексируемых URLов к базе яндекса. вопрос: а) для 1000 сайтов - ок. а для 1 млн? б) зачем?

вопросы а и б, как вы понимаете, риторические...

Ну если у вас нет проблем с пропускной способностью канала и с загруженностью процессора при парсинге контента страницы - то естественно незачем.

б. ) Потому что что можно в свою базу загнать миллиард страниц, и гордится тем что база больше чем у яндекса, только всем будет на этот подвиг наплевать, так как клиентов в основном интересует именно те страниц, которые индексирует яндекс, а не все подряд.

Solomono
На сайте с 22.02.2010
Offline
51
#254
Dweep:
Єто как дополнение к прямой индексации сайта.
Большие сайты в любом случае будут в пролете, так как 100к страниц одного сайта мало кто додумается регулярно переиндексировать.

Dweep добавил 29.11.2011 в 15:24


Ну если у вас нет проблем с пропускной способностью канала и с загруженностью процессора при парсинге контента страницы - то естественно незачем.

б. ) Потому что что можно в свою базу загнать миллиард страниц, и гордится тем что база больше чем у яндекса, только всем будет на этот подвиг наплевать, так как клиентов в основном интересует именно те страниц, которые индексирует яндекс, а не все подряд.

К сожалению, в пункте б) вы не совсем точны в каждом из 6 утверждений. В любом случае, ваше предложение хорошое.

Белый Ум
На сайте с 27.04.2009
Offline
251
#255
б. ) Потому что что можно в свою базу загнать миллиард страниц, и гордится тем что база больше чем у яндекса, только всем будет на этот подвиг наплевать, так как клиентов в основном интересует именно те страниц, которые индексирует яндекс, а не все подряд.

Тогда Яша сам купит solomono, ну хотя бы чтоб на это посмотреть )

В любом случае solomono молодцы, удачи вам ребята) А на форуме сидеть - не мешки ворочать.

S
На сайте с 22.04.2011
Offline
118
#256

А от чего это Соломоно не показывает ссылки на мой сайт. хотя таких и в сапе закуплено больше 100 и статьи были, да и в ручную размещал. Абыдно да ?

Что-то понимаю в новостниках ;)
Solomono
На сайте с 22.02.2010
Offline
51
#257
shvedoff:
А от чего это Соломоно не показывает ссылки на мой сайт. хотя таких и в сапе закуплено больше 100 и статьи были, да и в ручную размещал. Абыдно да ?

Если ссылки есть, они будут показаны, раньше или позже. Другого не дано.

Dreammaker
На сайте с 20.04.2006
Offline
569
#258

Что-то уже несколько дней все пишет, что сервер перегружен и перегружен.

anser06
На сайте с 11.03.2006
Offline
292
#259

Чем постоянно перегружен сервер? Посетителями? Не верю.

[Удален]
#260
anser06:
Посетителями?

ботами :)

10 парсеров

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий