свой мини-поисковичок

12 3
response
На сайте с 01.12.2004
Offline
324
1911

Никто не думал на эту тему? Хранить исключительно урлы, плюс линки между ними (может еще контент морд, тайтлы, и пр. небольшую, но интересную инфу).

Я вот не знаю волшебных штучек, так что гугл просто забодал меня своими ограничениями на inurl, translate_t и прочее - никаких проксей не напасешься.

А так, через некоторое время имеем карту рунета с раскиданными, не скрываемыми поисковиком линками (вычленять, что же поисковик прячет, а что показывает), имеем неограниченные запросы к inurl, попутно можем заиметь базу мыл и асек, бугага ))

Интересует ваше мнение. Идея, согласен, отдает утопичностью, но я провел подсчеты - вполне реально неоднократно повторить индекс яндекса (в смысле проиндексить все страницы), или хотя бы какую-то, важную оптимизаторскому сообществу, его часть (вычисления не хитрые, могу выложить прикидки по объему данных, и времени индексации).

Основная проблема - ширина канала. Но она решаема, достаточно собрать тиму из 10-20 человек и устроить распределенные вычисления.

В теории возможно появление общественного проекта, которым смогут пользоваться все оптимизаторы, и который, возможно, повлияет на поведение яндекса )))))

Как думаете, оно того стоит, или это ночной приход? :)

зы

возможно надо было в ветку про сервисы постить, но как-то я привык сюда, перенесите плиз, если сочтете нужным. спасибо.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
Dmitry HT
На сайте с 31.03.2006
Offline
58
#1

Если такой сервис будет бесплатным, то его сначала ждет учесть Overture, а дальше еще хуже :)

Магазин аккаунтов (http://wmaid.com/index.php?s=acc)
ёгурт
На сайте с 24.10.2006
Offline
89
#2

а для дураков вот тоже самое можно? :))

а то, не могу понять, хочешь проиндексировать яндекс? или интернет...

Нас банят с улыбкой.
sun
На сайте с 22.10.2005
Offline
81
sun
#3

Да, идея нормальная поисковик для оптимизаторов, потом для дорвейщиков, а там доры-доры-доры :)

devmen.com (http://devmen.com/)
response
На сайте с 01.12.2004
Offline
324
#4

гм. да не поисковик для дорвейщиков или оптимизаторов, и не индексация яндекса )

индексация всего того, что проиндексировал яндекс (ну, конечно не сохраняя, либо сохраняя минимум контента).

На выходе имеем честные, без купюр, мапы бэклинков, и карты сайтов, чтобы впоследствии безпрепятственно, за минимальное время делать любое количество inurl в любом необходимом виде. Отчасти такой, эээ.. социальный контроль поисковиков )

Короче это я все к тому, что отделавшись от поисковика, и задаваемых им ограничений, получаем многое. Вопрос исключительно в том, как обеспечить приемлимые вычислительные мощности и грамотно ограничить кол-во индексируемых сайтов (урлов). И если скорость проца, грубо говоря, для обработки этого всего могу обеспечить я сам, то с каналом напряги, ибо с моим мегабитом одна итерация полного обновления индекса (ориентировочно -- количество страниц, проиндексированных яндексом) займет пару лет.

SG
На сайте с 21.01.2007
Offline
96
#5

ТС, стучись в аську, интересно, обсудим!

dlyanachalas
На сайте с 15.09.2006
Offline
693
#6
А так, через некоторое время имеем карту рунета с раскиданными, не скрываемыми поисковиком линками (вычленять, что же поисковик прячет, а что показывает), имеем неограниченные запросы к inurl, попутно можем заиметь базу мыл и асек, бугага ))

Осталось решить, как понять, что Яндекс спрятал, а что просто не смог проиндексировать (ещё не пришёл робот, html криво написан робот его не понял и т.п.)

response
На сайте с 01.12.2004
Offline
324
#7
dlyanachalas:
Осталось решить, как понять, что Яндекс спрятал, а что просто не смог проиндексировать (ещё не пришёл робот, html криво написан робот его не понял и т.п.)

если html криво написан, то наш робот его тоже не разберет. Если робот не пришел, значит придет позже. Это хорошо, что ваш оптимизм позволяет вам думать, что яндекс будет гнаться за нами, а не мы за ним )

neznaika
На сайте с 28.06.2006
Offline
356
#8
response:
приемлимые вычислительные мощности

С миру по нитке :) 4 проца есть.

response:
ибо с моим мегабитом

А чем плохи провайдерские 100?

response:
социальный контроль поисковиков

+ :)

Дорого покупаю настоящие сайты. Не инвестирую деньги и не беру кредиты.
response
На сайте с 01.12.2004
Offline
324
#9
neznaika:
А чем плохи провайдерские 100?

исходящий трафик дорого.. это ж дедик надо брать по-любому.

в общем думал тут, думал, и решил что вещь хотя и хорошая, но лучше попозже. При условии, что поисковик не будет сохранять контент, хотелось бы максимально эффективно скаченное содержимое страниц распарсивать, а я пока не определился с кругом того, что было бы очень неплохо вынимать из страниц.

SG
На сайте с 21.01.2007
Offline
96
#10

2 сервера на колокейшн есть =)

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий