"насильная индексация"

12
4F
На сайте с 25.04.2005
Offline
20
4LF
922

подскажите... идет разработка поисковика (пока-что робота)...

нужна начальная база... не хочу ждать когда пользователи начнуть

добавлять урлы

как лучше сделать...

пробовал перебором ip:

  • на localhost все ok (т.к. один сайт = один ip)
  • в инете же все гараздо хуже gethostbyaddr(ip) выдает не то (DNS все таки), без Host в GET'e робот не может получить нормальный рзультат

посоветуйте как можно сделать...

A
На сайте с 23.10.2003
Offline
196
#1

Почему бы не начать с любого каталога?

андроид ТВ (http://qway.com.ua/android_tv) и экшн камеры (qway.com.ua/action-cameras) в Украине.
4F
На сайте с 25.04.2005
Offline
20
4LF
#2

а за это по мозгам не дадут?

может еще есть вырианты

[Удален]
#3

4LF, вообще-то робот должен собирать ссылки со страниц, и ходить уже по ним. Начав с какого-то одного сайта по ссылкам вы вытащите сколь угодно большую базу себе. Начать можно вообще практически с любого сайта, только соблюдайте стандарт robots.txt.

Andreyka
На сайте с 19.02.2005
Offline
822
#4

Начни с dmoz.org - не дадут по мозгам ;)

Не стоит плодить сущности без необходимости
4F
На сайте с 25.04.2005
Offline
20
4LF
#5

а как работает http://web.archive.org/ = он весь веб сохраняет в себе... и как он находит все сущесвующие сайты???

[Удален]
#6

Так и находит - по ссылкам. Если на какой-то сайт ссылок нет с других сайтов - то он его и не найдет сам.

Andreyka
На сайте с 19.02.2005
Offline
822
#7

Ну еще можно парсить списки доменов ;)

4F
На сайте с 25.04.2005
Offline
20
4LF
#8

хе а где-нить есть эти списки

4F
На сайте с 25.04.2005
Offline
20
4LF
#9

может кто все таки подскажет?

[Удален]
#10

4LF, можешь смело начать с link.Axes.ru, никто тебе по мозгам не даст.

Если делаеш серьёзный поисковик для народа, а не для себя, то можем для твоей машины сделать экспорт из БД всех URL, причём даже можно с пометками.

Перебирать IP адреса - дело крайне бесполезное, потому что, на 1 IP может приходиться и тысяча сайтов, если это хостинг, или десяток-два, если этой чей-то выделенный сервер.

Тогда уж лучше устаривать брутофорс вида A.ru B.ru C.ru ... AAA.ru AAC.ru ...

К тому времени когда он закончиться, может быть солнце ещё будет светить :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий