Interitus, не только для Яхи. Более того, "не только" в данном контексте означает не один лишь google.com
Если эти значения слишком сильно искажают картину мира, то могу добавить опцию в конфиг, отключающую эту фичу :)
Что же касается "хочу такой же", то кто ж не хочет. Но бытует мнение, что такие значения не вычисляются, а назначаются :) (даю подсказку - я к этим назначениям не имею ни малейшего отношения :D)
P.S: До воскресного футбола быть может поправлю кой-каие баги...
Reanimator, в некоторых случаях невозможно узнать размер страницы предварительно её целиком не выкачав. Особенности протокола. Кроме того, wget вряд ли умеет обходить ловушки с session_id...
Другое дело, что вероятно имеет смысл обратиться к исходникам wget'а и дописать недостающее...
http://search.cpan.org/dist/HTML-Parser/lib/HTML/LinkExtor.pm
Анализ полученных ссылок - regexp'ы.
Оптимизация... ну если нужно обойти все подряд ссылки, то что тут оптимизировать-то? Ну несколько процессов в параллель запустить...
Zerg WereWolf, потрошить кого-то не обязятельно.
Как выдернуть все ссылки из страницы написано в мануале к перлу.
Очередь этих ссылок думаю и сам догадаешься как организовать.
Дальше - только канал широкий нужен, который как правило у хостера есть :)
Народ качает DOOM III. Кто скачал - играет. Все остальные отдыхают из-за перегруженных каналов.
С учётом того, что у сайта всего навсего 30 конкурентов (сайтов, залистеных в каталоге Яху), а так же то, что он залистен в региональный яхувских каталогах, и в ODP фигурирует с замечательным заголовком Custom Organic Synthesis, то ничего волшебного или хотя бы удивительного в нахождении этого сайта на первом месте в Яху нет.
Удивляет только одно - что Яху до сих пор держит дохлый сайт в своей базе. Гугль уже изничтожил. В каталоге как минимум :-)
А если так:
http://www.google.com/search?as_q=nokia&num=10&hl=ru&ie=UTF-8&newwindow=1&btnG=Google+Search&as_epq=&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_nlo=6000&as_nhi=7000&as_occt=any&as_dt=i&as_sitesearch=&safe=images
clever2003, ты предыдущие сообщения внимательно читал? Для своего персонального использования я через пару-тройку часов тИЦ в SEO bar реализую. О вариантах отмазок для всеобщего использования просил подумать софорумников. Судя по последовавшим бурным дебатам эта тема вообще никого не интересует. Ну а я с Иваном Денисовичем ссорится по пустякам не хочу.
Текущая версия 0.7(71). Появился конфигуратор.
SandyMan, вся моя предидущая тирада сводилась к тому, что сама ссылка попала в выдачу в результате непредвиденных обстоятельств, а уже попав - заняла подобающее ей место.