Реально ли написать поисковик на php

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#41
kostich:
Кстати если за php паука поговорить, то в non blocked тыщ 6 сокетов нормально тянет... правда select там иногда глючит, но это отслеживается. Если по 300 сокетов расфоркать на 20 процессов, то по мегабитам прилично там ссасывает... до 400 мегабит наман сливает... смысла лить быстрее нет, т.к. надо еще и записывать это куда-то.

Делал на PIV скачку в 100 потоков через multi curl. Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются. Задача была парсить выдачу Google, выдирать из выдачи ссылки и складывать в файл (не в базу же - там тормоза были бы). Никаких регекспов - через работу со строками. Вот такая вот скорость простой операции - вытащить ссылки из документа с заранее известной структурой. Так что о скорости на PHP я бы задумался. 200К страниц это сутки работы краулера. А эти данные надо ещё распарсить, обработать, положить в базу, переиндексировать, защититься от краха системы во время переиндексации и пр.

Неизменность точки зрения неизменно порождает иллюзию понимания.
di_max
На сайте с 27.12.2006
Offline
262
#42
писатель:
Насчет идей и концепций они будут просто вот так палить не хочется сразу, потому я и склоняюсь больше к разработке своего поисковика :)

Тогда - а что тут обсуждать?...😮

Технические аспекты? Они, в большей степени, зависят от финансов вкладываемых в проект.

Для примера - Каков объем входящего трафика и кто его будет оплачивать?;)

// Все наши проблемы от нашего не знания...
di_max
На сайте с 27.12.2006
Offline
262
#43
Слава Шевцов:
Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются.

Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.

Но не на ПХП естественно.;)

Время скачки - в основном зависит от серевера...

П
На сайте с 30.06.2007
Offline
17
#44
di_max:
Тогда - а что тут обсуждать?...😮
Технические аспекты? Они, в большей степени, зависят от финансов вкладываемых в проект.
Для примера - Каков объем входящего трафика и кто его будет оплачивать?;)

Да именно, технические аспекты, большую часть своих вопросов я разрешил благодаря ответам в этом топике. :)

Я прошу прощения, но разве трафик уже не бесплатный у большей части хостингов? 😕

Да пребудет с Вами Сила!
П
На сайте с 30.06.2007
Offline
17
#45

Очень интересно как выглядел технически и программно Яндекс когда он только появился, где бы эту инфу нарыть? :)

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#46
писатель:
Да именно, технические аспекты, большую часть своих вопросов я разрешил благодаря ответам в этом топике. :)
Я прошу прощения, но разве трафик уже не бесплатный у большей части хостингов? 😕

Если входящий превышает некоторое соотношение, то платный. Доллара 3 за Гб. Вам ещё предстоит понять, как его можно выровнять до нормалдьного соотношения, чтобы он стал бесплатным. Говорят, Яндекс для бесплатности трафика купил narod.ru :D

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#47
писатель:
Очень интересно как выглядел технически и программно Яндекс когда он только появился, где бы эту инфу нарыть? :)

http://www.turtle.ru/db/architecture/

K
На сайте с 24.03.2004
Offline
223
#48
писатель:
Если немного конкретизировать задачу начального варианта, то надо индексировать-переиндексировать 200000-300000 документов, не более :)

ну мы же на пехапе харвестим более 700тыс документов в сутки, индексируем, анализируем, обрабатываем, отслеживаем изменения... цена вопроса 14 часов машинного времени... когда будет 20, то мы отрефакторим на Си.

проверенная ддос защита (http://ddos-protection.ru) -> http://ddos-protection.ru (http://ddos-protection.ru), бесплатный тест, цена от размера атаки не зависит.
П
На сайте с 30.06.2007
Offline
17
#49

Спасибо большое :)

Насчет трафа придумаю что нибудь, можно файловый архивчик организовать например или тот же free хостинг.

K
На сайте с 24.03.2004
Offline
223
#50
di_max:
Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.
Но не на ПХП естественно.;)
Время скачки - в основном зависит от серевера...

500 часов на 500тыс документах получается - РОВНО... цифра надуманная, IMHO

ps. В нескольких потоках на 5 серверов и уже меньше суток получается, на 500 тыс документов... хотя IMHO цифра с потолка взята.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий