Реально ли написать поисковик на php

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#51
di_max:
Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.

Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.

Неизменность точки зрения неизменно порождает иллюзию понимания.
di_max
На сайте с 27.12.2006
Offline
262
#52
kostich:
В нескольких потоках на 5 серверов и уже меньше суток получается, на 500 тыс документов... хотя IMHO цифра с потолка взята.

Если это адресовано мне...

1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.

2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮

На многяйцевом оно конечно, можно...

Но эффективне, даже на 2-х яйцевом, в 2-х процессах.

// Все наши проблемы от нашего не знания...
K
На сайте с 24.03.2004
Offline
223
#53
Слава Шевцов:
Делал на PIV скачку в 100 потоков через multi curl. Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются. Задача была парсить выдачу Google, выдирать из выдачи ссылки и складывать в файл (не в базу же - там тормоза были бы). Никаких регекспов - через работу со строками. Вот такая вот скорость простой операции - вытащить ссылки из документа с заранее известной структурой. Так что о скорости на PHP я бы задумался. 200К страниц это сутки работы краулера. А эти данные надо ещё распарсить, обработать, положить в базу, переиндексировать, защититься от краха системы во время переиндексации и пр.

Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.

ps. Стоит задуматься о решении в целом и не кидать камни в сторону пехапе... для такой задачи это дешево и эффективно.

проверенная ддос защита (http://ddos-protection.ru) -> http://ddos-protection.ru (http://ddos-protection.ru), бесплатный тест, цена от размера атаки не зависит.
K
На сайте с 24.03.2004
Offline
223
#54
di_max:
Если это адресовано мне...
1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.
2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮
На многяйцевом оно конечно, можно...
Но эффективне, даже на 2-х яйцевом, в 2-х процессах.

Да, программеров гоните.... Слава правильно написал... только в шею или в задницу надо еще опредилится, т.к. результат уж слишком впечатляющий.

ps. При эффективном решении задачи все упирается в канал и дисковое IO.

di_max
На сайте с 27.12.2006
Offline
262
#55
Слава Шевцов:
Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.

1. Плиз, ссылку на такие подробности о Яндексе...

2. Обгонять Яндекс и не собирались.😂

Слава Шевцов
На сайте с 23.07.2005
Offline
370
#56
kostich:
Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.

Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

di_max
На сайте с 27.12.2006
Offline
262
#57
kostich:
Да, программеров гоните....

Пока, с Вашего позволения, погожу...;)

Так, как в качестве профилера использовался... PII-450+256RAM.😂

kostich:
ps. При эффективном решении задачи все упирается в канал и дисковое IO.

Это - аргумент!

PS Пипсками меркаться нет интереса. Так, как рашались видимо совсем разные задачи и в совершенно разных условиях.

di_max
На сайте с 27.12.2006
Offline
262
#58
Слава Шевцов:
Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

Без учета размера страницы и типа страницы?;)

Парсинг HTML- и EXEL-документа - немного будут отличаться...

K
На сайте с 24.03.2004
Offline
223
#59
Слава Шевцов:
Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

Не могу сказать, сколько миллионов ссылок мы выгрибаем в сутки.... может быть больше миллиарда... сколько iframe мы анализируем на предмет распространения badware и т.д... все это только к новому году будет рефакторится на сишке.. пехапе для .ру хватает под все наши задачи и это очень дешево... а отлаженную задачу отрефакторить на си еще дешевле

di_max
На сайте с 27.12.2006
Offline
262
#60
писатель:
Я прошу прощения, но разве трафик уже не бесплатный у большей части хостингов? 😕

Бесплатный сыр - только в мышеловке. И то - только для второй мышки.😂

А уж хостер всегда найдет как денег содрать...;)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий