Если это адресовано мне, то гоните в шею программера - Поисковые технологии

Реально ли написать поисковик на php

писатель · 2007-09-05T07:38:32.0000000Z

Прошу не закидывать меня помидорами, я только начинаю изучать данный вопрос. :) Для начала я выбрал связку php-mysql хотелось бы узнать, какую мощность она выдержит? Сейчас у меня задача перед поисковиком проиндексировать 100000 - 200000 документов (в поисковике будет свой crawler), иметь возможность их переиндексации через некоторый промежуток времени, прикрутить морфологию русскую, ну и строить выдачу только на тексте (мета-теги, плотность слов в тексте...) Реально ли это реализовать на вышеуказанной связке? Буду благодарен, за Ваши ответы. :)

370

Слава Шевцов

7 сентября 2007, 15:11

#51

di_max:
Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.

Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.

Неизменность точки зрения неизменно порождает иллюзию понимания.

262

di_max

7 сентября 2007, 15:13

#52

kostich:
В нескольких потоках на 5 серверов и уже меньше суток получается, на 500 тыс документов... хотя IMHO цифра с потолка взята.

Если это адресовано мне...

1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.

2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮

На многяйцевом оно конечно, можно...

Но эффективне, даже на 2-х яйцевом, в 2-х процессах.

// Все наши проблемы от нашего не знания...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

223

kostich

7 сентября 2007, 15:14

#53

Слава Шевцов:
Делал на PIV скачку в 100 потоков через multi curl. Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются. Задача была парсить выдачу Google, выдирать из выдачи ссылки и складывать в файл (не в базу же - там тормоза были бы). Никаких регекспов - через работу со строками. Вот такая вот скорость простой операции - вытащить ссылки из документа с заранее известной структурой. Так что о скорости на PHP я бы задумался. 200К страниц это сутки работы краулера. А эти данные надо ещё распарсить, обработать, положить в базу, переиндексировать, защититься от краха системы во время переиндексации и пр.

Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.

ps. Стоит задуматься о решении в целом и не кидать камни в сторону пехапе... для такой задачи это дешево и эффективно.

проверенная ддос защита (http://ddos-protection.ru) -> http://ddos-protection.ru (http://ddos-protection.ru), бесплатный тест, цена от размера атаки не зависит.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

223

kostich

7 сентября 2007, 15:15

#54

di_max:
Если это адресовано мне...
1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.
2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮
На многяйцевом оно конечно, можно...
Но эффективне, даже на 2-х яйцевом, в 2-х процессах.

Да, программеров гоните.... Слава правильно написал... только в шею или в задницу надо еще опредилится, т.к. результат уж слишком впечатляющий.

ps. При эффективном решении задачи все упирается в канал и дисковое IO.

include в php большого Резкий всплеск прямых заходов. Яндекс кобласит

262

di_max

7 сентября 2007, 15:17

#55

Слава Шевцов:
Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.

1. Плиз, ссылку на такие подробности о Яндексе...

2. Обгонять Яндекс и не собирались.😂

370

Слава Шевцов

7 сентября 2007, 15:19

#56

kostich:
Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.

Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

262

di_max

7 сентября 2007, 15:23

#57

kostich:
Да, программеров гоните....

Пока, с Вашего позволения, погожу...;)

Так, как в качестве профилера использовался... PII-450+256RAM.😂

kostich:
ps. При эффективном решении задачи все упирается в канал и дисковое IO.

Это - аргумент!

PS Пипсками меркаться нет интереса. Так, как рашались видимо совсем разные задачи и в совершенно разных условиях.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

262

di_max

7 сентября 2007, 15:30

#58

Слава Шевцов:
Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

Без учета размера страницы и типа страницы?;)

Парсинг HTML- и EXEL-документа - немного будут отличаться...

K

223

kostich

7 сентября 2007, 15:32

#59

Слава Шевцов:
Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

Не могу сказать, сколько миллионов ссылок мы выгрибаем в сутки.... может быть больше миллиарда... сколько iframe мы анализируем на предмет распространения badware и т.д... все это только к новому году будет рефакторится на сишке.. пехапе для .ру хватает под все наши задачи и это очень дешево... а отлаженную задачу отрефакторить на си еще дешевле

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

262

di_max

7 сентября 2007, 15:33

#60

писатель:
Я прошу прощения, но разве трафик уже не бесплатный у большей части хостингов? 😕

Бесплатный сыр - только в мышеловке. И то - только для второй мышки.😂

А уж хостер всегда найдет как денег содрать...;)

Зачем быть уникальным в мире, где все можно скопировать

Дзен реализовал для авторов возможность вывода денег через СПБ

Реально ли написать поисковик на php