Реально ли написать поисковик на php

K
На сайте с 24.03.2004
Offline
223
#81
Слава Шевцов:
Нет. Повторюсь: кеш можно делать для многоразовых запросов (спросили три раза и более). В поисковиках с этим проблема - более 3/4 всех запросов уникальны.

Слава, если поисковик в сутки выдает, к примеру, 8Тб трафа, то почему быстрый 30Тб сторадж для прекешинга на различных уровнях не есть выход?

проверенная ддос защита (http://ddos-protection.ru) -> http://ddos-protection.ru (http://ddos-protection.ru), бесплатный тест, цена от размера атаки не зависит.
Слава Шевцов
На сайте с 23.07.2005
Offline
370
#82
kostich:
Слава, если поисковик в сутки выдает, к примеру, 8Тб трафа, то почему быстрый 30Тб сторадж для прекешинга на различных уровнях не есть выход?

Потому что это не самая медленная часть. Объясняю на примере реального поисковика.

1. Я держу в Якатане все данные в памяти. Мне хватит памяти всегда. Поэтому извлечение данных идёт очень быстро.

2. Самое медленное место - ранжирование. У меня оно очень простое, но даже в моём случае это 50% всего времени на построение выдачи.

3. Подавляющая часть запросов уникальны. Пожтому результаты ранжирования я не могу ни кешировать, ни делать прекеш.

Больших поисковиках по документам пункт 2 ещё более серьёзен: там и плотность слов нужно учесть, и ссылки, и последовательность слов в запросе. Ранжирование там ещё более медленное. Может с хешами, конечно, что-то удастся решить. Но от кеширования там толку мало. Максимальный прирост производительности около 20%

Кстати, я склоняюсь к мысли, что может и можно написать на PHP нормальный поисковик. Вы меня почти в этом убедили. Если ранжирование результатов можно делать через описанный Вами алгоритм, то это будет оптимальный для топикстартера вариант.

Неизменность точки зрения неизменно порождает иллюзию понимания.
K
На сайте с 24.03.2004
Offline
223
#83
Слава Шевцов:
Потому что это не самая медленная часть. Объясняю на примере реального поисковика.

1. Я держу в Якатане все данные в памяти. Мне хватит памяти всегда. Поэтому извлечение данных идёт очень быстро.
2. Самое медленное место - ранжирование. У меня оно очень простое, но даже в моём случае это 50% всего времени на построение выдачи.
3. Подавляющая часть запросов уникальны. Пожтому результаты ранжирования я не могу ни кешировать, ни делать прекеш.

Опять не понял почему ранжирование надо делать на лету.

Слава, Вы представляете сколько можно выжать на битовом массиве, на каких нибудь хитрых деревьях, на каунтерах и на блумфильтре? Зачем решать задачу через аля битовый массив, когда её можно решить более красиво и быстро. Но если мы за ресурсы, то битовый массив в реализации максимально дешев...

Мне почему-то кажется, что задачу с ранжированием надо решать нетривиально, т.к. решение в лоб никому не нужно. Связи между прямым решением и идеальной выдачей нет.

Лунный Кот
На сайте с 27.01.2006
Offline
222
#84

php язык не быстрый ) конечно, лучше писать на С++. Удачной конкуренции с Яндексом, и будьте добры, в случае успеха, не вводите непот-фильтры :)

Вы мне свои достижения жизненные продемонстируйте, пожалуйста, я, возможно, возьму свои слова обратно и извинюсь прилюдно. Только думается мне, что вы банальный лась. (с) Mirson
K
На сайте с 24.03.2004
Offline
223
#85
Лунный Кот:
php язык не быстрый )

php может использоваться как высокоуровневый интерфейс к низкоуровневым функциям... и кстати почему тут никто не предолжил использовать либу от mnogosearch?

П
На сайте с 30.06.2007
Offline
17
#86
kostich:
почему тут никто не предолжил использовать либу от mnogosearch?

Извините за не осведомленность, но что это такое?

Да пребудет с Вами Сила!
d1ma
На сайте с 18.03.2007
Offline
102
#87

На php можно написать парсер другого поисковика :)

B
На сайте с 22.07.2007
Offline
274
#88

Жил в братеево. У нас там сетка была районная

Одын умелец собрал поисковик по фтп и сайтам.

все замечательно работало. Робот ходил и собирал информацию, обновление по мере обхода всей сетки. Сетку из 5000 с лишним ресурсов бот обходил за два дня.

Поиковик у парня работал на дополнительном домашнем компутере.

это учитывая что некоторые из владельцев сайтов имели ресурсы с десятками террабайт фильмов и разных игрушек воплне неплохо.

Конечно там главное было поиск по фтп, но по сайтам он тоже ходил вполне неплохо.

K
На сайте с 31.01.2001
Offline
737
#89
Baruchka:

это учитывая что некоторые из владельцев сайтов имели ресурсы с десятками террабайт фильмов и разных игрушек воплне неплохо.

Только в отличие от веб-поиска FTP-поиску не нужно скачивать сами файлы и терабайты, ему нужны только названия файлов, по ним идет поиск.

Готовые пакеты для этого имеются, только нужно туда зарядить список серверов. У нас в сетке тоже такой есть, можно и свой FTP добавить через форму.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
di_max
На сайте с 27.12.2006
Offline
262
#90
Слава Шевцов:
Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами...

Извините, наткнулся вот на такое "Яндекс" открыл новый дата-центр на 3 тысячи серверов.

// Все наши проблемы от нашего не знания...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий