Если поисковик в сутки выдает 8Тб трафа, то почему быстрый 30Тб сторадж для прекешинга на различных уровнях не есть выход - Поисковые технологии

Реально ли написать поисковик на php

писатель · 2007-09-05T07:38:32.0000000Z

Прошу не закидывать меня помидорами, я только начинаю изучать данный вопрос. :) Для начала я выбрал связку php-mysql хотелось бы узнать, какую мощность она выдержит? Сейчас у меня задача перед поисковиком проиндексировать 100000 - 200000 документов (в поисковике будет свой crawler), иметь возможность их переиндексации через некоторый промежуток времени, прикрутить морфологию русскую, ну и строить выдачу только на тексте (мета-теги, плотность слов в тексте...) Реально ли это реализовать на вышеуказанной связке? Буду благодарен, за Ваши ответы. :)

K

223

kostich

11 сентября 2007, 11:29

#81

Слава Шевцов:
Нет. Повторюсь: кеш можно делать для многоразовых запросов (спросили три раза и более). В поисковиках с этим проблема - более 3/4 всех запросов уникальны.

Слава, если поисковик в сутки выдает, к примеру, 8Тб трафа, то почему быстрый 30Тб сторадж для прекешинга на различных уровнях не есть выход?

проверенная ддос защита (http://ddos-protection.ru) -> http://ddos-protection.ru (http://ddos-protection.ru), бесплатный тест, цена от размера атаки не зависит.

370

Слава Шевцов

11 сентября 2007, 11:39

#82

kostich:
Слава, если поисковик в сутки выдает, к примеру, 8Тб трафа, то почему быстрый 30Тб сторадж для прекешинга на различных уровнях не есть выход?

Потому что это не самая медленная часть. Объясняю на примере реального поисковика.

1. Я держу в Якатане все данные в памяти. Мне хватит памяти всегда. Поэтому извлечение данных идёт очень быстро.

2. Самое медленное место - ранжирование. У меня оно очень простое, но даже в моём случае это 50% всего времени на построение выдачи.

3. Подавляющая часть запросов уникальны. Пожтому результаты ранжирования я не могу ни кешировать, ни делать прекеш.

Больших поисковиках по документам пункт 2 ещё более серьёзен: там и плотность слов нужно учесть, и ссылки, и последовательность слов в запросе. Ранжирование там ещё более медленное. Может с хешами, конечно, что-то удастся решить. Но от кеширования там толку мало. Максимальный прирост производительности около 20%

Кстати, я склоняюсь к мысли, что может и можно написать на PHP нормальный поисковик. Вы меня почти в этом убедили. Если ранжирование результатов можно делать через описанный Вами алгоритм, то это будет оптимальный для топикстартера вариант.

Неизменность точки зрения неизменно порождает иллюзию понимания.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

223

kostich

11 сентября 2007, 12:10

#83

Слава Шевцов:
Потому что это не самая медленная часть. Объясняю на примере реального поисковика.

1. Я держу в Якатане все данные в памяти. Мне хватит памяти всегда. Поэтому извлечение данных идёт очень быстро.
2. Самое медленное место - ранжирование. У меня оно очень простое, но даже в моём случае это 50% всего времени на построение выдачи.
3. Подавляющая часть запросов уникальны. Пожтому результаты ранжирования я не могу ни кешировать, ни делать прекеш.

Опять не понял почему ранжирование надо делать на лету.

Слава, Вы представляете сколько можно выжать на битовом массиве, на каких нибудь хитрых деревьях, на каунтерах и на блумфильтре? Зачем решать задачу через аля битовый массив, когда её можно решить более красиво и быстро. Но если мы за ресурсы, то битовый массив в реализации максимально дешев...

Мне почему-то кажется, что задачу с ранжированием надо решать нетривиально, т.к. решение в лоб никому не нужно. Связи между прямым решением и идеальной выдачей нет.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Лунный Кот

11 сентября 2007, 13:03

#84

php язык не быстрый ) конечно, лучше писать на С++. Удачной конкуренции с Яндексом, и будьте добры, в случае успеха, не вводите непот-фильтры :)

Вы мне свои достижения жизненные продемонстируйте, пожалуйста, я, возможно, возьму свои слова обратно и извинюсь прилюдно. Только думается мне, что вы банальный лась. (с) Mirson

K

223

kostich

11 сентября 2007, 13:22

#85

Лунный Кот:
php язык не быстрый )

php может использоваться как высокоуровневый интерфейс к низкоуровневым функциям... и кстати почему тут никто не предолжил использовать либу от mnogosearch?

П

17

писатель

11 сентября 2007, 15:18

#86

kostich:
почему тут никто не предолжил использовать либу от mnogosearch?

Извините за не осведомленность, но что это такое?

Да пребудет с Вами Сила!

102

d1ma

11 сентября 2007, 15:21

#87

На php можно написать парсер другого поисковика :)

B

274

Baruchka

11 сентября 2007, 16:42

#88

Жил в братеево. У нас там сетка была районная

Одын умелец собрал поисковик по фтп и сайтам.

все замечательно работало. Робот ходил и собирал информацию, обновление по мере обхода всей сетки. Сетку из 5000 с лишним ресурсов бот обходил за два дня.

Поиковик у парня работал на дополнительном домашнем компутере.

это учитывая что некоторые из владельцев сайтов имели ресурсы с десятками террабайт фильмов и разных игрушек воплне неплохо.

Конечно там главное было поиск по фтп, но по сайтам он тоже ходил вполне неплохо.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

737

Kost

11 сентября 2007, 16:47

#89

Baruchka:

это учитывая что некоторые из владельцев сайтов имели ресурсы с десятками террабайт фильмов и разных игрушек воплне неплохо.

Только в отличие от веб-поиска FTP-поиску не нужно скачивать сами файлы и терабайты, ему нужны только названия файлов, по ним идет поиск.

Готовые пакеты для этого имеются, только нужно туда зарядить список серверов. У нас в сетке тоже такой есть, можно и свой FTP добавить через форму.

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.

262

di_max

12 сентября 2007, 13:09

#90

Слава Шевцов:
Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами...

Извините, наткнулся вот на такое "Яндекс" открыл новый дата-центр на 3 тысячи серверов.

// Все наши проблемы от нашего не знания...

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Реально ли написать поисковик на php