- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Нет. Повторюсь: кеш можно делать для многоразовых запросов (спросили три раза и более). В поисковиках с этим проблема - более 3/4 всех запросов уникальны.
Слава, если поисковик в сутки выдает, к примеру, 8Тб трафа, то почему быстрый 30Тб сторадж для прекешинга на различных уровнях не есть выход?
Слава, если поисковик в сутки выдает, к примеру, 8Тб трафа, то почему быстрый 30Тб сторадж для прекешинга на различных уровнях не есть выход?
Потому что это не самая медленная часть. Объясняю на примере реального поисковика.
1. Я держу в Якатане все данные в памяти. Мне хватит памяти всегда. Поэтому извлечение данных идёт очень быстро.
2. Самое медленное место - ранжирование. У меня оно очень простое, но даже в моём случае это 50% всего времени на построение выдачи.
3. Подавляющая часть запросов уникальны. Пожтому результаты ранжирования я не могу ни кешировать, ни делать прекеш.
Больших поисковиках по документам пункт 2 ещё более серьёзен: там и плотность слов нужно учесть, и ссылки, и последовательность слов в запросе. Ранжирование там ещё более медленное. Может с хешами, конечно, что-то удастся решить. Но от кеширования там толку мало. Максимальный прирост производительности около 20%
Кстати, я склоняюсь к мысли, что может и можно написать на PHP нормальный поисковик. Вы меня почти в этом убедили. Если ранжирование результатов можно делать через описанный Вами алгоритм, то это будет оптимальный для топикстартера вариант.
Потому что это не самая медленная часть. Объясняю на примере реального поисковика.
1. Я держу в Якатане все данные в памяти. Мне хватит памяти всегда. Поэтому извлечение данных идёт очень быстро.
2. Самое медленное место - ранжирование. У меня оно очень простое, но даже в моём случае это 50% всего времени на построение выдачи.
3. Подавляющая часть запросов уникальны. Пожтому результаты ранжирования я не могу ни кешировать, ни делать прекеш.
Опять не понял почему ранжирование надо делать на лету.
Слава, Вы представляете сколько можно выжать на битовом массиве, на каких нибудь хитрых деревьях, на каунтерах и на блумфильтре? Зачем решать задачу через аля битовый массив, когда её можно решить более красиво и быстро. Но если мы за ресурсы, то битовый массив в реализации максимально дешев...
Мне почему-то кажется, что задачу с ранжированием надо решать нетривиально, т.к. решение в лоб никому не нужно. Связи между прямым решением и идеальной выдачей нет.
php язык не быстрый ) конечно, лучше писать на С++. Удачной конкуренции с Яндексом, и будьте добры, в случае успеха, не вводите непот-фильтры :)
php язык не быстрый )
php может использоваться как высокоуровневый интерфейс к низкоуровневым функциям... и кстати почему тут никто не предолжил использовать либу от mnogosearch?
почему тут никто не предолжил использовать либу от mnogosearch?
Извините за не осведомленность, но что это такое?
На php можно написать парсер другого поисковика :)
Жил в братеево. У нас там сетка была районная
Одын умелец собрал поисковик по фтп и сайтам.
все замечательно работало. Робот ходил и собирал информацию, обновление по мере обхода всей сетки. Сетку из 5000 с лишним ресурсов бот обходил за два дня.
Поиковик у парня работал на дополнительном домашнем компутере.
это учитывая что некоторые из владельцев сайтов имели ресурсы с десятками террабайт фильмов и разных игрушек воплне неплохо.
Конечно там главное было поиск по фтп, но по сайтам он тоже ходил вполне неплохо.
это учитывая что некоторые из владельцев сайтов имели ресурсы с десятками террабайт фильмов и разных игрушек воплне неплохо.
Только в отличие от веб-поиска FTP-поиску не нужно скачивать сами файлы и терабайты, ему нужны только названия файлов, по ним идет поиск.
Готовые пакеты для этого имеются, только нужно туда зарядить список серверов. У нас в сетке тоже такой есть, можно и свой FTP добавить через форму.
Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами...
Извините, наткнулся вот на такое "Яндекс" открыл новый дата-центр на 3 тысячи серверов.