- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Прошу не закидывать меня помидорами, я только начинаю изучать данный вопрос. :)
Для начала я выбрал связку php-mysql хотелось бы узнать, какую мощность она выдержит?
Сейчас у меня задача перед поисковиком проиндексировать 100000 - 200000 документов (в поисковике будет свой crawler), иметь возможность их переиндексации через некоторый промежуток времени, прикрутить морфологию русскую, ну и строить выдачу только на тексте (мета-теги, плотность слов в тексте...)
Реально ли это реализовать на вышеуказанной связке?
Буду благодарен, за Ваши ответы. :)
в помощь http://google.com/coop/
бота своего не дают :-D
Прошу не закидывать меня помидорами, я только начинаю изучать данный вопрос. :)
Написать и настроить поисковик реально. Цена ~ 2 млн $.
Цена продвижения поисковика намного больше :)
P.S. php для написания поисковика не лучшее решение !
Почему бы и нет? Сам недавно этим занимался. Получилось неплохо, но все никак не хватает времени доделать.
P.S. делал исключительно для эксперимента
Почему бы и нет? Сам недавно этим занимался. Получилось неплохо, но все никак не хватает времени доделать.
P.S. делал исключительно для эксперимента
Покажите? Можно в личку.
писатель,
100-200к документов это не так много, далеко не так много как в "настоящих" поисковиках. Да и алгоритмы судя по всему у Вас будут попроще. При таких объемах скорее всего упрётесь в морфологию русскую. Но в принципе можете и осилить отнюдь не при бюджете в миллионы долларов.
Посмотрите risearch - risearch.org - возможно что-нибудь оттуда "позаимствуете".
Для начала я выбрал связку php-mysql хотелось бы узнать, какую мощность она выдержит?
Реально ли это реализовать на вышеуказанной связке?
Выдержит эта связка около 10 запросов в секунду на приличном сервере. От больших нагрузок ляжет. Кроме того, в PHP нет многопоточности, а значит будут серьёзные проблемы с краулером (multi curl здесь слабо поможет, хотя поможет). Морфологию Вы не прикрутите. На PHP это будет сделать очень сложно. С переиндексацией тоже поимеете проблем - здесь PHP будет только мешать из-за того, что он заточен под строки, а обрабатывать придётся целочисленные массивы.
Хм....а какой язык программирования по Вашему будет более оптимальным для написания поисковой системы, или может комбинирование нескольких языков? :)
Хм....а какой язык программирования по Вашему будет более оптимальным для написания поисковой системы, или может комбинирование нескольких языков? :)
Сразу скажу, что великолепно владею C, С++ и PHP. Нормально пишу на Java, Perl и Assembler. Из этого богатства и выбираю. Поисковик выпускаю на днях, поэтому пишу по горячим следам. Сделал его от изучения рынка и до выпуска на рынок своими руками. Поэтому могу оценить сложность создания, написания и поддержки кода с учётом проекта в целом.
Внутренности и вся логика на С или С++ (С на 20-30% быстрее). Данные лучше хранить в BerkeleyDB. Она раз в 30-50 быстрее, чем MySQL. Обратные индексы, пары слово-идентификатор там же. Краулер - не знаю, не писал. Я бы заказал (там очень много тонкостей - пусть эти 200 строк напишет профи) на С. Причина - есть реальная многопоточность + предварительная обработка скачанных страниц будет намного быстрее, чем в PHP или Perl. Весь интерфейс пользователя - на PHP. Он здесь лучший. Хотя тоже вопрос, потому что в своём поисковике я написал и эту часть на С ради 50 тыс. запросов в секунду. Логи бы вёл в виде обычных файлов, которые время от времени сбрасывал в MySQL для аналитической обработки. Аналитику логов можно делать на чём угодно. Я сделал на PHP с Mysql запросами.
Я бы не стал писать на Perl, .NET и Java. Яндекс и Рамблер выедают с рынка всех стоящих разработчиков на этом языке, а их немного. Поэтому они дорогие и проект будет дорог в поддержке. С .NET таже история: лицензии (компилятор, операционка, СУБД, веб-сервер), программисты, архитекторы - всё сейчас очень дорого. Java очень тормознутая и требовательна к железу. Фанаты этого языка имеют другое мнение, но так уж сложился мой опыт.
Я бы внимательно посмотрел на RubyOnRails - говорят, там с многопоточностью всё нормально, а значит можно написать краулер. Правда не знаю, как обстоит дело на рынке программистов. И стоит ли в проект добавлять третий язык ради быстрого написания краулера.
Вот такой вот взгляд на то, что я недавно делал.
Все это правильно и точно.
Только вы одно забываете - морфологию русского языка.
Плюс обработку лексико-логических конструкций...
И посмотрите на историю Яндекса. Сколько и на что он потратил время.
И... Есть менее или более готовые работающие решения.
или может комбинирование нескольких языков?
Берите пример с Яндекса: C++, C, Perl .