- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Ни разу об этом не слышал. Может быть Вы ошиблись и имеете ввиду поиск mail.ru? Они действительно использовали hadoop в реализации Cloudera.
Оракловые спецы сами сказали буквально на днях, что Яндекс.
Если они ошиблись, то и я ввожу вас в заблуждение)
И говорили про тесты, не про продакшн.
Может яша как раз тестирует и скоро начнет юзать на полную)
Не знаю, извините, но на мой взгляд, выглядит достаточно бредово. Дело в том, что hadoop далеко не единственная, и отнюдь не лучшая реализация map-reduce.
Ее огромные плюсы - популярность и и опенсоурсность под лицензией Apachee, но на этом, пожалуй, все достоинства и заканчиваются.
Не знаю, извините, но на мой взгляд, выглядит достаточно бредово. Дело в том, что hadoop далеко не единственная, и отнюдь не лучшая реализация map-reduce.
Ее огромные плюсы - популярность и и опенсоурсность под лицензией Apachee, но на этом, пожалуй, все достоинства и заканчиваются.
У оракла тесная интеграция Hadoop и BigDataAppliance
И хадуп у них в клаудеровской сборке, если не ошибаюсь
Да мне как бы удивительно зачем это нужно Яндексу. У них есть вполне себе быстрая и неплохая реализация поискового движка, так зачем откатываться по скорости назад? Тут уже намекали, что Java это в принципе не ice, особенно по скорости.
Тема сопоставима с темой "искусственный интеллект". Добавим "Имитационное моделирование", "Теория вероятности", "Базы данных" и "Нейронные сети". Получим вечно избитую новую тему на старых дрожжах. Всё остальное лишняя трата времени. Если говорить о скорости, то лучшее решение это Python.
Gzas, я надеюсь, под "скорость" Вы имели ввиду "скорость разработки".
Спасибо. Понравилось.
Альтена-Хост, Вы можете пояснить про физическую структуру BigTable пояснить. Это же не в прямом смысле таблица?
Сорри, не так часто на форуме появляюсь. Если утрировать, то да, именно "в прямом смысле" похоже. Любое key=>value хранилище очень похоже на таблицу Exel по своей внутренней структуре.
---------- Добавлено 07.05.2014 в 21:42 ----------
У Яндекса обычные бинарные файлы.
Вот совершенно верное замечание. В прошлые времена (не могу за последний год найти) у Яндекс был проект свободного (бесплатного) поискового движка с закрытым исходным кодом и довольно скудной документацией под названием "Яндекс.Сервер" (популяризировалось то, что на нем выполенен Яндекс.Маркет). Довольно забавный был полигон для изучения технологий Яндекс.
---------- Добавлено 07.05.2014 в 22:54 ----------
Я уже писал, что наиболее наболевшим в моих экпериментах местом является создание быстрого краулера.
Наиболее прогрессивными на сегодняшний день являются 2 решения:
- https://nutch.apache.org/
- https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
Оба, к сожалению, написаны на Java.
В результате, эксперименты показали, что даже 4 псевдо-сервера на i5 не в состоянии нагрузить канал всего в 100 Мбит/с даже на 20% при краулинге более 25 тыс. сайтов.
У каждого из вышеупомянутух индексаторов есть свои достоинства и недостатки. В частности, Nutch умеет "на лету" считать Page Rank.
Есть ли у кого-то возможность (желание) поделиться наработками в этом направлении?
Вот https://www.udacity.com/course/viewer#!/c-cs101
Там обучают созданию поисковой системы на python. Там и crawler и index, и pagerank, и т.п. Довольно интересно.
Хотя правильнее сказать там обучают языку Python на примере создания собственной поисковой системы.
Кстати говоря, преподы являются со-создателями DuckDuckGo.com если я ничего не напутал.
Делитесь тоже знаниями по web-crawiling'у кто может :)
Ну про Питон это сильно. Одно дело, когда надо "быстренько" наваять 20 строчек кода (в Яндекс очень любят), совсем другое - когда эти 20 строчек должны быстро работать.