Open source поисковые технологии

123
MrBrik
На сайте с 15.11.2012
Offline
63
#11
Альтена-Хост:

Ни разу об этом не слышал. Может быть Вы ошиблись и имеете ввиду поиск mail.ru? Они действительно использовали hadoop в реализации Cloudera.

Оракловые спецы сами сказали буквально на днях, что Яндекс.

Если они ошиблись, то и я ввожу вас в заблуждение)

И говорили про тесты, не про продакшн.

Может яша как раз тестирует и скоро начнет юзать на полную)

Цел. Жив. Орел. До 12% скидка на сервер и VPS по этой ссылке. Тыкай! (https://goo.gl/Y0JC0e) | Типа естественные ссылки, тренд продвижения (http://zenlink.ru?p=407fbe3fb926df9fe4232be90e3d290f)
АХ
На сайте с 01.12.2010
Offline
53
#12

Не знаю, извините, но на мой взгляд, выглядит достаточно бредово. Дело в том, что hadoop далеко не единственная, и отнюдь не лучшая реализация map-reduce.

Ее огромные плюсы - популярность и и опенсоурсность под лицензией Apachee, но на этом, пожалуй, все достоинства и заканчиваются.

Я просто люблю и уважаю людей.
MrBrik
На сайте с 15.11.2012
Offline
63
#13
Альтена-Хост:
Не знаю, извините, но на мой взгляд, выглядит достаточно бредово. Дело в том, что hadoop далеко не единственная, и отнюдь не лучшая реализация map-reduce.
Ее огромные плюсы - популярность и и опенсоурсность под лицензией Apachee, но на этом, пожалуй, все достоинства и заканчиваются.

У оракла тесная интеграция Hadoop и BigDataAppliance

И хадуп у них в клаудеровской сборке, если не ошибаюсь

АХ
На сайте с 01.12.2010
Offline
53
#14

Да мне как бы удивительно зачем это нужно Яндексу. У них есть вполне себе быстрая и неплохая реализация поискового движка, так зачем откатываться по скорости назад? Тут уже намекали, что Java это в принципе не ice, особенно по скорости.

Gzas
На сайте с 05.01.2014
Offline
135
#15

Тема сопоставима с темой "искусственный интеллект". Добавим "Имитационное моделирование", "Теория вероятности", "Базы данных" и "Нейронные сети". Получим вечно избитую новую тему на старых дрожжах. Всё остальное лишняя трата времени. Если говорить о скорости, то лучшее решение это Python.

АХ
На сайте с 01.12.2010
Offline
53
#16

Gzas, я надеюсь, под "скорость" Вы имели ввиду "скорость разработки".

comunicom
На сайте с 29.08.2011
Offline
89
#17

Спасибо. Понравилось.

SEO,SMM, Маркетинг
АХ
На сайте с 01.12.2010
Offline
53
#18
mibuso:
Альтена-Хост, Вы можете пояснить про физическую структуру BigTable пояснить. Это же не в прямом смысле таблица?

Сорри, не так часто на форуме появляюсь. Если утрировать, то да, именно "в прямом смысле" похоже. Любое key=>value хранилище очень похоже на таблицу Exel по своей внутренней структуре.

---------- Добавлено 07.05.2014 в 21:42 ----------

dlyanachalas:
У Яндекса обычные бинарные файлы.

Вот совершенно верное замечание. В прошлые времена (не могу за последний год найти) у Яндекс был проект свободного (бесплатного) поискового движка с закрытым исходным кодом и довольно скудной документацией под названием "Яндекс.Сервер" (популяризировалось то, что на нем выполенен Яндекс.Маркет). Довольно забавный был полигон для изучения технологий Яндекс.

---------- Добавлено 07.05.2014 в 22:54 ----------

Я уже писал, что наиболее наболевшим в моих экпериментах местом является создание быстрого краулера.

Наиболее прогрессивными на сегодняшний день являются 2 решения:

- https://nutch.apache.org/

- https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

Оба, к сожалению, написаны на Java.

В результате, эксперименты показали, что даже 4 псевдо-сервера на i5 не в состоянии нагрузить канал всего в 100 Мбит/с даже на 20% при краулинге более 25 тыс. сайтов.

У каждого из вышеупомянутух индексаторов есть свои достоинства и недостатки. В частности, Nutch умеет "на лету" считать Page Rank.

Есть ли у кого-то возможность (желание) поделиться наработками в этом направлении?

A2
На сайте с 19.10.2012
Offline
31
#19

Вот https://www.udacity.com/course/viewer#!/c-cs101

Там обучают созданию поисковой системы на python. Там и crawler и index, и pagerank, и т.п. Довольно интересно.

Хотя правильнее сказать там обучают языку Python на примере создания собственной поисковой системы.

Кстати говоря, преподы являются со-создателями DuckDuckGo.com если я ничего не напутал.

Делитесь тоже знаниями по web-crawiling'у кто может :)

АХ
На сайте с 01.12.2010
Offline
53
#20

Ну про Питон это сильно. Одно дело, когда надо "быстренько" наваять 20 строчек кода (в Яндекс очень любят), совсем другое - когда эти 20 строчек должны быстро работать.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий