Оракловые спецы сказали, что Java это в принципе не ice - Поисковые технологии

Open source поисковые технологии

Альтена-Хост · 2020-07-28T15:09:28.0000000Z

Так получилось, что в разделе про Яндекс ( /ru/forum/847329 ) участники форума заинтересовались вопросом, а как же поиск работает изнутри? Предлагаю продолжить здесь, т.к. этот раздел больше соответствует теме дискуссии. Я очень заинтересован в поиске единомышленников по развитию open source поисковых технологий применительно к ранжированию web (не глобального, но относительно большого объема). Буду очень рад познакомиться с единомышленниками хорошо знающими Java. И откровенно буду счастлив познакомиться с единомышленниками, способными без напряжения переписать Java-код на С (мечта всей жизни). ---------- Добавлено 26.04.2014 в 01:13 ---------- Пока читал форум, вернулся в тему и удивился кол-ву просмотров и отсутствию ответов. Просто напишу для затравки. Как устроен поиск. 1. Crawler Сам паук, собирающий информацию + база ссылочных апдейтов (в том числе и база ссылок по которым ходить дальше). База должна учитывать как часто нужно обходить документы повторно, насколько агрессивно можно парсить тот или иной сайт и где (robots.txt). Паук должен понимать как часто нужно (можно) "вливать" данные в поисковик. Ну и, конечно же, уметь стрипить html (или другое, если не web) из документов. 2. Search Поиск должен уметь апдейтить индекс (уже писал, что есть разные методы). Должен уметь ранжировать документы. При этом есть разные ранкеры (tf/idf, BM25(A)) etc.) А еще все к нему пытаются прикрутить разное: -Фильтры. -Морфологию. -Семантику. -И дальше, по-вкусу... Есть еще пресловутое ссылочное ранжирование (Если точнее, ссылочный граф). Ранжировать много почти одинаковых документов без него тяжело, мучительно тяжело... Просто не хватает факторов. Кац (именно так) уже отказался, Садовский пробует (маркетинг?). Поживем - увидим, но к поиску это отношения не имеет. Это маркетинг чистой воды. ---------- Добавлено 26.04.2014 в 01:33 ---------- Как все реализуется на практике (особенно при поиске по web)? Web, как факт, в наше время очень большой, т.е. - big data. Для обработки таких объемов данных производительности i-того сервера явно недостаточно. Нужна кластеризация, т.е. параллельные вычисления. Поэтому была разработана технология MapReduse . В той или иной реализации ее используют все поисковые системы. Если искать аналог в open souce, то это будет Hadoop . Для хранения базы скаченных web-документов Google использует BigTable (аналог в open source - Hbase , кстати, ее использует в своем поиске mail.ru), Яндекс использует свое проприетарное решение. Если интересно, могу продолжить. Задавайте вопросы.

63

MrBrik

28 апреля 2014, 10:36

#11

Альтена-Хост:

Ни разу об этом не слышал. Может быть Вы ошиблись и имеете ввиду поиск mail.ru? Они действительно использовали hadoop в реализации Cloudera.

Оракловые спецы сами сказали буквально на днях, что Яндекс.

Если они ошиблись, то и я ввожу вас в заблуждение)

И говорили про тесты, не про продакшн.

Может яша как раз тестирует и скоро начнет юзать на полную)

Цел. Жив. Орел. До 12% скидка на сервер и VPS по этой ссылке. Тыкай! (https://goo.gl/Y0JC0e) | Типа естественные ссылки, тренд продвижения (http://zenlink.ru?p=407fbe3fb926df9fe4232be90e3d290f)

18.01.08 - Продолжение Интервью Ашманова Вебпланете: Подскажите плиз, чей платник?!

АХ

53

Альтена-Хост

28 апреля 2014, 10:42

#12

Не знаю, извините, но на мой взгляд, выглядит достаточно бредово. Дело в том, что hadoop далеко не единственная, и отнюдь не лучшая реализация map-reduce.

Ее огромные плюсы - популярность и и опенсоурсность под лицензией Apachee, но на этом, пожалуй, все достоинства и заканчиваются.

Я просто люблю и уважаю людей.

Авторское право на статью, опыт отключения adsense Создание букмекерской интернет-конторы

63

MrBrik

28 апреля 2014, 11:04

#13

Альтена-Хост:
Не знаю, извините, но на мой взгляд, выглядит достаточно бредово. Дело в том, что hadoop далеко не единственная, и отнюдь не лучшая реализация map-reduce.
Ее огромные плюсы - популярность и и опенсоурсность под лицензией Apachee, но на этом, пожалуй, все достоинства и заканчиваются.

У оракла тесная интеграция Hadoop и BigDataAppliance

И хадуп у них в клаудеровской сборке, если не ошибаюсь

АХ

53

Альтена-Хост

28 апреля 2014, 11:14

#14

Да мне как бы удивительно зачем это нужно Яндексу. У них есть вполне себе быстрая и неплохая реализация поискового движка, так зачем откатываться по скорости назад? Тут уже намекали, что Java это в принципе не ice, особенно по скорости.

Упала скорость индексации Апдейт поисковой базы 04.08.2010 Невменяемые заказчики

135

Gzas

28 апреля 2014, 11:49

#15

Тема сопоставима с темой "искусственный интеллект". Добавим "Имитационное моделирование", "Теория вероятности", "Базы данных" и "Нейронные сети". Получим вечно избитую новую тему на старых дрожжах. Всё остальное лишняя трата времени. Если говорить о скорости, то лучшее решение это Python.

Яндекс.Маркет наносит инфосайтам смертельный Правильно ли анализировать эффективность Как работать с копирайтерами

АХ

53

Альтена-Хост

28 апреля 2014, 14:21

#16

Gzas, я надеюсь, под "скорость" Вы имели ввиду "скорость разработки".

89

comunicom

28 апреля 2014, 14:49

#17

Спасибо. Понравилось.

SEO,SMM, Маркетинг

АХ

53

Альтена-Хост

7 мая 2014, 17:31

#18

mibuso:
Альтена-Хост, Вы можете пояснить про физическую структуру BigTable пояснить. Это же не в прямом смысле таблица?

Сорри, не так часто на форуме появляюсь. Если утрировать, то да, именно "в прямом смысле" похоже. Любое key=>value хранилище очень похоже на таблицу Exel по своей внутренней структуре.

---------- Добавлено 07.05.2014 в 21:42 ----------

dlyanachalas:
У Яндекса обычные бинарные файлы.

Вот совершенно верное замечание. В прошлые времена (не могу за последний год найти) у Яндекс был проект свободного (бесплатного) поискового движка с закрытым исходным кодом и довольно скудной документацией под названием "Яндекс.Сервер" (популяризировалось то, что на нем выполенен Яндекс.Маркет). Довольно забавный был полигон для изучения технологий Яндекс.

---------- Добавлено 07.05.2014 в 22:54 ----------

Я уже писал, что наиболее наболевшим в моих экпериментах местом является создание быстрого краулера.

Наиболее прогрессивными на сегодняшний день являются 2 решения:

- https://nutch.apache.org/

- https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

Оба, к сожалению, написаны на Java.

В результате, эксперименты показали, что даже 4 псевдо-сервера на i5 не в состоянии нагрузить канал всего в 100 Мбит/с даже на 20% при краулинге более 25 тыс. сайтов.

У каждого из вышеупомянутух индексаторов есть свои достоинства и недостатки. В частности, Nutch умеет "на лету" считать Page Rank.

Есть ли у кого-то возможность (желание) поделиться наработками в этом направлении?

1

Как продвигаться по гуглу Все для Вашего форума Не появилось ли у

A2

31

any2you

8 мая 2014, 07:16

#19

Вот https://www.udacity.com/course/viewer#!/c-cs101

Там обучают созданию поисковой системы на python. Там и crawler и index, и pagerank, и т.п. Довольно интересно.

Хотя правильнее сказать там обучают языку Python на примере создания собственной поисковой системы.

Кстати говоря, преподы являются со-создателями DuckDuckGo.com если я ничего не напутал.

Делитесь тоже знаниями по web-crawiling'у кто может :)

Яндекс.Практикум запустил онлайн-курсы, которые Поиск Яндекса обучает Рекламную Джон Мюллер поделился своими

АХ

53

Альтена-Хост

9 мая 2014, 02:48

#20

Ну про Питон это сильно. Одно дело, когда надо "быстренько" наваять 20 строчек кода (в Яндекс очень любят), совсем другое - когда эти 20 строчек должны быстро работать.

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Open source поисковые технологии