Альтена-Хост

Рейтинг
53
Регистрация
01.12.2010
Должность
0b6b84
ca29f8
ArmenDomain:
тут на форуме писали что httpS создает большую нагрузку на сервер и замедляет загрузку страниц. Думаю сайты с S на конце годятся лишь для банков и прочих финансовых организаций, для всех остальных - оставить все по-старому. Этот фактор из серии что сайты на html5 лучше ранжируются, на деле - хуже чем html1. Короче не поведусь.

Даже внутри офисной сети это видно невооруженным глазом (если кто сравнивал). После всех инсинуаций Google о том, что он хочет ранжировать выше быстро загружающие страницы сайта выглядит полным бредом.

В последние годы все нововведения ПС отдают только одним духом - сорвать как можно больше бабла и приподнять акции.

Для информационных сайтов https и даром не нужен.

Передал 320. Хороший сервис поддержать.

Ну про Питон это сильно. Одно дело, когда надо "быстренько" наваять 20 строчек кода (в Яндекс очень любят), совсем другое - когда эти 20 строчек должны быстро работать.

Дело в том, что Вам нужно было просить оценить дизайн именно свою ЦА. На обычном коппьютере это вопринимается как апофеоз неудобства.

Ни кто не обратил внимание, что сейчас почти любая тема на форумах (не только на Серче) сразу скатывается в политическую полемику?

mibuso:
Альтена-Хост, Вы можете пояснить про физическую структуру BigTable пояснить. Это же не в прямом смысле таблица?

Сорри, не так часто на форуме появляюсь. Если утрировать, то да, именно "в прямом смысле" похоже. Любое key=>value хранилище очень похоже на таблицу Exel по своей внутренней структуре.

---------- Добавлено 07.05.2014 в 21:42 ----------

dlyanachalas:
У Яндекса обычные бинарные файлы.

Вот совершенно верное замечание. В прошлые времена (не могу за последний год найти) у Яндекс был проект свободного (бесплатного) поискового движка с закрытым исходным кодом и довольно скудной документацией под названием "Яндекс.Сервер" (популяризировалось то, что на нем выполенен Яндекс.Маркет). Довольно забавный был полигон для изучения технологий Яндекс.

---------- Добавлено 07.05.2014 в 22:54 ----------

Я уже писал, что наиболее наболевшим в моих экпериментах местом является создание быстрого краулера.

Наиболее прогрессивными на сегодняшний день являются 2 решения:

- https://nutch.apache.org/

- https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

Оба, к сожалению, написаны на Java.

В результате, эксперименты показали, что даже 4 псевдо-сервера на i5 не в состоянии нагрузить канал всего в 100 Мбит/с даже на 20% при краулинге более 25 тыс. сайтов.

У каждого из вышеупомянутух индексаторов есть свои достоинства и недостатки. В частности, Nutch умеет "на лету" считать Page Rank.

Есть ли у кого-то возможность (желание) поделиться наработками в этом направлении?

Gzas, я надеюсь, под "скорость" Вы имели ввиду "скорость разработки".

Да мне как бы удивительно зачем это нужно Яндексу. У них есть вполне себе быстрая и неплохая реализация поискового движка, так зачем откатываться по скорости назад? Тут уже намекали, что Java это в принципе не ice, особенно по скорости.

Не знаю, извините, но на мой взгляд, выглядит достаточно бредово. Дело в том, что hadoop далеко не единственная, и отнюдь не лучшая реализация map-reduce.

Ее огромные плюсы - популярность и и опенсоурсность под лицензией Apachee, но на этом, пожалуй, все достоинства и заканчиваются.

Ну, в общем-то, согласен. Выигрыша у asm не настолько много.

Без инвертированного индекса искать в полнотексте - идея бредовая.

Да, создавал, искал. Сейчас Вам в личку скину пример поисковика (ну, это так, забава осенняя).

Вообще говоря, делал некоторое количество поисковиков по крупным интранет (к примеру, наше региональное отделение Siemens). Задачка весьма нетривиальная, т.к. очень в этих ситуациях трудно прикрутить такой фактор, как ссылочное ранжирование.

---------- Добавлено 28.04.2014 в 13:31 ----------

MrBrik:
Яндекс тоже уже использует Хадуп. С BigData оракловой.

Ни разу об этом не слышал. Может быть Вы ошиблись и имеете ввиду поиск mail.ru? Они действительно использовали hadoop в реализации Cloudera.

Всего: 116