Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)
D . G:
в чем проблема сделать уникальный поисковик среди уникальных тематик?:)

Да уникальный-то - не проблема. Проблема сделать хороший поиск :)

Pavel2005:
Честно :) - не знаю. Команду собирал Ионыч (если Вам это о чем то говорит).

Нет, ничего не говорит :(

Pavel2005:
Что я понял, что РЕАЛЬНО сделать уникальный поисковик (по одной тематике), ... В настоящее время Российских поисковиков нет таких.

Согласен на все 100. Однако, кажется, очень скоро появятся.

Pavel2005:
... Причем был программист, который стоял у истоков создания Рамблера.

Ну, поскольку мы знаем, что у истоков создания Рамблера стоял один единственный программист, Димка Крюков (если речь, конечно, не идет о стоянии рядом, когда Крюков создавал Рамблер), то зачем же так туманно? :)

Димыч, колись, что за проект был? :)

midian777:
А я вот вечно во всём сомневаюсь, и люблю проверять всё на себе...

Только представьте себе, что (ничего личного, я даже сознательно не узнаЮ, о каком сайте идет речь) вы решили проверить на футбольном матче, скажем, "Локомотива" и "Спартака", хорошо ли слышит вратарь Ло'ко. Для этого Вы купили билет на матч и в разгар, когда трибуны скандируют имена любимых игроков, громко, в полный голос, обратились к нему по имени.

А когда вратарь не обратил на Вас внимания - вы сделали совершенно очевидный вывод: он слабослышащий.

midian777:
Может так и было задумано, чтобы влияла кнопка, но либо выключили "функцию", либо накосячили где-то.

Вот так и тут. Вы в условиях Вашего эксперимента сочли, что не влияет, и почему-то обобщили. Хотя правильный вывод - это "у меня не получилось :(".

Давайте подумаем, почему это может быть. Представим себе, что Рамблер, к примеру, учитывает ранг top100 следующим образом (это не руководство по оптимизации, а лишь возможный вариант). Вычисленную лексическую и ссылочную меру соответствия документа запросу он комбинирует с рангом top100 по формуле, скажем, P = Pl * Ptop100, где Ptop100 есть некая логарифмическая функция от количества хостов. Например, atan( log10( hosts/month ) ) / (pi/2).

Ключевой момент тут - логарифм. Такая функция довольно быстро возрастает, а на больших значениях она практически линейна. Такая штука, фактически, будет отсеивать (угонять подальше) слабопосещаемые сайты.

midian777:
Прямого влияния на свои позиции я не заметил.
Месяц без кнопки, а позиции без изменений...

А если усреднение идет не за месяц, а, скажем, за три? А если вы и так находитесь на плато логарифма? А если у вас, наконец, этот самый Pl, то есть содержание страницы, слабо релевантно запросу? Такая мысль в голову должна была придти...

Если же говорить о механизмах влияния ранга top100 на позицию в индексе, то можно упомянуть еще и используемый Рамблером механизм раздачи весов в ссылочном графе (алгоритм, писанный Лёхой Ефимовым), где "источниками" веса в графе при рассчете ссылочных рангов являются не все, а лишь участники top100 пропорционально хостам. Значит, тогда можно предположить, что на вас мало ссылаются авторитетные сайты...

midian777:
(Повторюсь: проверено только на одном проекте. Выводы не обобщаю (поправился), но факт остаётся фактом - на мои позиции наличие кнопки на сайте не повлияло.)

Благодарю. Такой вывод вполне имеет право на существование. Это уже добросовестный вывод.

midian777:
Ну не влияет топ100 на ранжирование сайтов в ПС. И точка на этом!

И, поверьте, имею для этого все основания :) Причем влияет - скажу больше - несколькими способами. Иногда - напрямую, иногда - опосредованно.

Zute:
http://www.sitemeta.com/download/
Скачать версию под Виндовз вижу, ничего другого их перечисленного не вижу...

Вот тут прочти: http://www.sitemeta.com/rus/tech/.

lagif:
Ну, во-первых, "поиск по индексам нейросети" - действительно нонсенс. А вот "нейросети осилить" ... :)

Да ладно придираться :) На самом деле нейросети - это просто такая модная "штучка", не более того. Вон, помнится, Метатехнология уже давно продвигала Экскалибур, рассказывая о том, что там, мол, нейроны всякие... И постоянно показывали всем, как эта штука ищет с опечатками "Romheo and Djulliet", находя известных персонажей. Однако почему-то они (действительно, почему?) обратились тогда почти тайком в ОРФО, чтобы ребята им сделали развертку русских словоформ :)

lagif:
Кроме того, думается, что, учитывая размеры поисковых индексов, ресурсов на поиск тратится куда больше, чем на ранжирование.

Кстати говоря, это довольно серьезное заблуждение. Современные поисковые системы готовы отдавать список документов, формально содержащих термы запроса, со скоростью, практически равной скорости считывания с диска. То есть сам поиск как таковой вовсе не ресурсоемок. А вот ранжирование, то есть просмотр уже загруженной координатной информации по всем вхождениями документа - это как раз и есть реально жрущая процессорное время операция.

lagif:
Я говорила об "искусственном интеллекте" (а это в моем представлении не нейросеть и даже не экспертная система).

Да полноте! Никакого "искусственного интеллекта" нет и быть не может! Вам же не придет в голову говорить о налиции какого-либо "искусственного интеллекта" у, скажем, настольного калькулятора? А ведь он позволяет умножать и извлекать корни гораздо быстрее, чем человек, и ничуть не менее точно!

Говорить можно лишь о интерполяции результатов работы естественного интеллекта в рамках узко поставленной задачи!

Keva.

P.S. Я тут, кстати, юрморду зарегистрировал, так что морфологии теперь можно покупать не только у физического лица :)

Zute:
Хм, оно ж под Windows, - немного не та опера со всем вышеперечисленным...

Да-а-а? :) И давно? Вообще-то это полноценная кроссплатформенная штука. Win32, FreeBSD, Линух. А с минимально приложенными усилиями - и солярка на спарке.

Kryukov:
... может автор и вправду хочет создать _ВСЕ_ условия для разработки :) , а может не представляет, что это за условия, а может провокация на флейм.
Пойдем разрабатывать, а?

Ну тут как... Если аФтару реально интересна тема - так можно и объяснить же, что и как. Сколько надо машин, где они должны стоять. А там... Да мало ли, может, и вправду это начало проекта? Тогда можно и сделать :)

А если флейм - так он уже и затих, можно считать.

Kryukov:
Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в
...

Что касается нейронных сетей...

Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи.

Как мне кажется, "самый хороший поисковик" создать невозможно. Нельзя сделать "хорошо", можно лишь сделать "лучше". То есть, я не сомневаюсь в этом, можно сделать поисковик, который был бы лучше всех существующих.

Давай рассмотрим реальные примеры, причем не будем затрагивать те времена, когда стартовали Рамблер, Апорт и Яндекс. Посмотрим на момент выкатки Гугля.

Собственно, что произошло? Пацаны придумали некую новую метрику. Даже, по большому счету, не придумали, а применили к Инету ранее опубликованную методику ранжирования, разработанную не ими, и не для Инета, а для организации поиска в базах рефератов научных статей с перекрестными ссылками.

И оказалось, что применение этой метрики, этого способа вычисления релевантности, дало при минимальных вложениях в железо результаты, качество которых даже на первый взгляд превосходило качество результатов тогдашнего лидера поиска по ресурсам пендостана - Альтависты.

Народ прорюхал, стал заниматься ссылочным спамом, и качество поиска стало стремительно падать. Соотсетственно, был добавлен полнотекстовый компонент поиска.

Так и сейчас, если существует некая идея альтернативного ранжирования, альтернативной метрики прежде всего, которая даст заметное улучшение качества поиска, то построить лучший (на настоящий момент времени) поисковик вполне реально. Были б бабки :)

Всего: 238