Да уникальный-то - не проблема. Проблема сделать хороший поиск :)
Нет, ничего не говорит :(
Согласен на все 100. Однако, кажется, очень скоро появятся.
Ну, поскольку мы знаем, что у истоков создания Рамблера стоял один единственный программист, Димка Крюков (если речь, конечно, не идет о стоянии рядом, когда Крюков создавал Рамблер), то зачем же так туманно? :)
Димыч, колись, что за проект был? :)
Только представьте себе, что (ничего личного, я даже сознательно не узнаЮ, о каком сайте идет речь) вы решили проверить на футбольном матче, скажем, "Локомотива" и "Спартака", хорошо ли слышит вратарь Ло'ко. Для этого Вы купили билет на матч и в разгар, когда трибуны скандируют имена любимых игроков, громко, в полный голос, обратились к нему по имени.
А когда вратарь не обратил на Вас внимания - вы сделали совершенно очевидный вывод: он слабослышащий.
Вот так и тут. Вы в условиях Вашего эксперимента сочли, что не влияет, и почему-то обобщили. Хотя правильный вывод - это "у меня не получилось :(".
Давайте подумаем, почему это может быть. Представим себе, что Рамблер, к примеру, учитывает ранг top100 следующим образом (это не руководство по оптимизации, а лишь возможный вариант). Вычисленную лексическую и ссылочную меру соответствия документа запросу он комбинирует с рангом top100 по формуле, скажем, P = Pl * Ptop100, где Ptop100 есть некая логарифмическая функция от количества хостов. Например, atan( log10( hosts/month ) ) / (pi/2).
Ключевой момент тут - логарифм. Такая функция довольно быстро возрастает, а на больших значениях она практически линейна. Такая штука, фактически, будет отсеивать (угонять подальше) слабопосещаемые сайты.
А если усреднение идет не за месяц, а, скажем, за три? А если вы и так находитесь на плато логарифма? А если у вас, наконец, этот самый Pl, то есть содержание страницы, слабо релевантно запросу? Такая мысль в голову должна была придти...
Если же говорить о механизмах влияния ранга top100 на позицию в индексе, то можно упомянуть еще и используемый Рамблером механизм раздачи весов в ссылочном графе (алгоритм, писанный Лёхой Ефимовым), где "источниками" веса в графе при рассчете ссылочных рангов являются не все, а лишь участники top100 пропорционально хостам. Значит, тогда можно предположить, что на вас мало ссылаются авторитетные сайты...
Благодарю. Такой вывод вполне имеет право на существование. Это уже добросовестный вывод.
И, поверьте, имею для этого все основания :) Причем влияет - скажу больше - несколькими способами. Иногда - напрямую, иногда - опосредованно.
Вот тут прочти: http://www.sitemeta.com/rus/tech/.
Да ладно придираться :) На самом деле нейросети - это просто такая модная "штучка", не более того. Вон, помнится, Метатехнология уже давно продвигала Экскалибур, рассказывая о том, что там, мол, нейроны всякие... И постоянно показывали всем, как эта штука ищет с опечатками "Romheo and Djulliet", находя известных персонажей. Однако почему-то они (действительно, почему?) обратились тогда почти тайком в ОРФО, чтобы ребята им сделали развертку русских словоформ :)
Кстати говоря, это довольно серьезное заблуждение. Современные поисковые системы готовы отдавать список документов, формально содержащих термы запроса, со скоростью, практически равной скорости считывания с диска. То есть сам поиск как таковой вовсе не ресурсоемок. А вот ранжирование, то есть просмотр уже загруженной координатной информации по всем вхождениями документа - это как раз и есть реально жрущая процессорное время операция.
Да полноте! Никакого "искусственного интеллекта" нет и быть не может! Вам же не придет в голову говорить о налиции какого-либо "искусственного интеллекта" у, скажем, настольного калькулятора? А ведь он позволяет умножать и извлекать корни гораздо быстрее, чем человек, и ничуть не менее точно!
Говорить можно лишь о интерполяции результатов работы естественного интеллекта в рамках узко поставленной задачи!
Keva.
P.S. Я тут, кстати, юрморду зарегистрировал, так что морфологии теперь можно покупать не только у физического лица :)
Да-а-а? :) И давно? Вообще-то это полноценная кроссплатформенная штука. Win32, FreeBSD, Линух. А с минимально приложенными усилиями - и солярка на спарке.
Ну тут как... Если аФтару реально интересна тема - так можно и объяснить же, что и как. Сколько надо машин, где они должны стоять. А там... Да мало ли, может, и вправду это начало проекта? Тогда можно и сделать :)
А если флейм - так он уже и затих, можно считать.
Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи.
Как мне кажется, "самый хороший поисковик" создать невозможно. Нельзя сделать "хорошо", можно лишь сделать "лучше". То есть, я не сомневаюсь в этом, можно сделать поисковик, который был бы лучше всех существующих.
Давай рассмотрим реальные примеры, причем не будем затрагивать те времена, когда стартовали Рамблер, Апорт и Яндекс. Посмотрим на момент выкатки Гугля.
Собственно, что произошло? Пацаны придумали некую новую метрику. Даже, по большому счету, не придумали, а применили к Инету ранее опубликованную методику ранжирования, разработанную не ими, и не для Инета, а для организации поиска в базах рефератов научных статей с перекрестными ссылками.
И оказалось, что применение этой метрики, этого способа вычисления релевантности, дало при минимальных вложениях в железо результаты, качество которых даже на первый взгляд превосходило качество результатов тогдашнего лидера поиска по ресурсам пендостана - Альтависты.
Народ прорюхал, стал заниматься ссылочным спамом, и качество поиска стало стремительно падать. Соотсетственно, был добавлен полнотекстовый компонент поиска.
Так и сейчас, если существует некая идея альтернативного ранжирования, альтернативной метрики прежде всего, которая даст заметное улучшение качества поиска, то построить лучший (на настоящий момент времени) поисковик вполне реально. Были б бабки :)