- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Собственно, для поиска документов нейросеть подойдет вряд ли, даже если
ей скармливать уже готовый индекс...
И тем не менее, нейронные сети применяются MSN Search и DataparkSearch, правда для ранжирования, а не для классификации.
Ну, можно здорово ограничить количество подаваемых слов при обучении сети. Для этого нужно подавать на вход сети не все слова документа, а только "значимые". Значимость определять из частоты встречаемости слова (TF) во всей коллекции документов, т.е. грубо говоря отбрасывать слишком распространенные слова.
Все равно, мне кажется, что слишком многомерный вектор получится, и не понятно, как с координатами, как ориентировать и пр. Для этого, похоже, нужны мощности сильно превосходящие существующие. Хотя исключать этого нельзя. Простой пример из жизни: у меня сейчас в кармане лежит КПК, который превосходит по всем параметрам на порядок тот компьютер, на котором в 1996 году я сделал Rambler 🚬
В любом случае, для построения конкурентного поисковика надо иметь некие ноу-хау, которые можно реально дать пощупать пользователю, но скромно умолчать о том, как в деталях это работает
upindex,
это очень похвально. Только как быть с остальными? они же считают себя лучшими. Насколько Ваше мнение объективно?
например, мы наконец у себя сформулировали тесты по определению Page IQ , помимо весов страниц будем использовать и это (конец ноября).
Только я не считаю, что у нас есть шанс стать лучшими - скорее мы станем просто более адекватно отвечать запросам в усеченном рекламном поисковике.
Zute, ранжирование и поиск - две принципиально разные задачи.
Zute, ранжирование и поиск - две принципиально разные задачи.
Да неужели ? Если поисковики выдают только Top N результатов, то ранжирование таки влияет на результаты поиска :)
Zute,
А кто сказал, что не влияет?! Конечно, влияет!!! Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.
И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.
Кто начал разговор при использовании нейросетей для поиска? Ерунда какая-то, причем здесь нейронка, что и как она должна искать? Может речь идет о бинарных деревьях, описывающих инвертированный индекс? Нейронка может применяться на этапе именно определения релевантности, но никак не на этапе создания набора страниц, которые нужно разпределить по релевантности.
Zute,
Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.
Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в классическом понимании. Имеем граф на N млрд. узлов и, кто его знает, сколько ребер. При этом он обязан быть связаным, чего в жизни нет. Стало быть, надо хотябы выделить сильно связанные компоненты, определить их соотношения. А далее (ой мама, не горюй) глубокая рекурсия по матрице NxN. Это не единственная компонента ранжирования и кто знает, какие еще методы предложит пытливый ум
Что касается нейронных сетей, то мой отец очень долго и серьезно этим занимался в академгородке Пущино, по его мнению (при встрече уточню), на практике их преспективно применять в распознавании образов (в нашем случае, по-моему, это авто-классификация). Кстати, проработав 20 лет над моделированием мозга, отец "плюнул" и ушел в монахи. Возможно это не имеет отношения к работе, однако - факт 🚬
Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в
...
Что касается нейронных сетей...
Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи.
Как мне кажется, "самый хороший поисковик" создать невозможно. Нельзя сделать "хорошо", можно лишь сделать "лучше". То есть, я не сомневаюсь в этом, можно сделать поисковик, который был бы лучше всех существующих.
Давай рассмотрим реальные примеры, причем не будем затрагивать те времена, когда стартовали Рамблер, Апорт и Яндекс. Посмотрим на момент выкатки Гугля.
Собственно, что произошло? Пацаны придумали некую новую метрику. Даже, по большому счету, не придумали, а применили к Инету ранее опубликованную методику ранжирования, разработанную не ими, и не для Инета, а для организации поиска в базах рефератов научных статей с перекрестными ссылками.
И оказалось, что применение этой метрики, этого способа вычисления релевантности, дало при минимальных вложениях в железо результаты, качество которых даже на первый взгляд превосходило качество результатов тогдашнего лидера поиска по ресурсам пендостана - Альтависты.
Народ прорюхал, стал заниматься ссылочным спамом, и качество поиска стало стремительно падать. Соотсетственно, был добавлен полнотекстовый компонент поиска.
Так и сейчас, если существует некая идея альтернативного ранжирования, альтернативной метрики прежде всего, которая даст заметное улучшение качества поиска, то построить лучший (на настоящий момент времени) поисковик вполне реально. Были б бабки :)
Андрюха, тема действительно уехала в ОФФ. А если вернуться к изначальному посту: может автор и вправду хочет создать _ВСЕ_ условия для разработки :) , а может не представляет, что это за условия, а может провокация на флейм.
Пойдем разрабатывать, а?
Прошу прощения за полуОФФ