- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева

Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Собственно, для поиска документов нейросеть подойдет вряд ли, даже если
ей скармливать уже готовый индекс...
И тем не менее, нейронные сети применяются MSN Search и DataparkSearch, правда для ранжирования, а не для классификации.
Ну, можно здорово ограничить количество подаваемых слов при обучении сети. Для этого нужно подавать на вход сети не все слова документа, а только "значимые". Значимость определять из частоты встречаемости слова (TF) во всей коллекции документов, т.е. грубо говоря отбрасывать слишком распространенные слова.
Все равно, мне кажется, что слишком многомерный вектор получится, и не понятно, как с координатами, как ориентировать и пр. Для этого, похоже, нужны мощности сильно превосходящие существующие. Хотя исключать этого нельзя. Простой пример из жизни: у меня сейчас в кармане лежит КПК, который превосходит по всем параметрам на порядок тот компьютер, на котором в 1996 году я сделал Rambler 🚬
В любом случае, для построения конкурентного поисковика надо иметь некие ноу-хау, которые можно реально дать пощупать пользователю, но скромно умолчать о том, как в деталях это работает
upindex,
это очень похвально. Только как быть с остальными? они же считают себя лучшими. Насколько Ваше мнение объективно?
например, мы наконец у себя сформулировали тесты по определению Page IQ , помимо весов страниц будем использовать и это (конец ноября).
Только я не считаю, что у нас есть шанс стать лучшими - скорее мы станем просто более адекватно отвечать запросам в усеченном рекламном поисковике.
Zute, ранжирование и поиск - две принципиально разные задачи.
Zute, ранжирование и поиск - две принципиально разные задачи.
Да неужели ? Если поисковики выдают только Top N результатов, то ранжирование таки влияет на результаты поиска :)
Zute,
А кто сказал, что не влияет?! Конечно, влияет!!! Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.
И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.
Кто начал разговор при использовании нейросетей для поиска? Ерунда какая-то, причем здесь нейронка, что и как она должна искать? Может речь идет о бинарных деревьях, описывающих инвертированный индекс? Нейронка может применяться на этапе именно определения релевантности, но никак не на этапе создания набора страниц, которые нужно разпределить по релевантности.
Zute,
Но ранжирование - это всего лишь часть поиска. И, на мой взгляд, не самая сложная. И мне кажется, поиск по индексам нейросети осилить куда сложней, чем результаты ранжировать.
Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в классическом понимании. Имеем граф на N млрд. узлов и, кто его знает, сколько ребер. При этом он обязан быть связаным, чего в жизни нет. Стало быть, надо хотябы выделить сильно связанные компоненты, определить их соотношения. А далее (ой мама, не горюй) глубокая рекурсия по матрице NxN. Это не единственная компонента ранжирования и кто знает, какие еще методы предложит пытливый ум
Что касается нейронных сетей, то мой отец очень долго и серьезно этим занимался в академгородке Пущино, по его мнению (при встрече уточню), на практике их преспективно применять в распознавании образов (в нашем случае, по-моему, это авто-классификация). Кстати, проработав 20 лет над моделированием мозга, отец "плюнул" и ушел в монахи. Возможно это не имеет отношения к работе, однако - факт 🚬
Оставляя в покое "поиск по индексам нейросети" (я это не очень понимаю), позволю себе не согласиться с утверждением о простоте ранжирования. Взять к примеру преславутый гуглевский PageRank. Вы можете прикинуть затраты на его вычисления в
...
Что касается нейронных сетей...
Димыч, на самом деле, если обращаться к истокам темы, то, как мне кажется, изначальную постановку задачи следует переформулировать, а то тут форум уже уехал, как это обычно бывает в обсуждениях разработчиков, в решение конкретной проблемы о применимости нейросетей для ранжирования выдачи.
Как мне кажется, "самый хороший поисковик" создать невозможно. Нельзя сделать "хорошо", можно лишь сделать "лучше". То есть, я не сомневаюсь в этом, можно сделать поисковик, который был бы лучше всех существующих.
Давай рассмотрим реальные примеры, причем не будем затрагивать те времена, когда стартовали Рамблер, Апорт и Яндекс. Посмотрим на момент выкатки Гугля.
Собственно, что произошло? Пацаны придумали некую новую метрику. Даже, по большому счету, не придумали, а применили к Инету ранее опубликованную методику ранжирования, разработанную не ими, и не для Инета, а для организации поиска в базах рефератов научных статей с перекрестными ссылками.
И оказалось, что применение этой метрики, этого способа вычисления релевантности, дало при минимальных вложениях в железо результаты, качество которых даже на первый взгляд превосходило качество результатов тогдашнего лидера поиска по ресурсам пендостана - Альтависты.
Народ прорюхал, стал заниматься ссылочным спамом, и качество поиска стало стремительно падать. Соотсетственно, был добавлен полнотекстовый компонент поиска.
Так и сейчас, если существует некая идея альтернативного ранжирования, альтернативной метрики прежде всего, которая даст заметное улучшение качества поиска, то построить лучший (на настоящий момент времени) поисковик вполне реально. Были б бабки :)
Андрюха, тема действительно уехала в ОФФ. А если вернуться к изначальному посту: может автор и вправду хочет создать _ВСЕ_ условия для разработки :) , а может не представляет, что это за условия, а может провокация на флейм.
Пойдем разрабатывать, а?
Прошу прощения за полуОФФ