- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Если сравнивать выдачу с другими поисковыми системами, например, Гугл, то получается у поисковика выдача более социально ориентирована. Нельзя сказать что эта выдача лучше или хуже чем у гугла, по сути она просто другая. Гугл старается сделать более "энциклопедическую выдачу". Например, по запросу "золото" пытается вернуть информацию о драгоценном метале и его химическом составе. У меня выдача, более социально ориентирована. Понятие золото, достаточно атрофировано в социальных сетях и подвязано чаще всего к золотовалютным резервам стран, поэтому движок делает релевантными страницы которые хорошо рассказывают о золотовалютных резервах других стран.
Если сделать запросы по технологиям, то хороший рейтинг получают страницы которые "перемывают косточки" технологиям. Например по запросу "винда" поисковик выдает первыми страницами, где говорят о зависаниях, перезагрузках, синих экранах, вирусах и прочьих особенностях технологии. Тогда как Гугл просто пытается рассказать что такое Виндовз в энциклопедической манере.
Кстати да, неплохо сделать, чтобы пользователь мог выбирать что он ищет:
энциклопедические данные, коммерческую информацию, интернет-мемы и т.д.
Потому что однозначно решить какой сайт важней и какая страница максимально релевантна запросу без этого нельзя.
Bazist, Попробуйте посмотреть в сторону гео привязки, тематики, социальных факторов (лайки, репосты). Так же рекомендую сделать вам внутренний каталог сайтов, чтобы вы могли присваивать регион, тематику, соц. страницы ресурса, язык, описание и т.п...
Это все ручная работа и "костыли" с которыми работают современные ПС. Чтобы внедрить такие вещи, нужно задействовать крупный штат сотрудников. Я пока что пытаюсь найти красивый, элегантный и главное автоматический алгоритм.
Пока что вижу что тестируемый алгоритм:
1. Решает проблему стемминга, синонимов и др. При наличие достаточно большой БД, алгоритм четко выбирает асоциативные связи между терминами, проводит параллели.
Например если указать в поисковом запросе "Путин" то и попадут все страинцы с аналогичными словами: Путину, Путина, Путином, ВВП, Владимир Владимирович и тд. И это делается в автоматическом режиме, на базе сформированых ассоциаций.
Тоесть если мы проиндексируем корейский форум, то все тоже можно будет сделать в терминах корейского языка. Провести ассоциативные связи.
2. Решает проблему случайных попаданий. Например если слово "Гольф" чаще всего упоминается в контексте авто Фольцваген, то страницы где "Гольф" упоминается как спорт будут отсеяны.
Пока что я вижу что алгоритм может быть не плох, если нужно сделать локальный поиск по сайту.
При условии, что на этом сайте есть достаточное количество страниц, чтобы сформировать устойчивую базу знаний асоциаций. Думается в этом направлении можно еще много чего интересного раскопать.
---------- Добавлено 23.07.2014 в 11:25 ----------
Кстати да, неплохо сделать, чтобы пользователь мог выбирать что он ищет:
энциклопедические данные, коммерческую информацию, интернет-мемы и т.д.
Потому что однозначно решить какой сайт важней и какая страница максимально релевантна запросу без этого нельзя.
Хочу реализовать в этом направлении поиск по словарям.
Тоесть пользователь в качестве поисковой строки задает не фразу, а словарь.
И дальше выбирается наиболее соответствующие этому словарю страницы.
Он еще работает?
Эх, посидел вечер, както прикрутил и запустил ☝
http://booben.com
Пока что подключена только база Хабра (больше 200 тыс статей).
---------- Добавлено 13.08.2014 в 02:58 ----------
Ну и можно сравнить выдачу для типичного запроса.
Например, ищем слово беспилотник.
Гугл выдача:
https://www.google.com.ua/#q=site:habrahabr.ru+%D0%B1%D0%B5%D1%81%D0%BF%D0%B8%D0%BB%D0%BE%D1%82%D0%BD%D0%B8%D0%BA
Бубен выдача:
http://booben.com?q=беспилотник
Тестирую потихоньку поиск. Конечно большой процент муссорных или неочевидных результатов. Частично сказывается маленькая база "знаний", алгоритму тяжело проассоциировать термин, большой процент случайных вхождений.
И частично, нужно тюнить алгоритм. В целом, если термин хорошо освящен на Хабре, то результаты вполне себе приличные.
Например поисковое слово доска
http://booben.com?q=доска
Выдача топ 5 статей:
Идеальная маркерная доска
Бюджетная маркерная доска
Меловой период
Компьютерный класс в Грузии
Интеллектуальная доска SmartBoard 690
Гугл выдача:
Маркерная доска своими руками / Хабрахабр
Бюджетная маркерная доска / Хабрахабр
Идеальная маркерная доска / Хабрахабр
Интерактивные доски. Зачем они и для кого? / Хабрахабр
Бюджетная доска для писания маркером (Glass ...
Слежу за проектом, надеюсь не загнётся.
Может получиться что-то действительно достойное.
Кстате задержка при поиске в несколько секунд, связана с пересчетом ассоциаций.
Чтобы пересчитать связи между словами всего лишь для одного запроса, нужно выполнить свыше 1 млн простых поисковых запросов.
Простой запрос, без выдачи ассоциативного ряда и релеванта результатов выполняется за микросекунды.
Чтобы пересчитывать ассоциации также нужно всю базу держать в памяти.
Здесь пригодился ужатый формат самого индексного файла.
Суммарный размер индекса занимает всего лишь 1-3% от размеров проиндексированого контента.
Прикрутил динамическую подгрузку сниппетов.
http://booben.com/?q=стив
Завтра пейджинг постараюсь прикрутить и расширить базу до примерно 1.5 млн страниц.
---------- Добавлено 15.08.2014 в 00:55 ----------
Способность строить ассоциативные ряды, один из фундаментальных признаков интеллекта.
Сравните выдачу теплого лампового поиска на запрос кот
http://booben.com/?q=кот
Топ тем:
Лучший друг айтишника / Хабрахабр
Гуманная и эффективная мышеловка / Хабрахабр
Коты и счастье / Хабрахабр
И холодный расчет гугла по заголовкам.
https://www.google.com.ua/#q=site:habrahabr.ru+%D0%BA%D0%BE%D1%82
Топ тем:
Аналитика. Кот. Пятница - Хабрахабр
Кардиостимулятор для кота Шредингера / Хабрахабр
«Умный» ошейник превратит вашего кота в Wi-Fi ...
Причина проста. Люди в сети (в частности на Хабре) ассоциируют кота с позитивными эмоциями, потому и выдача позитивных статей :)
чето сайт не работает((
Заработал.
Иногда могут быть перебои, поскольку сервер это старенький ноут который стоит дома на кухне )
Заработал.
Иногда могут быть перебои, поскольку сервер это старенький ноут который стоит дома на кухне )
иногда мне кажется, что яндекс - это тоже поиск на стареньком ноуте:)
---------- Добавлено 15.08.2014 в 11:24 ----------
ну вот опять завис.