Кстате, пример социально ориентированого поиска. Слово "сауз".
Здесь:
http://yandex.ua/yandsearch?lr=143&text=%D1%81%D0%B0%D1%83%D0%B7&csg=703%2C1653%2C4%2C4%2C0%2C0%2C0
И здесь:
http://booben.com/?q=%D1%81%D0%B0%D1%83%D0%B7
Яндекс его почемуто с соусом перепутал.
В простонароде же это просто знаменитый мультик Сауз Парк. :)
Подскажите, хочу добавить новую функциональность - популярность слова/термина на определенном сайте в разрезе времени. Понимаю что алгоритм простой и наверняка где-то реализован.
Чтото похожее Гугл-трендс, но насколько я понял он работает анализируя сами запросы, а не контент. Кто-то сталкивался с такой функциональностью ?---------- Добавлено 19.08.2014 в 12:52 ----------Забыл сказать. По фразам пока нормально не ищет, есть баги.
Там нужно отдельно чтото придумать, поскольку по сути это обработчик естественного языка.
1. Добавил в индекс еще один сайт. Тем самым разбавив айтишную тематику автотематикой. Теперь есть смысл поискать что-то и о машинах.
2. Оптимизировал алгоритм поиска ассоциативных связей, скорость поиска возросла в несколько раз.
Типичный запрос: http://booben.com/?q=камаз
Спасибо :)---------- Добавлено 17.08.2014 в 00:31 ----------В пятницу слетела ОСь без возможности восстановить, пришлось все переустанавливать с чистого листа. Надеюсь это не связано с железом. Всетаки на долю старенького винчестера пришлась переиндексация не одного терабайта информации, что не добавило ему здоровья.
После присоединил индексы на еще два сайта, итого индекс покрывает примерно 1.5 млн страниц текста с таких ресурсов как хабр, доу и скуль ру. Соответсвенно увеличилась задержка при поиске, сейчас она состатвляет примерно 10-15 сек. Напомню что в эти десять секунд процессору приходится делать миллионы простых подзапросов пересчитывая огромный граф ассоциаций и связей между словами. После этого результат кешируется и на следующем запросе отдается моментально. Другого способа ускорить этот процесс я пока что не вижу.---------- Добавлено 17.08.2014 в 01:09 ----------Теперь немного с Вашего позволения пофилософствую.
Всё я както пытаюсь равнятся на гугл или яндекс, но пока что в результатах такая пропасть что не пройти и не проехать. Похоже что в гугле или яндексе топы просто набили ручками. И с этой точки зрения гугл или яндекс имеет наиболее полезную выдачу. Это как ассистент.
Вводишь например слово "шерсть". Первые несколько ссылок на вики, потом парочка игр, потом пошли трикотажные фабрики. Гугл какбы говорит тебе:
- Ты спросил про шерсть ? Я знаю что такое шерсть, потому что я очень умный. Вот тебе ссылка на энциклопедию раз, два, три, четыре, пять, шесть. А вот есть такая трикотажная фабрика. И вообще тебе купить или продать ?
Очень хорошо, гуд джаб мистер Гугл. Спасибо что ответил что такое шерсть, как будто до этого я не знал, что пришлось целых шесть ссылок отдать в топе энциклопедии.
И вот ты сидишь, смотришь на комок шерсти на полу и думаешь. А что должен выдавать поисковик на слово "шерсть" ? Перезадал этот вопросс Бубну. Бубен чото там подшаманил, посчитал те самые 1.5 млн страниц трёпа на трёх форумах и какбы говорит тебе:
- Эй, братушка ! Без понятия что там написано в вики, по этому делу у меня есть большой брат. Но я тебя прекрасно понимаю ! В сети шерсть ассоциируют с кошечками и собачками. Шерсть это то с чем борятся их хозяйки и вообщем вот тебе топ, где это всё обсуждают.
Вот тут и мысли. Каким должен быть поиск ?
"Примерным отличником на пятёрочку с вики" или
"Ты хочешь поговорить об этом ?"
Две коррдинально противоположные стратегии в поиске. Гугл можно понять. Кому отдать топ как не вики если у тебя в результатах миллионы страниц. А с другой стороны, где душевность в поиске ? Где понимание ? Вообщем над этим всем мне еще стоит подумать и поискать свою нишу. 🍿
Физики хорошо знают что законы микромира и макромира практически диаметрально противоположны.
Тоже справедливо и для информационного мира. На маленьких обьемах данных большую роль играют разные флуктуации с хламом, случайными данными, дорвеями и прочьим. На больших обьемах данных их влияние постепенно уменьшается и с гигабайт "муссора" удается выцедить вполне осмысленные семантические цепочки и правила языка.
Огромные обьемы информации это ключик к ИИ и про это наверняка хорошо знает Гугл. Именно поэтому у него такая тяга проиндексировать всё, до чего только можно дотянутся. На больших обьемах данных и "мартышку можно научить читать".
Чемто похожим и я занимаюсь. Имея достаточно крупные обьемы данных, пытаюсь "выудить рыбку в мутной воде" :)
Блин, какието траблы с домашним интернетом.
Позвонил жене, попросил перегрузить роутер, но похоже не помогло.
Ладно, тогда вечером скорей всего заработает.
Вечером же, увеличу размер базы до трех сайтов. Будет интересней поиск.
Заработал.
Иногда могут быть перебои, поскольку сервер это старенький ноут который стоит дома на кухне )
Прикрутил динамическую подгрузку сниппетов.
http://booben.com/?q=стив
Завтра пейджинг постараюсь прикрутить и расширить базу до примерно 1.5 млн страниц.---------- Добавлено 15.08.2014 в 00:55 ----------Способность строить ассоциативные ряды, один из фундаментальных признаков интеллекта.
Сравните выдачу теплого лампового поиска на запрос кот
http://booben.com/?q=кот
Топ тем:
Лучший друг айтишника / Хабрахабр
Гуманная и эффективная мышеловка / Хабрахабр
Коты и счастье / Хабрахабр
И холодный расчет гугла по заголовкам.
https://www.google.com.ua/#q=site:habrahabr.ru+%D0%BA%D0%BE%D1%82
Аналитика. Кот. Пятница - Хабрахабр
Кардиостимулятор для кота Шредингера / Хабрахабр
«Умный» ошейник превратит вашего кота в Wi-Fi ...
Причина проста. Люди в сети (в частности на Хабре) ассоциируют кота с позитивными эмоциями, потому и выдача позитивных статей :)
Кстате задержка при поиске в несколько секунд, связана с пересчетом ассоциаций.
Чтобы пересчитать связи между словами всего лишь для одного запроса, нужно выполнить свыше 1 млн простых поисковых запросов.
Простой запрос, без выдачи ассоциативного ряда и релеванта результатов выполняется за микросекунды.
Чтобы пересчитывать ассоциации также нужно всю базу держать в памяти.
Здесь пригодился ужатый формат самого индексного файла.
Суммарный размер индекса занимает всего лишь 1-3% от размеров проиндексированого контента.