Сижу в Поисковых технологиях =)
Добавил для удобства ссылки в разделе ассоциаций. Стало удобно серфить по сети ассоциаций.
Немножко предметной области. База скуль.ру содержит примерно 56 гб текста.
Средняя длина слова в русском языке восемь символов. Значит общая база знаний содержит около 6 млрд фактов, тоесть элементарных связей между словами и документами. Всё это добро хорошо ужимается и занимает всего около 500 мб сжатого индекса, который умещается в ОЗУ. Если всё это обсчитать, то образовуется огромный граф, примерно на 3.5 млн слов. Каждое слово это вершина, каждая ассоциация - связь между вершинами. Чем крепче связь, тем ближе слова в смысловой нагрузке друг к другу. Собственно сам поисковик моделирует такую сеть ассоциаций и позволяет серфить по ней.
Очевидно что умение построить правильный ассоциативный ряд, самый фундаментальный признак интеллекта. Всё что делать это не умеет не может претендовать даже на элементарный интеллект. Второй признак интеллекта, это класификация. И если хорошо вдуматься, то из связей выцедить класификацию можно, вопрос это вычислительных ресурсов. Как минимум можно определить связи между словами как синонимы и определения.
Всё это работает в классической схеме описаной писателями фантастами. Некоему алгоритму скормили просто много текста, он както обучился и на выходе вывел правила русского языка в простейшей его форме, вывел связи между словами и закоромерности.
Третий признак интеллекта, это оперирование терминами.
Добавил на отдельную страницу статистику по терминам.
Теперь можно сравнивать термины по популярности в разрезе времени
на определенном сайте.
http://booben.com/Stat?q=%D0%BF%D1%83%D1%82%D0%B8%D0%BD%20%D0%BC%D0%B5%D0%B4%D0%B2%D0%B5%D0%B4%D0%B5%D0%B2&s=sql.ru
http://booben.com/Stat?q=%D1%83%D0%BA%D1%80%D0%B0%D0%B8%D0%BD%D0%B0%20%D1%80%D0%BE%D1%81%D1%81%D0%B8%D1%8F&s=sql.ru
http://booben.com/Stat?q=%D0%BC%D0%BE%D1%81%D0%BA%D0%B2%D0%B0%20%D0%BA%D0%B8%D0%B5%D0%B2%20%D0%BC%D0%B8%D0%BD%D1%81%D0%BA&s=sql.ru
http://booben.com/Stat?q=%D0%B2%D0%BE%D0%B9%D0%BD%D0%B0%20%D0%BC%D0%B8%D1%80&s=sql.ru
и тд.
Ну вот, каждый школьник знает что сауз это сауз парк. А у вас "нет в русском языке", искать не будем. Хотите соус ?
Поэтому печеньки там будет печенье к чаю, сауз соусом, а борщ и сало всеголишь борщом и салом. И всеравно, что в канонической форме эти слова используются, наверное, в меньше 5% случаев.
Язык и общество непрерывно развивается и постоянно модернизирует свои определения терминов.
Впрочем, вопрос это холиворный. Должна поисковая система выдавать на слово "печеньки" печенье к чаю, или тему которая взорвала рунет и поменяла определение печенюшек. 🍿 ---------- Добавлено 20.08.2014 в 14:05 ---------- Вот кстате еще один интересный пример.
Мем Ксеня, который настолько известен, что освещен на Лурке и на Лурке дана ссылка на sql.ru с знаменитой темой о Ксене.
Яндекс здесь себя повёл чуть-чуть лучше. И выдал тему о Луговском. Но и то, чисто случайно, поскольку какойто пользователь создал непопулярную темку на одну страничку.
http://www.sql.ru/forum/477571/ksenya-lugovskoy-razrabotchik-vakuumnoy-bomby
Бубен же совершенно железно нашел знаменитую тему матку о Луговском на Скуль.Ру
http://www.sql.ru/forum/466654-1
Естественно, чтобы ее найти, нужно анализировать чуток глубже чем заголовки страниц :)
Дело не в языке. В украинском нету такого слова "сауз". Примеров можно найти, думаю, много.
Просто другой принцип поиска. В Яндексе это нужно ручками подправлять, у меня в автоматическом режиме пересчитываются ассоциации.---------- Добавлено 20.08.2014 в 12:52 ----------Вот, кстате, один из интересных примеров.
На форуме sql.ru есть локальный мем про печеньки. Связан он с манагером который хотел написать соцсеть и завлекал разработчиков печеньками. Тема заняла свыше 200 страниц и этот мем разошелся по остальной сети в интернет.
Так вот Бубен пересчитывает эти ассоциации и находит тему матку.
http://booben.com/?q=печеньки&s=sql.ru
В ассоциативном ряде все мемы связанные с этим проектом.
Яндекс же выдает какуюто билиберду, используя дубовый алгоритм - если в заголовке есть слово печеньки то выводим эту тему.
http://yandex.ua/yandsearch?lr=143&text=sql.ru+%D0%BF%D0%B5%D1%87%D0%B5%D0%BD%D1%8C%D0%BA%D0%B8&csg=152%2C6490%2C15%2C21%2C0%2C0%2C0
Короче это просто другой способ поиска. ИМХО он более эффективный на социальных ресурсах, где складывается своя субкультура.
Выдача с Яндексом конечно отличается.
Более социально ориентированый поиск.
И у меня выдача
http://booben.com/?q=сауз&s=sql.ru
Смотреть вложение 🍿
Вернулся к модели "один поиск = один сайт"
Мешать индексы с разных сайтов в один вижу что не очень эффективно, нужно ранжировать приоритеты сайтов между собой
Добавил тренды
http://booben.com/?q=%D0%BE%D1%80%D0%B0%D0%BA%D0%BB&s=sql.ru