Да гугл вообщемто ищет по форумам на уровне поисковиков 90х, тоесть по заголовкам
забейте в гугл например
site:searchengines.guru автомобиль
По этому запросу в выдачу не попадут темы "Хочу купить крутую тачку" и обсуждения автомобилей внутри.---------- Добавлено 23.11.2018 в 15:11 ----------
Ответы на вопросы
Конечно есть откровенный муссор, напр. банеры и реклама.
Но в остальном ... как говорится .... а судьи кто ?
Интернет он ведь постоянно развивается.
Сейчас тыкнем пальцем, скажем, это муссор. Слово "дор" это деревянная дверь.
Но ведь дор на этом сайте это не дверь ☝
Ну для начала нужно определиться что есъмь мусор.
Напр. если проводить аналогию, то в развитых государствах перешли из модели аристократии к модели демократии.
В нашем случае, аристократия это википедия и другие авторитетные издания. А демократия, это когда будь ты президентом страны или безработным, у каждого есть равноценное право голоса. Именно на основе "мусорных" данных можно выделить наиболее ценную информацию, а в политике выбрать человека который устроит большинство в стране ☝
Вчера решил запостить на хабр статейку, к сожалению заминусовали.
А суть там на самом деле достаточно интересна.
Когда в начале 2000-х было миллионы мелких сайтов, Пеидж Ранк работал хорошо, поскольку их ранджировал между собой.
А сейчас, в эпоху когда 90% контента генерят сами пользователи, поисковики предпочитают просто не искать в этом болотце и в топе 10% сайтов аля википедия.
В итоге имеем ситуацию. Даже если самый релевантный развернутый ответ появится на форуме вроде этого (а здесь между прочим не менее миллиона тем, большой кладезь знаний) то в топе эти темы не окажутся.
ИМХО в будуйщем поисковые системы, как раз должны быть как рыба в воде в той инфе, которые генерят сами пользователи.
От несколько миллисекунд ( для конструктора запросов ) до 10 сек (если нужно обсчитать ассоциативный граф на ходу). В плане ранжирования я еще провожу разные эксперименты.
Ну давайте посчитаем, хотябы для рунета.
3+ млн. субдоменов. Пускай каждый сайт имеет около 100 страниц (понятно что есть сайты где 1 млн страниц, есть где 10 страниц ). Средняя страница занимает около 50 кб текста в интернете.
Допустим, вся база должна обновлятся каждую неделю полностью.
Итого:
3млн * 100стр * 50 кб = 15 тб трафа еженедельно.
Или ~25 мб ежесекундно. Или паук качает разные сайты одновременно в 500 потоков.
Или, чуток повзрослее, вся база должна обновлятся ежесуточно.
3млн * 100стр * 50 кб = 15 тб трафа ежедневно.
Или ~175 мб ежесекундно. Или паук (сеть пауков) качает разные сайты одновременно в 3500 потоков.
Поэтому, на данный момент размерами базы я особо не заморачиваюсь.
Больше пока делаю упор на качество поиска и разные эксперименты с ранжированием.
Как только будет устаканившаяся эффективная модель, можно будет рости в ширь.
Думаю что это будет уже скоро. :)
Нагрузка по индексируемым 11 сайтам мизерная. Вся база живет в ОЗУ и ближайшие несколько месяцев (если не лет) там будет жить, беспрерывно обновляясь пауками. За несколько месяцев насобирался индекс аж в 200 мегабайт + (3 гб сам контент, который можно не хранить, а качать динамически по запросу). Теперь можете представить сколько нужно времени и индексированых сайтов, чтобы забить допустим 3 терабайта винчестер. Ну парочка рунетов точно влезет :) Впрочем я об этом пока не думаю, потому что узкое место для меня интернет канал, а не быстродействие самой машинки и возможности хранить этот контент.
Тут вся суть в деталях. И Гугл и Яндекс умеют искать видео и картинки, отображая их единой простынёй плиток. Но только у меня всё медиа отображаются одной лентой с заголовками тем. Что делает с этой штуки наконецто реально полезный сервис, который лично я использую по 5 раз в день. Поскольку часто пользователи тянут на форумы самое интересное (каррикатуры, видео, кубы и тд).
Это Вы погорячились.
У меня целый конструктор запросов, где можно указать множество условий и даже построить таблицу, что делает поиск более гибким.
Хитро, но сложно и негибко. У меня например через поисковик можно вытянуть одним запросом все статьи которые получили больше 100 комментов на хабре. Через хинт с урлом уже такое не сделать.
Да вроже уже немного пользуются.
По томуже Алехе на 500к за пару месяцев запрыгнули без любой (платной) рекламы и это еще не успев засветится на таких ресурсах как хабрахабр.
Такое уже есть. Юскан называется.
Ну разные запросы есть.
Например получить все запощенное видео с ресурса searchengines за вчера.
http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40yesterday%20%40vid%2B1&s=online&a=search&p=1
Или получить все политические холиворы, которые кипели, тоже за вчера
http://booben.com/Query?q1=ManyItemsFromCategory%2B%D0%9F%D0%BE%D0%BB%D0%B8%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5%20%D1%85%D0%BE%D0%BB%D0%B8%D0%B2%D0%BE%D1%80%D1%8B%2B1&q2=CustomPhrase%2Bssearch%20%40yesterday%2B1&s=online&a=search&p=1
Или получить все темы в которых больше 100 страниц
http://booben.com/Query?q2=CustomPhrase%2Bssearch%20p0000100%2B1&s=online&a=search&p=1
И тд тд тд.
Больше есть в моем блоге
Ну не важно как это все оформлено. Нигма использует АПИ существующих поисковых систем, не имеет пауков, не имеет собственной базы данных. Соответственно ее возможности ограничены возможностями этих поисковых систем.
А я не ограничен. Предоставляю возможность запросов совершенно другого уровня пользователю.
Эти запросы невозможно выполнить не в Гугле, не в Яндексе не в других поисковых системах, кроме моей.
А что, нигма умеет такоеже делать ?
Помоему это просто мордочка к существующим поисковым системам.
У меня же своя поисковая экосистема, с спайдером, базой данных и собственно самым поисковым движком. Потому я могу выполнять запросы совершенно другого уровня ☝