Bazist

Рейтинг
43
Регистрация
15.01.2014
BadSanta:
Тут прямо яндекс описан в примере плохого поисковика, который выдает как раз таки бесполезные сайты сборники статей, а гугл отлично ищет по форумам и индексирует их очень быстро

Да гугл вообщемто ищет по форумам на уровне поисковиков 90х, тоесть по заголовкам

забейте в гугл например

site:searchengines.guru автомобиль

По этому запросу в выдачу не попадут темы "Хочу купить крутую тачку" и обсуждения автомобилей внутри.

---------- Добавлено 23.11.2018 в 15:11 ----------

Сергей Нижегородцев:

А вы что ищете в поиске по форумам?

Ответы на вопросы

sybotin:
Ну у вас очень детское представление о демократии, все как раз таки и убивает наличия мусора, такого как реклама, например) А вообще я имел ввиду такой мусор как например реклама, срачи различные, просто вода, что бывает практически во всех сообщениях на форумах. Это нормально в контексте форума, но бесполезно при поиске информации. Нужны будут сложные алгоритмы или ИИ с самообучением.

Конечно есть откровенный муссор, напр. банеры и реклама.

Но в остальном ... как говорится .... а судьи кто ?

Интернет он ведь постоянно развивается.

Сейчас тыкнем пальцем, скажем, это муссор. Слово "дор" это деревянная дверь.

Но ведь дор на этом сайте это не дверь ☝

sybotin:
Это было бы вполне разумно, решило бы много проблем с поиском информации. Но как быть с фильтрацией мусора?

Ну для начала нужно определиться что есъмь мусор.

Напр. если проводить аналогию, то в развитых государствах перешли из модели аристократии к модели демократии.

В нашем случае, аристократия это википедия и другие авторитетные издания. А демократия, это когда будь ты президентом страны или безработным, у каждого есть равноценное право голоса. Именно на основе "мусорных" данных можно выделить наиболее ценную информацию, а в политике выбрать человека который устроит большинство в стране ☝

kaskentbobel:
Скоро год с начала темы, надо отписываться здесь в теме о серьёзных шагах технического прогресса, чтобы по данному топику можно было создать ступени эволюции технического прогресса через 10 лет (февраль 2028). Я начну:
Самсунг третью камеру к смартфону сзади присобачил... и вторую спереди... вроде бы.

Вчера решил запостить на хабр статейку, к сожалению заминусовали.

А суть там на самом деле достаточно интересна.

Когда в начале 2000-х было миллионы мелких сайтов, Пеидж Ранк работал хорошо, поскольку их ранджировал между собой.

А сейчас, в эпоху когда 90% контента генерят сами пользователи, поисковики предпочитают просто не искать в этом болотце и в топе 10% сайтов аля википедия.

В итоге имеем ситуацию. Даже если самый релевантный развернутый ответ появится на форуме вроде этого (а здесь между прочим не менее миллиона тем, большой кладезь знаний) то в топе эти темы не окажутся.

ИМХО в будуйщем поисковые системы, как раз должны быть как рыба в воде в той инфе, которые генерят сами пользователи.

юни:
Просветите, а само ранжирование (если этот термин приемлем к Вашим алгоритмам) отнимает много ресурсов?

От несколько миллисекунд ( для конструктора запросов ) до 10 сек (если нужно обсчитать ассоциативный граф на ходу). В плане ранжирования я еще провожу разные эксперименты.

юни:

Какой ширины канал нужен?

Ну давайте посчитаем, хотябы для рунета.

3+ млн. субдоменов. Пускай каждый сайт имеет около 100 страниц (понятно что есть сайты где 1 млн страниц, есть где 10 страниц ). Средняя страница занимает около 50 кб текста в интернете.

Допустим, вся база должна обновлятся каждую неделю полностью.

Итого:

3млн * 100стр * 50 кб = 15 тб трафа еженедельно.

Или ~25 мб ежесекундно. Или паук качает разные сайты одновременно в 500 потоков.

Или, чуток повзрослее, вся база должна обновлятся ежесуточно.

3млн * 100стр * 50 кб = 15 тб трафа ежедневно.

Или ~175 мб ежесекундно. Или паук (сеть пауков) качает разные сайты одновременно в 3500 потоков.

Поэтому, на данный момент размерами базы я особо не заморачиваюсь.

Больше пока делаю упор на качество поиска и разные эксперименты с ранжированием.

Как только будет устаканившаяся эффективная модель, можно будет рости в ширь.

Думаю что это будет уже скоро. :)

юни:
Bazist, я правильно понимаю, что поиск сейчас производится только нескольким ресурсам? Какова техническая нагрузка по ним? Какой она предположительно станет, если придётся обсчитывать, к примеру, Рунет первого уровня (3+ млн. доменов)?

Нагрузка по индексируемым 11 сайтам мизерная. Вся база живет в ОЗУ и ближайшие несколько месяцев (если не лет) там будет жить, беспрерывно обновляясь пауками. За несколько месяцев насобирался индекс аж в 200 мегабайт + (3 гб сам контент, который можно не хранить, а качать динамически по запросу). Теперь можете представить сколько нужно времени и индексированых сайтов, чтобы забить допустим 3 терабайта винчестер. Ну парочка рунетов точно влезет :) Впрочем я об этом пока не думаю, потому что узкое место для меня интернет канал, а не быстродействие самой машинки и возможности хранить этот контент.

ycthrice:
Первое сильно зависит от свежести индекса, но чисто технически, яша это может
http://yandex.ru/video/search?text=(site%3Asearchengines.guru%20%7C%20site%3Asearchengines.ru)%20date%3A20150701&safety=1

Тут вся суть в деталях. И Гугл и Яндекс умеют искать видео и картинки, отображая их единой простынёй плиток. Но только у меня всё медиа отображаются одной лентой с заголовками тем. Что делает с этой штуки наконецто реально полезный сервис, который лично я использую по 5 раз в день. Поскольку часто пользователи тянут на форумы самое интересное (каррикатуры, видео, кубы и тд).

ycthrice:

Второе сложнее, но впринципе возможно несколькими запросами

Это Вы погорячились.

У меня целый конструктор запросов, где можно указать множество условий и даже построить таблицу, что делает поиск более гибким.

Хитро, но сложно и негибко. У меня например через поисковик можно вытянуть одним запросом все статьи которые получили больше 100 комментов на хабре. Через хинт с урлом уже такое не сделать.

ycthrice:

Вам нужно либо выделить и решать какую-то конкретную задачу, либо запилить что-то доселе невиданное и офигенно удобное. Пока не похоже.
Расскажите попонятнее какие задачи может решить и эффективно решает ваш концепт, кому это может быть полезно и будут ли люди этим пользоваться?

Да вроже уже немного пользуются.

По томуже Алехе на 500к за пару месяцев запрыгнули без любой (платной) рекламы и это еще не успев засветится на таких ресурсах как хабрахабр.

ycthrice:

На данный момент я не вижу применимости данной системы для широкой публики, !но пообная вещь вполне может оказаться полезной для всяких ИМ или политиков(негативные отзывы) или Милонова (нипахристиански) но для этого ее нужно сделать более узкой и профессиональной

Такое уже есть. Юскан называется.

tulkin:
А не могли бы вы привести пример таких запросов другого уровня. Не, я без стёба, действительно интересно (сам сейчас работаю над концептуальной интернет-штуковиной, но немного в другой области).

Ну разные запросы есть.

Например получить все запощенное видео с ресурса searchengines за вчера.

http://booben.com/Query?q2=CustomPhrase%2Bssearch%20%40yesterday%20%40vid%2B1&s=online&a=search&p=1

Или получить все политические холиворы, которые кипели, тоже за вчера

http://booben.com/Query?q1=ManyItemsFromCategory%2B%D0%9F%D0%BE%D0%BB%D0%B8%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5%20%D1%85%D0%BE%D0%BB%D0%B8%D0%B2%D0%BE%D1%80%D1%8B%2B1&q2=CustomPhrase%2Bssearch%20%40yesterday%2B1&s=online&a=search&p=1

Или получить все темы в которых больше 100 страниц

http://booben.com/Query?q2=CustomPhrase%2Bssearch%20p0000100%2B1&s=online&a=search&p=1

И тд тд тд.

Больше есть в моем блоге

tulkin:
Не, не просто мордочка. Введите что-нибудь в поиск, и слева от выдачи будет умный фильтр, пытающийся разбить выдачу по тематикам.

Ну не важно как это все оформлено. Нигма использует АПИ существующих поисковых систем, не имеет пауков, не имеет собственной базы данных. Соответственно ее возможности ограничены возможностями этих поисковых систем.

А я не ограничен. Предоставляю возможность запросов совершенно другого уровня пользователю.

Эти запросы невозможно выполнить не в Гугле, не в Яндексе не в других поисковых системах, кроме моей.

tulkin:
А это не тоже самое, что nigma.ru?

А что, нигма умеет такоеже делать ?

Помоему это просто мордочка к существующим поисковым системам.

У меня же своя поисковая экосистема, с спайдером, базой данных и собственно самым поисковым движком. Потому я могу выполнять запросы совершенно другого уровня ☝

Всего: 144