Разборка поискового запроса. Что читать?

12
Lor
На сайте с 28.05.2004
Offline
353
Lor
2513

Накидайте пожалуйста что читать по сабжу.

Грубо говоря, надо то что юзер ищет превратить в поисковый запрос для базы данных.

Да. Делаю свой Гугл. :)

Йопез - форум без модераторов. https://yopez.com
Sly32
На сайте с 29.03.2012
Offline
302
#1

Если делаете свой гугл, может, сначала научитесь пользоваться тем, что уже есть???

adel92
На сайте с 04.01.2012
Offline
334
#2

Прям именно про это нет, но вот на около тематику:

https://habrahabr.ru/post/244561/

Может чего подчерпнете с оттуда.

сначала научитесь пользоваться тем, что уже есть?

Может он потому и делает свой гугл.)

NVMe VDS (https://well-web.net/nvme-vps) с поддержкой 24/7 - от 545 руб.! Безлимитный хостинг (https://well-web.net/ssd-hosting) - от 129 руб.! Домен в подарок! Перенос бесплатно! Заказывайте сейчас, и получите скидку 50%! Заходи! (https://well-web.net/limited-offers)
CP
На сайте с 12.08.2009
Offline
101
#3

Elasticsearch - крутая штука для поиска, можно вытворять очень интересные вещи и самое главное быстрый как пуля.

Профессиональный frontend: JS, html,css, Single-Page App (/ru/forum/964386)
danforth
На сайте с 18.12.2015
Offline
153
#4

Возьмите готовый инструмент: Sphinx, Solr, Elasticsearch. Свое писать - не хватит жизни и костылей.

Junior Web Developer
Lor
На сайте с 28.05.2004
Offline
353
Lor
#5
danforth:
Возьмите готовый инструмент: Sphinx, Solr, Elasticsearch. Свое писать - не хватит жизни и костылей.

Вопрос не в Sphinx или Elastic. Что им скармливать - это задача.

Надо из запроса "дешевые пластиковые окна красного цвета" сделать: "окна" + "пластиковые" + "дешевые, красные".

CP
На сайте с 12.08.2009
Offline
101
#6

Совсем не понял что хотите сделать) Ну прям элементари, берем основы слов с помощью стемминга и ищем документы в которых есть эти слова, по каким либо правилам. Чем умней поиск, тем правила сложней.

ErrorNeo
На сайте с 25.09.2013
Offline
57
#7
Content-pro:
берем основы слов с помощью стемминга и ищем документы в которых есть эти слова, по каким либо правилам. Чем умней поиск, тем правила сложней.

угу. И расставляем сайты по авторитетности. А для оценки авторитетности по-минимуму можно юзануть alexa-top-1-million топ-400-тыс Li, ТИц и MOZ.

Ну а в идеале, конечно, потом уже составить карту перекрестных ссылок со всех сайтов, и ранжировать на основе неё.

Первое серьезное препятствие - нужно иметь возможность регулярно сканировать кучу страниц нескольких миллионов сайтов + находить новые страницы + анализировать страницы и формировать заранее высчитанные индексы по сотням тысяч запросов.

https://ru.wikipedia.org/wiki/%D0%A6%D0%B5%D0%BD%D1%82%D1%80_%D0%BF%D1%80%D0%B0%D0%B2%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D1%81%D0%B2%D1%8F%D0%B7%D0%B8 - работать бы в подобной роганизации, и получить одобрение начальства. Можно и поисковик делать.

Не помню где видел, но было написано, сколько и какого оптовлолкна туда проложено. Цифры были бредово большими, то ли несколько тысяч то ли десятков тысяч гигабитных линий. Делалось вроде под проект https://en.wikipedia.org/wiki/Mastering_the_Internet

Работать с сетью на таких мощностях... наверное работа мечты)

выкуп квартир (http://vikup34.com/kvartir/) | выкуп авто (http://avto.vikup34.com/) | о нас (http://vikup34.com/about/) | сопровождение сделок (http://vikup34.com/soprovozhdenie-sdelok/)
богоносец
На сайте с 30.01.2007
Offline
753
#8
ErrorNeo:
Работать с сетью на таких мощностях... наверное работа мечты)

А что именно будет работать с сетью «на таких мощностях» роспила?.. в эпоху вымирания яндексов.

pro-maker
На сайте с 08.12.2003
Offline
281
#9
Lor:
Грубо говоря, надо то что юзер ищет превратить в поисковый запрос для базы данных

Если упрощенно задача в том, чтобы сграбить семантику у конкурентов и по быстрому под нее привлекать поисковый трафик, короткий ответ - надо ключевики классифицировать (отсев нетематики) и группировать (фактически разметка по страницам, попутно выделяется маркерный запрос, характеризующий группу). По классификации можно поискать описания на Меджике, а кластеризации - на Раше.

Lor
На сайте с 28.05.2004
Offline
353
Lor
#10
pro-maker:
Если упрощенно задача в том, чтобы сграбить семантику у конкурентов ...

Ну вы СЕОшники мыслите как зашоренные лошадки ... 😂 😂 😂

Речь вообще не идет о СЕО. Речь о поиске в базе данных. В принципе я уже сделал черновой вариант на базе перлового Lingua::LinkParser, Lingua::EN::Tagger и прочего. Более менее приемлимо.

Всем спасибо за ответы. Почитал в интернете обо всем этом. Все разработки ушли в коммерцию нынче. Все бесплатное уже лет 10 как не обновлялось.

Еще понял, что максимум в чем разбираются сегодня 99% вебмастеров - это настройка плагина к WordPress-у.

😂 😂 😂

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий