timo-71, Вы всё усложняете 😀 пайтон не обязателен и делается всё гораздо проще.
Подбор ключевых слов я сделал. Теперь мне архитектуру сущностей и поиск по запросу осталось сделать.
Вот я и продумываю методику.
Для существующих поисковиков можно конечно указывать ключевики и в ручную.
А вот по сайтам на своём движке можно же разработать свою методику. Сейчас я пока смутно представляю как я это сделаю, но немного поэкспериментировав уже вырисовывается определённая картинка.
Первый человек закидывает текст на свой сайт на моём движке. Движок анализирует текст, определяет тематику* и подбирает ключевые слова(которые в принципе можно указать в метатеге keywords). Второй человек набирает в поиске запрос. Движок по запросу определяет тематику** и делает запрос по сайтам тематики. В результате второй человек получает список страниц с нужной ему информацией.
*- Для определения тематики хочу составлять списки ключевых слов относящиеся к той или иной тематике. Для ускорения можно указывать тематику в ручную, тогда будет проверка только по словам одной тематики.
**- По словам запроса производиться анализ и выбор нужного направления поиска.
Вопрос: Где можно найти списки слов для определённой тематики?
Хочу для тематики определять так же ключевые слова по которым определять направление, затем делать запросы к сайтам той или иной тематики.
Ключевые слова, фразы (леммы) по частотности в документе.
Специфические термины для тематики не получиться найти в рамках одного документа. Скорее они будут не точны, если брать за термины слова по высокому IDF.
Сделал тестовый класс в котором находятся заголовки и абзацы. Затем удаляются слова меньше 4 букв и из словаря всякие предлоги, местоимения, частицы, наречия и др. Потом находятся часто употребляемые.
Но что-то не очень нравится. Посоветовался с знакомой филологом сказала лучше искать существительные и прилагательные, которыми в большей степени определяется суть предложения.
Посмотрел исходники разных сайтов, сейчас что нигде ключевые слова в мета-тегах не указывают? Если буду указывать только существительные с прилагательными как поисковики будут реагировать?
Нет конечно 😀
Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.
Так же думаю сделать поиск по сайтам на своём движке. Вот и всё.
В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.
На основе собственных граблей, куда наступил в процессе.
Я извиняюсь. У вас я вижу просто поиск повторений слов, что по сути не даёт для будущей логики поиска хорошего результата. По моему суть алгоритма должна быть следующая:
1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.
2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.
3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)
Вот вам и Bitrix хвалёный 😂
1) Кто будет решать какие сайты попадут в это сообщество? Кто будет модерировать, что в каталог сайтов, например, по финансам не попадёт медицинский сайт или же просто набор слов для редиректа на какой-то другой сайт?
2) Что будет если пользователь введёт запрос "курс доллара в сбербанке", а сайт сбербанка не на вашей платформе?
3) Кто будет перепроверять данные, которые приходят от сайта на сервис поиска? Например, я ищу "ремонт авто в Пушкино", а сайт сервиса из Можайска, который хочет заполучить клиентов подкинет себя?
Чего тут понимать-то.
Вы считаете, что лучше существующих поисковиков больше ничего не может быть. Это позиция неудачника, который смерился с текущей своей ситуацией.
Я не борюсь с мельницами, я создаю более перспективные мельницы чем существующие 😀 но вам этого не понять..