Вот я и продумываю методику.
Для существующих поисковиков можно конечно указывать ключевики и в ручную.
А вот по сайтам на своём движке можно же разработать свою методику. Сейчас я пока смутно представляю как я это сделаю, но немного поэкспериментировав уже вырисовывается определённая картинка.
Первый человек закидывает текст на свой сайт на моём движке. Движок анализирует текст, определяет тематику* и подбирает ключевые слова(которые в принципе можно указать в метатеге keywords). Второй человек набирает в поиске запрос. Движок по запросу определяет тематику** и делает запрос по сайтам тематики. В результате второй человек получает список страниц с нужной ему информацией.
*- Для определения тематики хочу составлять списки ключевых слов относящиеся к той или иной тематике. Для ускорения можно указывать тематику в ручную, тогда будет проверка только по словам одной тематики.
**- По словам запроса производиться анализ и выбор нужного направления поиска.
Вопрос: Где можно найти списки слов для определённой тематики?
Хочу для тематики определять так же ключевые слова по которым определять направление, затем делать запросы к сайтам той или иной тематики.
Ключевые слова, фразы (леммы) по частотности в документе.
Специфические термины для тематики не получиться найти в рамках одного документа. Скорее они будут не точны, если брать за термины слова по высокому IDF.
Сделал тестовый класс в котором находятся заголовки и абзацы. Затем удаляются слова меньше 4 букв и из словаря всякие предлоги, местоимения, частицы, наречия и др. Потом находятся часто употребляемые.
Но что-то не очень нравится. Посоветовался с знакомой филологом сказала лучше искать существительные и прилагательные, которыми в большей степени определяется суть предложения.
Посмотрел исходники разных сайтов, сейчас что нигде ключевые слова в мета-тегах не указывают? Если буду указывать только существительные с прилагательными как поисковики будут реагировать?
Нет конечно 😀
Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.
Так же думаю сделать поиск по сайтам на своём движке. Вот и всё.
В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.
На основе собственных граблей, куда наступил в процессе.
Я извиняюсь. У вас я вижу просто поиск повторений слов, что по сути не даёт для будущей логики поиска хорошего результата. По моему суть алгоритма должна быть следующая:
1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.
2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.
3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)
Вот вам и Bitrix хвалёный 😂
1) Кто будет решать какие сайты попадут в это сообщество? Кто будет модерировать, что в каталог сайтов, например, по финансам не попадёт медицинский сайт или же просто набор слов для редиректа на какой-то другой сайт?
2) Что будет если пользователь введёт запрос "курс доллара в сбербанке", а сайт сбербанка не на вашей платформе?
3) Кто будет перепроверять данные, которые приходят от сайта на сервис поиска? Например, я ищу "ремонт авто в Пушкино", а сайт сервиса из Можайска, который хочет заполучить клиентов подкинет себя?
Чего тут понимать-то.
Вы считаете, что лучше существующих поисковиков больше ничего не может быть. Это позиция неудачника, который смерился с текущей своей ситуацией.
Я не борюсь с мельницами, я создаю более перспективные мельницы чем существующие 😀 но вам этого не понять..
Википедия?
Нет. Это должно быть сообщество сайтов на одной платформе.
Википедия в данном случае это просто база данных, как словарь, описания обозначения предмета.
Например: Есть:
Сайт каталог автомобилей с фото, описанием,характеристиками тд.
Сайт по ремонту, где описано что и как делать и ссылка на сайт страницу с описанием и характеристиками.
Сайт каталог салонов где продаются автомобили.
Так же к примеру есть сайт лекарств с описанием тех или иных лекарств.
Ещё сайт где описаны разные болезни и способы лечения с сылками на сайт лекарств.
Другие разные сайты...
Человек набирает в поиске: мерседес е200
Поисковик определяет направление поиска определив что нужно искать на сайтах автомобилей и выдаёт в результате:
Страницу с описанием каталога автомобилей, страницу сайта по ремонту данного автомобиля, Страницу автосалона где купить и тд.
Набрав в поиске: лечение от гриппа
Поисковик даёт запрос на медицинские сайты, те у себя в базе ищут нужное лекарство способ лечения и тд.
Выдают страницы с нужными препаратами и описанием как надо проводить лечение, аптеки где можно купить.
То есть сами сайты будут принимать роль поисковиков. Как-то так :)