ArbNet

ArbNet
Рейтинг
146
Регистрация
27.10.2019
Программист самоучка
SmileP #:
Как вариант составлять словари тематик...

Хочу для тематики определять так же ключевые слова по которым определять направление, затем делать запросы к сайтам той или иной тематики.

SmileP #:

Ключевые слова, фразы (леммы) по частотности в документе.

Специфические термины для тематики не получиться найти в рамках одного документа. Скорее они будут не точны, если брать за термины слова по высокому IDF.

Сделал тестовый класс в котором находятся заголовки и абзацы. Затем удаляются слова меньше 4 букв и из словаря всякие предлоги, местоимения, частицы, наречия и др. Потом находятся часто употребляемые.

Но что-то не очень нравится. Посоветовался с знакомой филологом сказала лучше искать существительные и прилагательные, которыми в большей степени определяется суть предложения.

Посмотрел исходники разных сайтов, сейчас что нигде ключевые слова в мета-тегах не указывают? Если буду указывать только существительные с прилагательными как поисковики будут реагировать?

SmileP #:
Новый поисковик делаете?

Нет конечно 😀

Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.

Так же думаю сделать поиск по сайтам на своём движке. Вот и всё.

timo-71 #:
Ну и технические нюансы для  ArbNet, где я много времени потерял.
timo-71 #:

В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.

На основе собственных граблей, куда наступил в процессе.

Я извиняюсь. У вас я вижу просто поиск повторений слов, что по сути не даёт для будущей логики поиска хорошего результата. По моему суть алгоритма должна быть следующая:

1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.

2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.

3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)

Вот вам и Bitrix хвалёный 😂


Оставьте себе 😀
Dreammaker #:

1) Кто будет решать какие сайты попадут в это сообщество? Кто будет модерировать, что в каталог сайтов, например, по финансам не попадёт медицинский сайт или же просто набор слов для редиректа на какой-то другой сайт? 

2) Что будет если пользователь введёт запрос "курс доллара в сбербанке", а сайт сбербанка не на вашей платформе?

3) Кто будет перепроверять данные, которые приходят от сайта на сервис поиска? Например, я ищу "ремонт авто в Пушкино", а сайт сервиса из Можайска, который хочет заполучить клиентов подкинет себя?

  1.  Я планирую сделать так чтобы все сайты на моём инструменте были в таком сообществе с единой базой пользователей и платёжной системой. При нарушении правил сообщества тот или иной сайт будет исключён и потеряет пользователей и др. преимущества.
  2. Конечно конкурировать с поисковиками я не собираюсь, я лишь буду стараться предоставлять пользователем более актуальную информацию по тому или иному направлению. Логика поисковика пока только у меня на листке бумаги на столе лежит, ещё не разрабатывалась, так что это вопрос будущего.
  3. Это может делать поисковик. Планируется при получении данных их валидация и занесение в базу\кэширование, чтобы ускорить ответ на похожие запросы.

Vladimir SEO #:
ТС вы совсем не понимаете как все устроено

Чего тут понимать-то.

Вы считаете, что лучше существующих поисковиков больше ничего не может быть. Это позиция неудачника, который смерился с текущей своей ситуацией.

Я не борюсь с мельницами, я создаю более перспективные мельницы чем существующие 😀 но вам этого не понять..

tippula #:

Википедия?

Нет. Это должно быть сообщество сайтов на одной платформе.


Википедия в данном случае это просто база данных, как словарь, описания обозначения предмета.


Например: Есть:

Сайт каталог автомобилей с фото, описанием,характеристиками тд.

Сайт по ремонту, где описано что и как делать и ссылка на сайт страницу с описанием и характеристиками.

Сайт каталог салонов где продаются автомобили.

Так же к примеру есть сайт лекарств с описанием тех или иных лекарств.

Ещё сайт где описаны разные болезни и способы лечения с сылками на сайт лекарств.

Другие разные сайты...


Человек набирает в поиске: мерседес е200

Поисковик определяет направление поиска определив что нужно искать на сайтах автомобилей и выдаёт в результате:

Страницу с описанием каталога автомобилей, страницу сайта по ремонту данного автомобиля, Страницу автосалона где купить и тд.


Набрав в поиске: лечение от гриппа

Поисковик даёт запрос на медицинские сайты, те у себя в базе ищут нужное лекарство способ лечения и тд.

Выдают страницы с нужными препаратами и описанием как надо проводить лечение, аптеки где можно купить.


То есть сами сайты будут принимать роль поисковиков. Как-то так :)

Уважаемые сео специалисты у вас очень много текста.., но по сути вопроса вы мне мало что ответили. Как говорится из пустого в порожнее.. Вы озвучиваете лишь что где-то что то сами увидели, услышали, прочитали и тд. и эта информация куда не плюнь везде(на разных других сайтах, как вы говорите с рерайтом). Я за эти дни время от времени искал ответы на свои вопросы через поиск. Всё печально на данный момент.

У нас(в мире) в принципе неправильно организован поиск нужной информации. То есть так стихийно получилось, что люди направлены на решение мелочных задач с целью получения своей выгоды, а не удобства и полезности ресурса. Поэтому поисковым машинам сложнов таком бардаке искать самую актуальную информацию. Я бы больше сказал НЕВОЗМОЖНО, потому что:

  1. Время на обход всех сайтов поисковыми работами и занесение в базу поисковика очень долгое..
  2. Сайты ранжируются по ссылочной массе с других ресурсов и посещаемости, что тоже не гарантирует актуальности материалов.
  3. Вложение денег в раскрутку, дорогенегаторы и прочие не чистые технологии так же не позволяют актуальной информации быть в первых строчках выдачи.
  4. Проанализировав код некоторых автоматических алгоритмов пришёл к выводу, что попытка создать искусственный интеллект в этой сфере потерпела поражение. Алгоритмы семантического и морфологического поиска желают лучшего, не правильно и примитивно по моему сделано. Как говорится захотели охватить не объятное и получилось как всегда.. Конечно поисковики справляются с более популярными вопросами, а когда ищутся узкоспециализированные материалы(к примеру:), то выдаётся какая то фигня.

Знаю как это исправить. Было бы не плохо если нашлись ещё такие же хорошие разработчики как я для решения данного вопроса :)

Моё решение заключается в создании сайтов каталогов данных по определённым тематикам. Так же сайтов где и как данные материалы используются, отзывы и тд. И наконец сайт поисковик, запрос с которого будет анализироваться и делаться запрос на профильные сайты материалов и их производителей. Конечно данный поиск будет возможно уступать по скорости, но не будет уступать по актуальности и полезности информации.

Anamnado #:
Хотя бы - если советуешь бросить нужно подсказать а что взамен - что делать вместо этого, куда направить силы ??  - Вот как Хад в этой теме ! (я не шучу) это уже на половину смегчает карму..

Пилите сударь класс для поиска, раз настроился на это...

Anamnado :
я просто заберу себе  скрипт поиска. (вернее он у меня и будет ведь я его и буду писать).

А оформление дело пустяковое, можно будет и на моём инструменте то сделать.

Всего: 2288