- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.
Для современного белого SEO это не требуется. Это постановка задачи задом наперед. Если мы говорим о задачах продвижения бизнеса клиента в высококонкурентной теме, то к моменту написания текста, уже пройдены этапы анализа потребительского интента, сформировано семантическое ядро, определены ключевые запросы, размечены в каркасе текста и описаны в соответствующих метатегах. Это уже осмыслено и сделано.
Вычленять ключевые запросы из текста имеет смысл лишь для узкой задачи. Я вижу это полезным лишь для перелинковки, но типовые решения (на уровне плагинов в движкам) уже есть.
1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.
2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.
3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)
Очень сложно..понять Вас
вопросы что такое "суть текста"?
это у Вас философское понятие :) , или Вы хотите построить нейросеть на основе множества текстов, где нейроны ключевые слова... тут у Вас может не хватить ресурсов для вычислений, поскольку если Вы пишете для людей, то каждому не угодишь :)
Попродуйте работать со словарями и "подсказками с гугла" (их можно скачать).
Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.
Для внутреннего поиска можно использовать текстовое ранжирование кое-нибудь TF-IDF или БМ25.
Ключевые слова, фразы (леммы) по частотности в документе.
Специфические термины для тематики не получиться найти в рамках одного документа. Скорее они будут не точны, если брать за термины слова по высокому IDF.
То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)
Как вариант составлять словари тематик...
Хочу для тематики определять так же ключевые слова по которым определять направление, затем делать запросы к сайтам той или иной тематики.
Ключевые слова, фразы (леммы) по частотности в документе.
Специфические термины для тематики не получиться найти в рамках одного документа. Скорее они будут не точны, если брать за термины слова по высокому IDF.
Сделал тестовый класс в котором находятся заголовки и абзацы. Затем удаляются слова меньше 4 букв и из словаря всякие предлоги, местоимения, частицы, наречия и др. Потом находятся часто употребляемые.
Но что-то не очень нравится. Посоветовался с знакомой филологом сказала лучше искать существительные и прилагательные, которыми в большей степени определяется суть предложения.
Посмотрел исходники разных сайтов, сейчас что нигде ключевые слова в мета-тегах не указывают? Если буду указывать только существительные с прилагательными как поисковики будут реагировать?
Затем удаляются слова меньше 4 букв
"Тойота Рав 4" останется, только Тойота. Список стоп-слов придуман для этого. Нормализацию делали? Тойота, Тойоты, Тойоту это одно и тоже, учитывать следует вместе.
Посмотрел исходники разных сайтов, сейчас что нигде ключевые слова в мета-тегах не указывают?
Профит от указание если и есть, то очень маленький.
И ключевые слова документа, но не тематики.
Допустим, страница про продажу фотика никон. В кей вордсах наспамят про: купить никон d850 в МСК цена.
Для фото тематики типовые слова\фразы будут вроде: фокусное расстояние, выдержка, матрица и т.п.
Это скорее к определению тематики страницы по её тексту... Где-то проскальзывало.
Затем удаляются слова меньше 4 букв и из словаря всякие предлоги, местоимения, частицы, наречия и др.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции.
Тут есть старые данные из Яндекса: http://tools.promosite.ru/old/weight.php
Предлоги и прочие будут иметь низкий IDF... Как вариант. Не говорю, что лучший.
Если буду указывать только существительные с прилагательными как поисковики будут реагировать?
Указывать куда, в кейвордсы? ИМХО, не важно. Если в другие метатеги можно пострадать, но не факт.
Ну и глаголы могут быть использованы ПС для определения типа запроса. Например: сделать (контекст сделать самому) - инфо запрос.не составлять список для игнорирования слов
Стоп-слова шум уменьшают.
составлять списки относящиеся к той или иной тематике
Неоднократно в этом топике намекал.
На уровне документа один из наиболее полезных способов понимания текста - анализ его тем. Процесс изучения, распознавания и извлечения этих тем из набора документов называется тематическим моделированием.
4 самых популярных сегодня методов: LSA, pLSA, LDA и более новый lda2vec, основанный на глубоком обучении.
Предположим, у вас есть следующий набор предложений:
Что такое скрытое размещение Дирихле? Это способ автоматического обнаружения тем , содержащихся в этих предложениях. Например, учитывая эти предложения и запрашивая 2 темы, LDA может выдать что-то вроде
Вопрос, конечно, в том, как LDA делает это открытие?
Хотя, не ясно зачем городить это для поиска. Фуллтекст поиск есть во всех БД, и сейчас он ищет вполне себе неплохо. Эластик не невозможно поставить.
Если же это использовать для сео модуля, то надо понимать, что все это инструменты, а нужна в первую очередь методика.
нужна в первую очередь методика
Вот я и продумываю методику.
Для существующих поисковиков можно конечно указывать ключевики и в ручную.
А вот по сайтам на своём движке можно же разработать свою методику. Сейчас я пока смутно представляю как я это сделаю, но немного поэкспериментировав уже вырисовывается определённая картинка.
Первый человек закидывает текст на свой сайт на моём движке. Движок анализирует текст, определяет тематику* и подбирает ключевые слова(которые в принципе можно указать в метатеге keywords). Второй человек набирает в поиске запрос. Движок по запросу определяет тематику** и делает запрос по сайтам тематики. В результате второй человек получает список страниц с нужной ему информацией.
*- Для определения тематики хочу составлять списки ключевых слов относящиеся к той или иной тематике. Для ускорения можно указывать тематику в ручную, тогда будет проверка только по словам одной тематики.
**- По словам запроса производиться анализ и выбор нужного направления поиска.
Вопрос: Где можно найти списки слов для определённой тематики?