Вопрос к SEO специалистам: "Что бы вы написали в ТЗ программисту для упрощения своей работы?"

Антоний Казанский
На сайте с 12.04.2007
Offline
745
#71
ArbNet #:
Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.

Для современного белого SEO это не требуется. Это постановка задачи задом наперед. Если мы говорим о задачах продвижения бизнеса клиента в высококонкурентной теме, то к моменту написания текста, уже пройдены этапы анализа потребительского интента, сформировано семантическое ядро, определены ключевые запросы, размечены в каркасе текста и описаны в соответствующих метатегах. Это уже осмыслено и сделано. 

Вычленять ключевые запросы из текста имеет смысл лишь для узкой задачи. Я вижу это полезным лишь для перелинковки, но типовые решения (на уровне плагинов в движкам) уже есть.

√ SEO продвижение ► https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Разговоры о SEO и не только: культурно, вежливо, доброжелательно ► https://t.me/seotusovochka
A
На сайте с 21.12.2011
Offline
140
#72
ArbNet #:


1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.

2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.

3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)

Очень сложно..понять Вас
вопросы что такое "суть текста"?
это у Вас философское понятие :) , или Вы хотите построить нейросеть на основе множества текстов, где нейроны ключевые слова... тут у Вас может не хватить ресурсов для вычислений, поскольку если Вы пишете для людей, то каждому не угодишь :)
Попродуйте работать со словарями и "подсказками с гугла" (их можно скачать).



SmileP
На сайте с 18.02.2010
Offline
386
#73
ArbNet #:
Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.

Для внутреннего поиска можно использовать текстовое ранжирование кое-нибудь  TF-IDF или БМ25.

Ключевые слова, фразы (леммы) по частотности в документе.

Специфические термины для тематики не получиться найти в рамках одного документа. Скорее они будут не точны, если брать за термины слова по высокому IDF.

SmileP
На сайте с 18.02.2010
Offline
386
#74
ArbNet #:
То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)
Как вариант составлять словари тематик...
ArbNet
На сайте с 27.10.2019
Online
140
#75
SmileP #:
Как вариант составлять словари тематик...

Хочу для тематики определять так же ключевые слова по которым определять направление, затем делать запросы к сайтам той или иной тематики.

SmileP #:

Ключевые слова, фразы (леммы) по частотности в документе.

Специфические термины для тематики не получиться найти в рамках одного документа. Скорее они будут не точны, если брать за термины слова по высокому IDF.

Сделал тестовый класс в котором находятся заголовки и абзацы. Затем удаляются слова меньше 4 букв и из словаря всякие предлоги, местоимения, частицы, наречия и др. Потом находятся часто употребляемые.

Но что-то не очень нравится. Посоветовался с знакомой филологом сказала лучше искать существительные и прилагательные, которыми в большей степени определяется суть предложения.

Посмотрел исходники разных сайтов, сейчас что нигде ключевые слова в мета-тегах не указывают? Если буду указывать только существительные с прилагательными как поисковики будут реагировать?

T7
На сайте с 19.09.2018
Offline
63
#76
ArbNet #:
Затем удаляются слова меньше 4 букв

"Тойота Рав 4" останется, только  Тойота. Список стоп-слов придуман для этого. Нормализацию делали?  Тойота,  Тойоты,  Тойоту это одно и тоже, учитывать следует вместе.

ArbNet
На сайте с 27.10.2019
Online
140
#77
Напрашивается не составлять список для игнорирования слов, а наоборот составлять списки относящиеся к той или иной тематике и каких больше те и использовать, заодно и тематика определится. Хотя это пока моя теория буду проверять ещё на практике.
SmileP
На сайте с 18.02.2010
Offline
386
#78
ArbNet #:
Посмотрел исходники разных сайтов, сейчас что нигде ключевые слова в мета-тегах не указывают?

Профит от указание если и есть, то очень маленький.

И ключевые слова документа, но не тематики.

Допустим, страница про продажу фотика никон. В кей вордсах наспамят про: купить никон d850 в МСК цена.

Для фото тематики типовые слова\фразы будут вроде: фокусное расстояние, выдержка, матрица и т.п.

Это скорее к определению тематики страницы по её тексту... Где-то проскальзывало.

ArbNet #:
Затем удаляются слова меньше 4 букв и из словаря всякие предлоги, местоимения, частицы, наречия и др.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции.

Тут есть старые данные из Яндекса: http://tools.promosite.ru/old/weight.php

Предлоги и прочие будут иметь низкий IDF... Как вариант. Не говорю,  что лучший.

ArbNet #:
Если буду указывать только существительные с прилагательными как поисковики будут реагировать?

Указывать куда, в кейвордсы? ИМХО, не важно. Если в другие метатеги можно пострадать, но не факт.

Ну и глаголы могут быть использованы ПС для определения типа запроса. Например: сделать (контекст сделать самому) - инфо запрос.
T7
На сайте с 19.09.2018
Offline
63
#79
ArbNet #:
не составлять список для игнорирования слов

Стоп-слова шум уменьшают.

ArbNet #:
составлять списки относящиеся к той или иной тематике

Неоднократно в этом топике намекал.

На уровне документа один из наиболее полезных способов понимания текста - анализ его тем. Процесс изучения, распознавания и извлечения этих тем из набора документов называется тематическим моделированием.

4 самых популярных сегодня методов: LSA, pLSA, LDA и более новый lda2vec, основанный на глубоком обучении.

Или вот, на пальцах

Предположим, у вас есть следующий набор предложений:

  • Я люблю есть брокколи и бананы.
  • На завтрак я съела смузи из банана и шпината.
  • Шиншиллы и котята милые.
  • Моя сестра вчера удочерила котенка.
  • Посмотрите, как этот симпатичный хомяк жует брокколи.

Что такое скрытое размещение Дирихле? Это способ автоматического обнаружения тем , содержащихся в этих предложениях. Например, учитывая эти предложения и запрашивая 2 темы, LDA может выдать что-то вроде

  • Предложения 1 и 2 : 100% Тема A
  • Предложения 3 и 4 : 100% Тема B
  • Предложение 5 : 60% по теме A, 40% по теме B
  • Тема A : 30% брокколи, 15% бананов, 10% завтрак, 10% жевание,… (в этот момент вы можете интерпретировать тему A как о еде)
  • Тема B : 20% шиншилл, 20% котят, 20% милых, 15% хомяков,… (в этот момент вы можете интерпретировать тему B как о милых животных)

Вопрос, конечно, в том, как LDA делает это открытие?

Хотя, не ясно зачем городить это для поиска. Фуллтекст поиск есть во всех БД, и сейчас он ищет вполне себе неплохо. Эластик не невозможно поставить. 

Если же это использовать для сео модуля, то надо понимать, что все это инструменты, а нужна в первую очередь методика.

Introduction to Latent Dirichlet Allocation
  • blog.echen.me
Suppose you have the following set of sentences: I like to eat broccoli and bananas. I ate a banana and spinach smoothie for breakfast. Chinchillas and kittens are cute. My sister adopted a kitten yesterday. Look at this cute hamster munching on a piece of broccoli. What is latent Dirichlet allocation? It’s a way of automatically discovering...
ArbNet
На сайте с 27.10.2019
Online
140
#80
timo-71 #:
нужна в первую очередь методика

Вот я и продумываю методику.

Для существующих поисковиков можно конечно указывать ключевики и в ручную. 


А вот по сайтам на своём движке можно же разработать свою методику. Сейчас я пока смутно представляю как я это сделаю, но немного поэкспериментировав уже вырисовывается определённая картинка.

Первый человек закидывает текст на свой сайт на моём движке. Движок анализирует текст, определяет тематику* и подбирает ключевые слова(которые в принципе можно указать в метатеге keywords). Второй человек набирает в поиске запрос. Движок по запросу определяет тематику** и делает запрос по сайтам тематики. В результате второй человек получает список страниц с нужной ему информацией.

*- Для определения тематики хочу составлять списки ключевых слов относящиеся к той или иной тематике. Для ускорения можно указывать тематику в ручную, тогда будет проверка только по словам одной тематики.

**- По словам запроса производиться анализ и выбор нужного направления поиска.


Вопрос: Где можно найти списки слов для определённой тематики?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий