Попробуйте сделать поиск по сайтам на своем движке - Веб-строительство

Вопрос к SEO специалистам: "Что бы вы написали в ТЗ программисту для упрощения своей работы?"

ArbNet · 2020-08-20T15:04:28.0000000Z

Иногда на форуме появляются темы по сео оптимизации. Я не сео специалист, но для движка сайта нужна такая оптимизация. Хочу запрограммировать чтобы движок автоматически подбирал ключевые слова для страницы и тд. Объясните пожалуйста. Допустим есть текст, из которого нужно определить, что указать в метатегах, как автоматически это сделать, где что искать в тексте? Как бы вы сделали или дали бы задание программисту?

569

Dreammaker

23 августа 2020, 20:31

#61

ArbNet #:

Я планирую сделать так чтобы все сайты на моём инструменте были в таком сообществе с единой базой пользователей и платёжной системой. При нарушении правил сообщества тот или иной сайт будет исключён и потеряет пользователей и др. преимущества.
Конечно конкурировать с поисковиками я не собираюсь, я лишь буду стараться предоставлять пользователем более актуальную информацию по тому или иному направлению. Логика поисковика пока только у меня на листке бумаги на столе лежит, ещё не разрабатывалась, так что это вопрос будущего.
Это может делать поисковик. Планируется при получении данных их валидация и занесение в базу\кэширование, чтобы ускорить ответ на похожие запросы.

Вы не ответили на вопросы совсем.

1. Кто будет решать, что правила нарушены и как будут допускаться сайты? Будет предмодерация или пост? Если пост, то как вы будете бороться с потоком спама (генерацию доров для заливки можно поставить на автомате). Если предмодерация, то для тех же нескончаемо заливаемые доров нужно будет бесконечную команду модерации.

2. Тут пропустим, если вы ещё не решили как будет работать.

3. То есть, он будет анализировать, что сервис находится в другом городе? На основании чего?

Идея проекта Домены второго уровня Как Вы реализовывали выбор

780

богоносец

24 августа 2020, 11:02

#62

timo-71 #:
обработка корпуса сниппетов

В нём вы имеете дело с избыточным 'шумом', относящимся совсем не к ранжированию... ну создатели так заточили "чтобы не грузить искателей дублированием / разнообразить фрагменты". Т.е. лучше его для генерации доров – с целью 'разнообразить', чем для выяснения того, что влияет именно на ранжирование.

Dreammaker #:
Кто будет решать, что правила нарушены и как будут допускаться сайты?

Ну всем же ясно, что распиаренный матрикснет – на самом деле просто толпа Платонов... этой ОПГ с кремлёвской крышей, которая не допустит перспективной поисковой системы.

В бане, нужна помощь Подскажите по метаописаниям Вопрос по апдейту

T7

63

timo-71

24 августа 2020, 20:24

#63

богоносец #:
В нём вы имеете дело с избыточным 'шумом', относящимся совсем не к ранжированию...

Шума везде вагоны, вагоны, еще вагоны. И потом тележки... Вопрос в том, как отранжировать - ('месяц_рубль', 0.09) вполне может стать самым частотным на корпусе документов из топа.

Как то так в монге

1192 из Я-хмл (100, lr=225), кей на картинке.

('продвижение_сайт', 1401.7535999999996)
('раскрутка_сайт', 290.3039999999999)
('seo_продвижение', 216.576)
('поисковый_сайт', 124.5312)
('раскрутить_сайт', 92.0448)
('поисковый_система', 84.8256)
('сайт_яндекс', 75.8016)
('продвижение_раскрутка', 66.35519999999998)
('поисковый_продвижение', 59.5584)
('оптимизация_продвижение', 59.5584)
('seo_сайт', 54.144)
('оптимизация_поисковый', 45.94719999999998)
('сайт_топ', 43.3152)
('интернет_сайт', 43.3152)
('сайт_самостоятельно', 37.9008)
('продвижение_создание', 37.9008)
('оптимизация_сайт', 37.9008)
('google_яндекс', 35.34399999999999)
('продвижение_самостоятельный', 32.486399999999996)
('интернет_продвижение', 32.486399999999996)
('продвижение_услуга', 32.486399999999996)
.....Последние в футере
('733_объявление', 0.09)
('обеспечивать_рубль', 0.09)
('рубль_тысяча', 0.09)
('месяц_рубль', 0.09)

13496 биграмм из контента 12 документов (урлы на картинке, регион=225)

('продвижение_сайт', 2687.3856000000164)
('оптимизация_сайт', 449.3952)
('поисковый_система', 441.80000000000047)
('раскрутка_сайт', 364.9535999999999)
('seo_продвижение', 303.2064)
('аудит_сайт', 232.8192)
('seo_сайт', 200.3328)
('контекстный_реклама', 197.92640000000014)
('позиция_сайт', 178.6752)
('поисковый_сайт', 162.432)
('интернет_продвижение', 151.6032)
('сайт_трафик', 151.6032)
('комплексный_продвижение', 146.1888)
('сеть_социальный', 130.77280000000005)
('контент_сайт', 129.94559999999998)
('сайт_самостоятельно', 124.5312)
('google_яндекс', 116.63520000000004)
('интернет_магазин', 116.63520000000004)
('добавить_сайт', 102.8736)
('интернет_маркетинг', 98.96320000000001)
....где то посередине
('google_поведенческий', 1.88)
('оптимизация_ядро', 1.88)
('бюджет_ссылочный', 1.88)
('бюджет_вирусный', 1.88)
('позиция_проверка', 1.88)
('создание_ядро', 1.88)
('создание_структура', 1.88)
('запрос_низкочастотный', 1.88)
....Футер
('зарплата_рубль', 0.09)
('копейка_рубль', 0.09)
('00_рубль', 0.09)
('очередной_рубль', 0.09)

Это только промежуточный вариант. Но, как минимум, биграммы "аудит_сайт" для запроса продвижение сайта в сниппетах нет. Я проверил. Ну и дальше к gensim lsi/lda и т.п.

А потом, важно, чтобы быстро.

Ну и технические нюансы для ArbNet, где я много времени потерял.

1) Леммы: "поисковый_продвижение" должно включать "поисковое продвижение, продвижения в поисковой". Минус стоп слова, приведение в нормальную форму и сортировка. Грабли: php + внешняя программа (mystem, python pymorphy2, сервисы) нестабильно и долго.

2) Операции со строками/массивами(объектами): н-граммы, сортировка и т.д.

3) Время. Желательно, чтобы для получения, например, 12 урлов из интернета, каждый из которых отдается в среднем за 1-1,5 сек (в сумме 12 сек как минимум), потратить минимум сек. В данном случае 5.5:

/var/pyweb/env/bin/python /var/pyweb/env/pya/scripts/htmlparser.py --id a6f33ec747175f3ec5f036e366871190
{'coll': 'Ups to htmldocs', 'cnt': 12, 'up_cnt': 12, 'ins_cnt': 0, 'matched': 10, 'errors': []}
{'coll': 'Ups to seokey', 'cnt': 1, 'up_cnt': 1, 'ins_cnt': 0, 'matched': 1, 'errors': []}

----5.53990912437439-sec--

Парсинг 12 документов + запись в базу заняла 5,5 сек. Параллельно сделать aiohttp помогла. На php тоже можно, но ...

1

Новый курс: Большие деньги Есть вагон статей, они Яндекс зашел в тупик

386

SmileP

25 августа 2020, 04:51

#64

timo-71 #:
Минус стоп слова, приведение в нормальную форму и сортировка

А какое практическое применение?

Я вижу, что такое можно использовать при проектировании сайта, по тематике где отсутствует эксперт.

Как вариант ещё посмотреть в сторону встречаемости лемм из документа в корпусе и\или среди конкурентов.

Могут скрытые малоценные страницы Есть несколько вопросов Правильно ли я изменил

T7

63

timo-71

25 августа 2020, 05:54

#65

SmileP #:
А какое практическое применение?

Ну, например, чтобы:

ArbNet :
движок автоматически подбирал

В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.

На основе собственных граблей, куда наступил в процессе.

151

ArbNet

25 августа 2020, 06:42

#66

timo-71 #:
Ну и технические нюансы для ArbNet, где я много времени потерял.

timo-71 #:

В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.

На основе собственных граблей, куда наступил в процессе.

Я извиняюсь. У вас я вижу просто поиск повторений слов, что по сути не даёт для будущей логики поиска хорошего результата. По моему суть алгоритма должна быть следующая:

1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.

2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.

3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)

Позиция в поиске по Работа с css для Расчет плотности слов для

386

SmileP

25 августа 2020, 07:01

#67

Новый поисковик делаете?

151

ArbNet

25 августа 2020, 07:15

#68

SmileP #:
Новый поисковик делаете?

Нет конечно 😀

Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.

Так же думаю сделать поиск по сайтам на своём движке. Вот и всё.

Где можно достать синонимайзер Я понимаю почему программисты Подскажите новичку

T7

63

timo-71

25 августа 2020, 07:31

#69

ArbNet #:
У вас я вижу просто поиск повторений слов

Не совсем. Лень, ковырять скрипт, чтобы просто частотность биграмм показать. Но, почти всегда там другой порядок. Здесь же

('продвижение_сайт', 2687.3856000000164)

2687.3856000000164 без сомненья зависит от частоты, но и скорректировано функцией учитывающей частоту и вхождение в слов из ключей по буквариксу, вхождение слов из подсветок, заголовка, сниппета и еще кое какими данными (все с разным весом). Но и это промежуточный вариант.

timo-71 #:
Ну и дальше к gensim lsi/lda и т.п.

Из темы про lsi ссылку на которую я неоднократно приводил. Попросили запрос "наполеон".

<class 'gensim.models.lsimodel.LsiModel'>

0.715*"наполеон" + 0.426*"год" + 0.146*"армия" + 0.143*"франция" + 0.139*"французский" + 0.110*"бонапарт" + 0.086*"становиться" + 0.083*"войско" + 0.080*"военный" + 0.078*"император"

-0.525*"торт" + -0.286*"мука" + -0.269*"рецепт" + -0.239*"сахар" + -0.228*"наполеон" + -0.223*"масло" + -0.213*"молоко" + -0.211*"сливочный" + 0.193*"год" + -0.184*"крем"

0.360*"год" + -0.327*"бонапарт" + -0.299*"франция" + -0.219*"император" + -0.147*"французский" + 0.118*"тыс" + 0.115*"май" + -0.110*"фильм" + -0.106*"становиться" + -0.104*"генерал"

0.296*"наполеон" + 0.261*"фильм" + -0.241*"год" + -0.213*"франция" + 0.209*"конкурс" + 0.149*"человек" + 0.144*"клавье" + -0.144*"мука" + -0.121*"сахар" + -0.111*"молоко"

-0.657*"конкурс" + -0.233*"спецпроект" + -0.222*"блюдо" + -0.200*"рецепт" + 0.130*"наполеон" + -0.127*"мультиварка" + -0.126*"год" + 0.125*"мука" + -0.122*"торт" + 0.114*"сахар"

0.520*"бонапарт" + 0.252*"год" + 0.218*"император" + 0.136*"биография" + -0.115*"наполеон" + -0.115*"франция" + 0.113*"становиться" + -0.109*"фильм" + -0.103*"армия" + -0.087*"империя"

Нетрудно заметить, что gensim.models.lsimodel.LsiModel выделил в х-документов из топа Яндекса несколько тематических кластеров, касающихся как собственно Наполеона, так и торта.

Ключевые слова, найденные по вашему запросу

www.bukvarix.com

Для подбора поисковых запросов в режиме простого поиска введите в поисковую строку слово или словосочетание, которое вы хотите расширить за счет подбора словосочетаний, содержащих ваши поисковые слова. По умолчанию производится поиск с поддержкой словоформ слов для поиска и слов для исключения. Это значит, что при поиске, например, ключевого...

Подскажите пожалуйста сервисы для статистика посредине дня застопорилась Почему статья не продвигается

T7

63

timo-71

25 августа 2020, 07:37

#70

Кстати, вот это , разложить хтмл документ на предложения - имеет важное значение, для построения лси модели.

Вывести n строк из файла. - Веб-строительство - Сайтостроение - Форум об интернет-маркетинге

2020.08.25
searchengines.guru

Привет. Как при помощи пхп вывести из файла N-ное количество предложений

Все что нужно знать о DDоS-атаках грамотному менеджеру

Google: E-E-A-T не является фактором ранжирования

Вопрос к SEO специалистам: "Что бы вы написали в ТЗ программисту для упрощения своей работы?"