Вопрос к SEO специалистам: "Что бы вы написали в ТЗ программисту для упрощения своей работы?"

Dreammaker
На сайте с 20.04.2006
Offline
570
#61
ArbNet #:

  1.  Я планирую сделать так чтобы все сайты на моём инструменте были в таком сообществе с единой базой пользователей и платёжной системой. При нарушении правил сообщества тот или иной сайт будет исключён и потеряет пользователей и др. преимущества.
  2. Конечно конкурировать с поисковиками я не собираюсь, я лишь буду стараться предоставлять пользователем более актуальную информацию по тому или иному направлению. Логика поисковика пока только у меня на листке бумаги на столе лежит, ещё не разрабатывалась, так что это вопрос будущего.
  3. Это может делать поисковик. Планируется при получении данных их валидация и занесение в базу\кэширование, чтобы ускорить ответ на похожие запросы.

Вы не ответили на вопросы совсем. 

1. Кто будет решать, что правила нарушены и как будут допускаться сайты? Будет предмодерация или пост? Если пост, то как вы будете бороться с потоком спама (генерацию доров для заливки можно поставить на автомате). Если предмодерация, то для тех же нескончаемо заливаемые доров нужно будет бесконечную команду модерации.

2. Тут пропустим, если вы ещё не решили как будет работать. 

3.  То есть, он будет анализировать, что сервис находится в другом городе?  На основании чего?

богоносец
На сайте с 30.01.2007
Offline
753
#62
timo-71 #:
обработка корпуса сниппетов

В нём вы имеете дело с избыточным 'шумом', относящимся совсем не к ранжированию... ну создатели так заточили "чтобы не грузить искателей дублированием / разнообразить фрагменты".  Т.е. лучше его для генерации доров – с целью 'разнообразить', чем для выяснения того, что влияет именно на ранжирование.


Dreammaker #:
Кто будет решать, что правила нарушены и как будут допускаться сайты?

Ну всем же ясно, что распиаренный матрикснет – на самом деле просто толпа Платонов... этой ОПГ с кремлёвской крышей, которая не допустит перспективной поисковой системы.

T7
На сайте с 19.09.2018
Offline
63
#63
богоносец #:
В нём вы имеете дело с избыточным 'шумом', относящимся совсем не к ранжированию...

Шума везде вагоны,  вагоны, еще  вагоны. И потом тележки... Вопрос в том, как отранжировать - ('месяц_рубль', 0.09)  вполне может стать самым частотным на корпусе документов из топа.


Как то так в монге 

1192 из Я-хмл (100, lr=225), кей на картинке.

('продвижение_сайт', 1401.7535999999996)
('раскрутка_сайт', 290.3039999999999)
('seo_продвижение', 216.576)
('поисковый_сайт', 124.5312)
('раскрутить_сайт', 92.0448)
('поисковый_система', 84.8256)
('сайт_яндекс', 75.8016)
('продвижение_раскрутка', 66.35519999999998)
('поисковый_продвижение', 59.5584)
('оптимизация_продвижение', 59.5584)
('seo_сайт', 54.144)
('оптимизация_поисковый', 45.94719999999998)
('сайт_топ', 43.3152)
('интернет_сайт', 43.3152)
('сайт_самостоятельно', 37.9008)
('продвижение_создание', 37.9008)
('оптимизация_сайт', 37.9008)
('google_яндекс', 35.34399999999999)
('продвижение_самостоятельный', 32.486399999999996)
('интернет_продвижение', 32.486399999999996)
('продвижение_услуга', 32.486399999999996)
.....Последние в футере
('733_объявление', 0.09)
('обеспечивать_рубль', 0.09)
('рубль_тысяча', 0.09)
('месяц_рубль', 0.09)

13496 биграмм из контента 12 документов (урлы на картинке, регион=225)

('продвижение_сайт', 2687.3856000000164)
('оптимизация_сайт', 449.3952)
('поисковый_система', 441.80000000000047)
('раскрутка_сайт', 364.9535999999999)
('seo_продвижение', 303.2064)
('аудит_сайт', 232.8192)
('seo_сайт', 200.3328)
('контекстный_реклама', 197.92640000000014)
('позиция_сайт', 178.6752)
('поисковый_сайт', 162.432)
('интернет_продвижение', 151.6032)
('сайт_трафик', 151.6032)
('комплексный_продвижение', 146.1888)
('сеть_социальный', 130.77280000000005)
('контент_сайт', 129.94559999999998)
('сайт_самостоятельно', 124.5312)
('google_яндекс', 116.63520000000004)
('интернет_магазин', 116.63520000000004)
('добавить_сайт', 102.8736)
('интернет_маркетинг', 98.96320000000001)
....где то посередине
('google_поведенческий', 1.88)
('оптимизация_ядро', 1.88)
('бюджет_ссылочный', 1.88)
('бюджет_вирусный', 1.88)
('позиция_проверка', 1.88)
('создание_ядро', 1.88)
('создание_структура', 1.88)
('запрос_низкочастотный', 1.88)
....Футер
('зарплата_рубль', 0.09)
('копейка_рубль', 0.09)
('00_рубль', 0.09)
('очередной_рубль', 0.09)

Это только промежуточный вариант. Но, как минимум, биграммы "аудит_сайт" для запроса продвижение сайта в сниппетах нет. Я проверил. Ну и дальше к gensim lsi/lda и т.п.

А потом, важно, чтобы быстро.

Скорость и еще раз скорость, должно стать девизом каждого разработчика

Ну и технические нюансы для  ArbNet, где я много времени потерял.

1) Леммы: "поисковый_продвижение" должно включать  "поисковое продвижение, продвижения в поисковой". Минус стоп слова, приведение в нормальную форму и сортировка.  Грабли: php +  внешняя программа (mystem, python pymorphy2, сервисы) нестабильно и долго.

2) Операции со строками/массивами(объектами): н-граммы, сортировка и т.д. 

3) Время. Желательно, чтобы для получения, например, 12 урлов из интернета, каждый из которых отдается в среднем за 1-1,5 сек  (в сумме 12 сек как минимум), потратить минимум сек. В данном случае 5.5:

/var/pyweb/env/bin/python /var/pyweb/env/pya/scripts/htmlparser.py --id a6f33ec747175f3ec5f036e366871190
{'coll': 'Ups to htmldocs', 'cnt': 12, 'up_cnt': 12, 'ins_cnt': 0, 'matched': 10, 'errors': []}
{'coll': 'Ups to seokey', 'cnt': 1, 'up_cnt': 1, 'ins_cnt': 0, 'matched': 1, 'errors': []}

----5.53990912437439-sec--

Парсинг 12 документов + запись в базу заняла 5,5 сек. Параллельно сделать aiohttp помогла. На php тоже можно, но ...

SmileP
На сайте с 18.02.2010
Offline
386
#64
timo-71 #:
Минус стоп слова, приведение в нормальную форму и сортировка

А какое практическое применение?

Я вижу, что такое можно использовать при проектировании сайта, по тематике где отсутствует эксперт.

Как вариант ещё посмотреть в сторону встречаемости лемм из документа в корпусе и\или среди конкурентов.

T7
На сайте с 19.09.2018
Offline
63
#65
SmileP #:
А какое практическое применение?

Ну, например, чтобы:

ArbNet :
движок автоматически подбирал 

В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.

На основе собственных граблей, куда наступил в процессе.

ArbNet
На сайте с 27.10.2019
Offline
124
#66
timo-71 #:
Ну и технические нюансы для  ArbNet, где я много времени потерял.
timo-71 #:

В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.

На основе собственных граблей, куда наступил в процессе.

Я извиняюсь. У вас я вижу просто поиск повторений слов, что по сути не даёт для будущей логики поиска хорошего результата. По моему суть алгоритма должна быть следующая:

1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.

2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.

3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)

Обсуждение разработки на моём фреймворке https://discord.gg/23N4s9x2kp
SmileP
На сайте с 18.02.2010
Offline
386
#67
Новый поисковик делаете?
ArbNet
На сайте с 27.10.2019
Offline
124
#68
SmileP #:
Новый поисковик делаете?

Нет конечно 😀

Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.

Так же думаю сделать поиск по сайтам на своём движке. Вот и всё.

T7
На сайте с 19.09.2018
Offline
63
#69
ArbNet #:
У вас я вижу просто поиск повторений слов

Не совсем.  Лень, ковырять скрипт, чтобы просто частотность биграмм показать. Но, почти всегда там другой порядок. Здесь же

('продвижение_сайт', 2687.3856000000164)

2687.3856000000164 без сомненья зависит от частоты, но и скорректировано функцией учитывающей частоту и вхождение в  слов из ключей по буквариксу,  вхождение слов из подсветок, заголовка, сниппета и еще кое какими данными (все с разным весом). Но и это промежуточный вариант. 

timo-71 #:
Ну и дальше к gensim lsi/lda и т.п.

Из темы про lsi ссылку на которую я неоднократно приводил. Попросили запрос "наполеон".  

<class 'gensim.models.lsimodel.LsiModel'>

0.715*"наполеон" + 0.426*"год" + 0.146*"армия" + 0.143*"франция" + 0.139*"французский" + 0.110*"бонапарт" + 0.086*"становиться" + 0.083*"войско" + 0.080*"военный" + 0.078*"император"
-0.525*"торт" + -0.286*"мука" + -0.269*"рецепт" + -0.239*"сахар" + -0.228*"наполеон" + -0.223*"масло" + -0.213*"молоко" + -0.211*"сливочный" + 0.193*"год" + -0.184*"крем"
0.360*"год" + -0.327*"бонапарт" + -0.299*"франция" + -0.219*"император" + -0.147*"французский" + 0.118*"тыс" + 0.115*"май" + -0.110*"фильм" + -0.106*"становиться" + -0.104*"генерал"
0.296*"наполеон" + 0.261*"фильм" + -0.241*"год" + -0.213*"франция" + 0.209*"конкурс" + 0.149*"человек" + 0.144*"клавье" + -0.144*"мука" + -0.121*"сахар" + -0.111*"молоко"
-0.657*"конкурс" + -0.233*"спецпроект" + -0.222*"блюдо" + -0.200*"рецепт" + 0.130*"наполеон" + -0.127*"мультиварка" + -0.126*"год" + 0.125*"мука" + -0.122*"торт" + 0.114*"сахар"
0.520*"бонапарт" + 0.252*"год" + 0.218*"император" + 0.136*"биография" + -0.115*"наполеон" + -0.115*"франция" + 0.113*"становиться" + -0.109*"фильм" + -0.103*"армия" + -0.087*"империя"
Нетрудно заметить, что gensim.models.lsimodel.LsiModel выделил в х-документов из топа Яндекса несколько тематических кластеров, касающихся как собственно Наполеона,  так и торта.
Ключевые слова, найденные по вашему запросу
Ключевые слова, найденные по вашему запросу
  • www.bukvarix.com
Для подбора поисковых запросов в режиме простого поиска введите в поисковую строку слово или словосочетание, которое вы хотите расширить за счет подбора словосочетаний, содержащих ваши поисковые слова. По умолчанию производится поиск с поддержкой словоформ слов для поиска и слов для исключения. Это значит, что при поиске, например, ключевого...
T7
На сайте с 19.09.2018
Offline
63
#70
Кстати, вот это , разложить хтмл документ на предложения - имеет важное значение, для построения лси модели. 
Вывести n строк из файла. - Веб-строительство - Сайтостроение - Форум об интернет-маркетинге
Вывести n строк из файла. - Веб-строительство - Сайтостроение - Форум об интернет-маркетинге
  • 2020.08.25
  • searchengines.guru
Привет. Как при помощи пхп вывести из файла N-ное количество предложений

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий