Проверяем количество слов, считаем количество стопслов среди них. Прибавляем к счетчику стопслов единицу - Яндекс

153

Stasmotion

20 апреля 2017, 12:23

#161

sergey_ny:

Где такая статистика сейчас в вебмастере показывается?

Комплексное SEO продвижение сайтов, полная отчетность Настройка и ведение Яндекс.Директ

386

SmileP

20 апреля 2017, 12:29

#162

Специальный алгоритм- может Баден?)

---------- Добавлено 20.04.2017 в 17:30 ----------

Stasmotion:
де такая статистика сейчас в вебмастере показывается?

https://webmaster.yandex.ru/site/indexing/url-tracker/

1

105

Мемори

20 апреля 2017, 12:30

#163

проблема в слишком ВЫСОКОЙ уникальности. Энтропия средней статьи тоже средняя. Статья слишком уникальная имеет слишком большой уровень энтропии, такой уровень имеет обычно генеренка с рандомизацией для доров. ПОтому и выкинул. Яндекс умеет измерять энтропию... проверно... это связано не только с оценкой уникальности текста но и с борьбой с закодированными js вирусами.

вот неправильный совет, не мой, цитата откуда-то, не делайте так:

Опубликуйте вашу статью на серче под другим ником невидимым текстом в другом топике со сылкой на оригинал, через 1-5 мин она (статья так что на серче) будет в индексе яндекса. После этого через 3-4 часа будет в индексе на 2 месте по уник отрывку и статья у вас на сайте. После этого можете удалить статью с серча. :)

1

.... (https://vk.com/wall-25740422_190637).. (https://vk.com/wall-8162550_702270).. (https://vk.com/wall115005096_12481).. (https://vk.com/wall-51933859_219362).

183

mendel

20 апреля 2017, 12:41

#164

Мемори:
проблема в слишком ВЫСОКОЙ уникальности. Энтропия средней статьи тоже средняя.

Я вот тоже про закон Ципфа или что-то вроде подумал.

Ну и переспам еще может быть.

Тошнота скорее всего в порядке, но тошнота это плотность самого частотного ключа, а не общая плотность ключей.

Хотя конечно не исключает всяких странностей и ошибок самого яши, но я бы таки на текст сначала грешил).

Шутку любишь над Фомой, так люби и над собой. (с) народ. Бесплатные списки читабельных(!) свободных доменов (http://burzhu.net/showthread.php?t=2976) (5L.com) Сайты, All inclusive. 5* (/ru/forum/962215)

На первом месте по Google Updates - апдейты Яндекс кобласит

[Удален]

20 апреля 2017, 18:02

#165

sergey_ny:
Просто странно что есть хорошая уникальная статья, с достоверной информацией которой по той теме мало на просторах интернета, хотя по таким же ключам статей много, но они малоинформативны. Вот... и тут он выкинул её :-)) вот я и не пойму чего не хватило. Оставил бы её нехай кто доколупает страницы по исковике, но нет, выкинул. Чё за алгоритм этакий.

а есть хоть один реальный запрос по которому данная статья может быть показана в топ 1000? ;)

386

SmileP

21 апреля 2017, 06:13

#166

mendel:
Я вот тоже про закон Ципфа или что-то вроде подумал

Не работает он. Посмотрите любой ТОП. Там большой разброс по ципфу, очень большой.

183

mendel

21 апреля 2017, 09:53

#167

SmileP:
Не работает он. Посмотрите любой ТОП. Там большой разброс по ципфу, очень большой.

Неее. Оно всё не так работает совершенно.

Я думаю уже поднадоел всем своими байками десятилетней давности, но уж простите, свежее нет. Да и фундаментально оно актуально все еще.

Итак два примера из жизни истио.

Как работает такой параметр как "водность"?

Мы считаем количество слов, считаем количество стопслов среди них, и находим процент.

Что у нас тут является вводными?

Вводными является как минимум список стопслов.

Я брал их от балды.

Ничем математически не определенно.

А можно математически? Можно.

Что такое стопслова?

Это слова, которые встречаются настолько часто, что смысла несут не много.

В противоположность им есть ключевыеСлова. Это слова которые встречаются очень редко, и присутствуют в текстах, которые явно имеют какое-то отношение к этому слову.

Между ними находятся в большом количестве "общие" слова, т.е. те что вроде и не слишком часто, но и не достаточно редко. Часть из них уточняющие в запросах, часть несут информацию только при довольно глубокой семантической разброке.

В целом у нас есть три категории слов, эти категории получены математически, и от них мы уже можем отталкиваться. Так?

Нет, не так.

Что у нас тут явно введено с потолка? Да порог же! Где проходит граница?

От балды граница!

Что можно с ней сделать?

Убрать нафиг границу.

Посудите сами. Если мы считаем "сколько стопслов в тексте", то мы берем каждое слово, проверяем стопслово ли оно, если да, то прибавляем к счетчику стопслов единицу, если нет, то ноль. Но при вычислении "стоповости" этого слова у нас плавная шкала, на которой сложно сделать границу... Так давайте прибавлять не целую единицу, а некое дробное число.

Правда это число должно быть не очень большим, скажем в промежутке от нуля до единицы, и зависимость от частоты слова не должна быть линейной, ведь разница между самыми популярными словами может быть в разы, а от этого их стоповость не особо различается, ну и у самых редких стоповости остаться совсем не должно. Но это решается обычными математическими методами. Допустим логарифмом. Не суть.

Всё?

Нет, не всё.

На сайте "портал продавцов" слово Москва будет стопсловом, а в статье "В Москве сегодня новый мэр" - очень даже ключевым.

Так что нужна тематика.

Плюс вид запроса.

Ведь название бренда на сайте бренда может быть как суперключевиком (витальным), так и стопсловом.

Теперь перейдем к вопросу тематики. И опять истио.

Как работает определение тематики?

Я знаю что плохо. Но как именно она работает?)

Тематику мне подарил один хороший человек, за то что я ему дал большой архив различных библиотек по морфологии, синтаксису, семантике и т.п.

(Ага, это было почти одновременно с тем как Адвего назвали свой клон истио "семантическим анализатором", и я тогда если честно больше возмущался не с того что они меня клонировали, а то что простейшую статистику назвали семантикой. Сейчас ржу за давностью).

Полученных честно, и не очень.

Работает она просто.

Есть набор категорий.

У категорий есть набор слов, с весами.

Веса отражают то как часто это слово встречается в этой категории.

Проходим по всем нашим словам, и если находим такое слово в базе, то добавляем его веса соответствующим тематикам.

На выходе получаем список весов во всех тематиках.

Сортируем по убыванию и выводим тех у кого самый большой вес (вроде две или три, не помню?). Ценна тут только база по сути.

Человек спарсил какой-то размеченный корпус вроде ЯК/ДМОЗ, не помню уже, и по описаниям собрал статистику.

Ну нормализация и нелинейность еще, но то такое, вопрос рабочий.

Когда у нас есть хоть какая-то размеченная база тематик, мы можем определить по ней тематику остальных текстов, и на их основе уточнить базу, потом итеративно, плюс немного ручной работы, и готова уточненная база.

Здесь у нас за скобками остается происхождение вообще списка категорий, а также первичной базы. В начале можно и всякие ЯКи/ДМОЗы использовать (как делали первые поисковики), но тут математика тоже поможет. Строим граф с нечеткими ребрами (не помню как оно называется) вероятностей встречи слов в одном тексте. Потом кластеризуем слова, потом под них кластеризуем тематики текстов. Не буду останавливаться, просто знайте что и это возможно).

Итак вернемся к нашей водности.

Берем текст. Определяем его тематиКИ. Не четко - есть тематика/нет тематики, а с коэффициентом насколько она соответствует.

Далее смотрим частотность каждого слова в каждой тематике, и вычисляем водность текста относительно каждой его тематики.

Далее по желанию можно сложить все эти водности (с учетом веса тематики) и получить общую водность, или использовать только в нужных тематиках, по ситуации.

Аналогично мы можем вычислить "тематическую тошноту"/"тематическую заспамленность", точнее долю ключевых слов в тексте, ну и собственно у каждого слова у нас есть его "тематическая релевантность" и "тематическая стопсловность" (разные параметры, хотя можно и в один свести, в виде нелинейной "ванны", не суть).

Знал ли я о таком алгоритме десять лет назад? Бесспорно.

С него и начинал).

Сложный ли алгоритм? совсем нет.

Почему я не реализовал его, а соорудил вон ту поделку о которой и спустя десять лет споров больше чем пользы?

Все просто - в основе алгоритмов лежит доступность частотностей слов в различных тематиках. Для этого ничего особенного и не нужно. Всего то база данных со всеми текстами из интернета. Т.е. для обычного "студента" невозможно. А для поисковика элементарно.

К чему все эти многабукафф, если мы говорим о ципфе?

Да ципф к текстам это такое же жуткое упрощение.

Даже на классическое распределение по ципфу наложить тематику и нормализовать по глобальной частотности, и будет совсем другая картина.

Но нужна глобальная статистика, так что обходимся кастрированными алгоритмами.

T

117

tippula

22 апреля 2017, 14:05

#168

Яндекс вебмастер вдруг стал ругаться:

Пустой robots.txt

Так же не видит sitemap.txt

Файлы всегда были и есть

В чем дело?

Создание сайтов. Офис в Москве. Долго и дорого.

T

117

tippula

22 апреля 2017, 16:51

#169

tippula:
Яндекс вебмастер вдруг стал ругаться:
Пустой robots.txt
Так же не видит sitemap.txt
Файлы всегда были и есть
В чем дело?

Проблема найдена, хостер на http2 переехал 😡

104

JonK

26 апреля 2017, 06:50

#170

Приветствую

Столкнулся со следующей проблемой: яндекс показывает в панели управления вэбмастера загруженные страницы, которые не существуют.

например есть реально сущеаствующие страницы:

https://site.ru/moskva/obuchenie/uslug/kursi_angliskogo/

https://site.ru/moskva/obuchenie/uslug/

https://site.ru/moskva/obuchenie/nemecki

а в вэбмастере еще отображается и такая страница:

https://site.ru/moskva/obuchenie/uslug/kursi_angliskogo/obuchenie/uslug/obuchenie/nemecki - а её реально нет (тм 404 ошибка выдается)

т.е. в вэбмастере эта страница загружена и имеет статус 404 ошибки.

важно: ранее такой страницы тоже не было, а при ручной проверке сайта и через audit.megaindex.ru - битой ссылки нет с адресом

https://site.ru/moskva/obuchenie/uslug/kursi_angliskogo/obuchenie/uslug/obuchenie/nemecki

и таких страниц много.

наблюдаю подобную картину уже на втором сайте (причем сайты на разных CMS)

Откуда Яндекс их берет и что можно сделать чтоб предотвратить загрузку Яндексом этих несуществующих страниц?

применять robots.txt - не очень хороший вариант, лучше выяснить первопричину.

NFresh (http://nfresh.ru)

Что делать, если ваша email-рассылка попала в спам

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Яндекс.Вебмастер