- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Где такая статистика сейчас в вебмастере показывается?
Специальный алгоритм- может Баден?)
---------- Добавлено 20.04.2017 в 17:30 ----------
де такая статистика сейчас в вебмастере показывается?
https://webmaster.yandex.ru/site/indexing/url-tracker/
проблема в слишком ВЫСОКОЙ уникальности. Энтропия средней статьи тоже средняя. Статья слишком уникальная имеет слишком большой уровень энтропии, такой уровень имеет обычно генеренка с рандомизацией для доров. ПОтому и выкинул. Яндекс умеет измерять энтропию... проверно... это связано не только с оценкой уникальности текста но и с борьбой с закодированными js вирусами.
вот неправильный совет, не мой, цитата откуда-то, не делайте так:
проблема в слишком ВЫСОКОЙ уникальности. Энтропия средней статьи тоже средняя.
Я вот тоже про закон Ципфа или что-то вроде подумал.
Ну и переспам еще может быть.
Тошнота скорее всего в порядке, но тошнота это плотность самого частотного ключа, а не общая плотность ключей.
Хотя конечно не исключает всяких странностей и ошибок самого яши, но я бы таки на текст сначала грешил).
Просто странно что есть хорошая уникальная статья, с достоверной информацией которой по той теме мало на просторах интернета, хотя по таким же ключам статей много, но они малоинформативны. Вот... и тут он выкинул её :-)) вот я и не пойму чего не хватило. Оставил бы её нехай кто доколупает страницы по исковике, но нет, выкинул. Чё за алгоритм этакий.
а есть хоть один реальный запрос по которому данная статья может быть показана в топ 1000? ;)
Я вот тоже про закон Ципфа или что-то вроде подумал
Не работает он. Посмотрите любой ТОП. Там большой разброс по ципфу, очень большой.
Не работает он. Посмотрите любой ТОП. Там большой разброс по ципфу, очень большой.
Неее. Оно всё не так работает совершенно.
Я думаю уже поднадоел всем своими байками десятилетней давности, но уж простите, свежее нет. Да и фундаментально оно актуально все еще.
Итак два примера из жизни истио.
Как работает такой параметр как "водность"?
Мы считаем количество слов, считаем количество стопслов среди них, и находим процент.
Что у нас тут является вводными?
Вводными является как минимум список стопслов.
Я брал их от балды.
Ничем математически не определенно.
А можно математически? Можно.
Что такое стопслова?
Это слова, которые встречаются настолько часто, что смысла несут не много.
В противоположность им есть ключевыеСлова. Это слова которые встречаются очень редко, и присутствуют в текстах, которые явно имеют какое-то отношение к этому слову.
Между ними находятся в большом количестве "общие" слова, т.е. те что вроде и не слишком часто, но и не достаточно редко. Часть из них уточняющие в запросах, часть несут информацию только при довольно глубокой семантической разброке.
В целом у нас есть три категории слов, эти категории получены математически, и от них мы уже можем отталкиваться. Так?
Нет, не так.
Что у нас тут явно введено с потолка? Да порог же! Где проходит граница?
От балды граница!
Что можно с ней сделать?
Убрать нафиг границу.
Посудите сами. Если мы считаем "сколько стопслов в тексте", то мы берем каждое слово, проверяем стопслово ли оно, если да, то прибавляем к счетчику стопслов единицу, если нет, то ноль. Но при вычислении "стоповости" этого слова у нас плавная шкала, на которой сложно сделать границу... Так давайте прибавлять не целую единицу, а некое дробное число.
Правда это число должно быть не очень большим, скажем в промежутке от нуля до единицы, и зависимость от частоты слова не должна быть линейной, ведь разница между самыми популярными словами может быть в разы, а от этого их стоповость не особо различается, ну и у самых редких стоповости остаться совсем не должно. Но это решается обычными математическими методами. Допустим логарифмом. Не суть.
Всё?
Нет, не всё.
На сайте "портал продавцов" слово Москва будет стопсловом, а в статье "В Москве сегодня новый мэр" - очень даже ключевым.
Так что нужна тематика.
Плюс вид запроса.
Ведь название бренда на сайте бренда может быть как суперключевиком (витальным), так и стопсловом.
Теперь перейдем к вопросу тематики. И опять истио.
Как работает определение тематики?
Я знаю что плохо. Но как именно она работает?)
Тематику мне подарил один хороший человек, за то что я ему дал большой архив различных библиотек по морфологии, синтаксису, семантике и т.п.
(Ага, это было почти одновременно с тем как Адвего назвали свой клон истио "семантическим анализатором", и я тогда если честно больше возмущался не с того что они меня клонировали, а то что простейшую статистику назвали семантикой. Сейчас ржу за давностью).
Полученных честно, и не очень.
Работает она просто.
Есть набор категорий.
У категорий есть набор слов, с весами.
Веса отражают то как часто это слово встречается в этой категории.
Проходим по всем нашим словам, и если находим такое слово в базе, то добавляем его веса соответствующим тематикам.
На выходе получаем список весов во всех тематиках.
Сортируем по убыванию и выводим тех у кого самый большой вес (вроде две или три, не помню?). Ценна тут только база по сути.
Человек спарсил какой-то размеченный корпус вроде ЯК/ДМОЗ, не помню уже, и по описаниям собрал статистику.
Ну нормализация и нелинейность еще, но то такое, вопрос рабочий.
Когда у нас есть хоть какая-то размеченная база тематик, мы можем определить по ней тематику остальных текстов, и на их основе уточнить базу, потом итеративно, плюс немного ручной работы, и готова уточненная база.
Здесь у нас за скобками остается происхождение вообще списка категорий, а также первичной базы. В начале можно и всякие ЯКи/ДМОЗы использовать (как делали первые поисковики), но тут математика тоже поможет. Строим граф с нечеткими ребрами (не помню как оно называется) вероятностей встречи слов в одном тексте. Потом кластеризуем слова, потом под них кластеризуем тематики текстов. Не буду останавливаться, просто знайте что и это возможно).
Итак вернемся к нашей водности.
Берем текст. Определяем его тематиКИ. Не четко - есть тематика/нет тематики, а с коэффициентом насколько она соответствует.
Далее смотрим частотность каждого слова в каждой тематике, и вычисляем водность текста относительно каждой его тематики.
Далее по желанию можно сложить все эти водности (с учетом веса тематики) и получить общую водность, или использовать только в нужных тематиках, по ситуации.
Аналогично мы можем вычислить "тематическую тошноту"/"тематическую заспамленность", точнее долю ключевых слов в тексте, ну и собственно у каждого слова у нас есть его "тематическая релевантность" и "тематическая стопсловность" (разные параметры, хотя можно и в один свести, в виде нелинейной "ванны", не суть).
Знал ли я о таком алгоритме десять лет назад? Бесспорно.
С него и начинал).
Сложный ли алгоритм? совсем нет.
Почему я не реализовал его, а соорудил вон ту поделку о которой и спустя десять лет споров больше чем пользы?
Все просто - в основе алгоритмов лежит доступность частотностей слов в различных тематиках. Для этого ничего особенного и не нужно. Всего то база данных со всеми текстами из интернета. Т.е. для обычного "студента" невозможно. А для поисковика элементарно.
К чему все эти многабукафф, если мы говорим о ципфе?
Да ципф к текстам это такое же жуткое упрощение.
Даже на классическое распределение по ципфу наложить тематику и нормализовать по глобальной частотности, и будет совсем другая картина.
Но нужна глобальная статистика, так что обходимся кастрированными алгоритмами.
Яндекс вебмастер вдруг стал ругаться:
Пустой robots.txt
Так же не видит sitemap.txt
Файлы всегда были и есть
В чем дело?
Яндекс вебмастер вдруг стал ругаться:
Пустой robots.txt
Так же не видит sitemap.txt
Файлы всегда были и есть
В чем дело?
Проблема найдена, хостер на http2 переехал 😡
Приветствую
Столкнулся со следующей проблемой: яндекс показывает в панели управления вэбмастера загруженные страницы, которые не существуют.
например есть реально сущеаствующие страницы:
https://site.ru/moskva/obuchenie/uslug/kursi_angliskogo/
https://site.ru/moskva/obuchenie/uslug/
https://site.ru/moskva/obuchenie/nemecki
а в вэбмастере еще отображается и такая страница:
https://site.ru/moskva/obuchenie/uslug/kursi_angliskogo/obuchenie/uslug/obuchenie/nemecki - а её реально нет (тм 404 ошибка выдается)
т.е. в вэбмастере эта страница загружена и имеет статус 404 ошибки.
важно: ранее такой страницы тоже не было, а при ручной проверке сайта и через audit.megaindex.ru - битой ссылки нет с адресом
https://site.ru/moskva/obuchenie/uslug/kursi_angliskogo/obuchenie/uslug/obuchenie/nemecki
и таких страниц много.
наблюдаю подобную картину уже на втором сайте (причем сайты на разных CMS)
Откуда Яндекс их берет и что можно сделать чтоб предотвратить загрузку Яндексом этих несуществующих страниц?
применять robots.txt - не очень хороший вариант, лучше выяснить первопричину.