- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Тема о возможности автоматического определения тематики сайта уже многократно поднималась и обсуждалась. Но хотелось бы поделиться новыми идеями и обсудить их...
Итак, возьмем за основу структурированный каталог, например Яндекс. Каждой конечной тематической рубрике ставим в соответствие взвешенный перечень специфических ключевых слов-маркеров (или фраз). Под взвешенным перечнем подразумевается, что каждое ключевое слово имеет определенный вес в соответствии с глобальной статистикой: частоупотребимые слова - меньший, редкоупотребимые - больший - такие веса есть у Яндекса.
Затем осуществляется анализ контента всех страниц сайта. В случае если в контенте сайта встречается слово-маркер, то к соответствующему показателю тематичности сайта прибавляется вес слова умноженный на частоту его повторения на сайте. По итогам полного пересчета каждый сайт будет иметь показатели его тематического соответствия каждой отдельной рубрике. В случае, если ни одна из рубрик не выделяется среди других (например каталоги), то сайт считается нетематическим.
Модель достаточно проста для реализации и в тоже время эффективна.
По-моему, громоздкая конструкция... Как быть с сайтами, на которых количество страниц измеряется сотнями тысяч, а то и миллионами? Особенно если учесть, что яндекс и так не особо торопится индексировать все, что видит? Как быть с сайтами, которые зарегистрированы в паре директорий и пяти-шести поддиректориях?
Да и формирование взвешенного перечня слов - процесс длинный и непростой...
Тема о возможности автоматического определения тематики сайта уже многократно поднималась и обсуждалась. Но хотелось бы поделиться новыми идеями и обсудить их...
Итак, возьмем за основу структурированный каталог, например Яндекс. Каждой конечной тематической рубрике ставим в соответствие взвешенный перечень специфических ключевых слов-маркеров (или фраз). Под взвешенным перечнем подразумевается, что каждое ключевое слово имеет определенный вес в соответствии с глобальной статистикой: частоупотребимые слова - меньший, редкоупотребимые - больший - такие веса есть у Яндекса.
Затем осуществляется анализ контента всех страниц сайта. В случае если в контенте сайта встречается слово-маркер, то к соответствующему показателю тематичности сайта прибавляется вес слова умноженный на частоту его повторения на сайте. По итогам полного пересчета каждый сайт будет иметь показатели его тематического соответствия каждой отдельной рубрике. В случае, если ни одна из рубрик не выделяется среди других (например каталоги), то сайт считается нетематическим.
Модель достаточно проста для реализации и в тоже время эффективна.
Ну а если встречаются маркеры подходящие под несколько тематик? В принципе, наверное это наипростеший вариант развития событий...
Ну а если встречаются маркеры подходящие под несколько тематик? В принципе, наверное это наипростеший вариант развития событий...
Не знаю, насколько такой вариант можно считать наипростейшим... Это ж все - футурология:) Здесь многое зависит от трендов развития интернета. Мне кажется, что такое понятие, как "тематика" вообще будет стремиться к вымиранию...
Ну а если встречаются маркеры подходящие под несколько тематик?
Такие можно отбросить. Вполне достаточно уникальных.
Как быть с сайтами, на которых количество страниц измеряется сотнями тысяч, а то и миллионами?
Вы можете привести много примеров подобных сайтов?
Вы можете привести много примеров подобных сайтов?
Все сайты приличных СМИ. У каждого, кстати, есть еще и тематика - деловое издание существенно отличается по контенту от таблоида, спортивного, эротического и др. И воевать с этим сложно. Другой вопрос, что у некоторых архивы зашиты и продаются за деньги и нужно ли поисковику держать у себя в индексе все это счастье, - диспутабельно.
Встречал сайты заводов, где страниц действительно сотни тысяч. Другой вопрос, насколько разумно делать это именно так...
Сайты всяческих парламентов с законодательством. Как, кстати, определять тематику законодательства? По слову "законодательство"? Или по отраслевым признакам? Юзер-то едва ли ищет "что-то про законодательство" (если он не студент)... Юзер ищет "нормативные акты, регулирующие разведение кроликов в Бобруйском районе"...
Всякого рода онлайновые игрушки...
Полагаю, что таких сайтов действительно много
тогда крупные вероятно будут описаны в каталоге и тематика им будет задана человеком, а все остальные попадут либо в автотематику, либо будут считаться нетематичными.
UPD: я долго думал над определением тематичности документов, думаю такое вот весовое определние вполне имеет право на реализацию. Причем определение тематики может происходить не только и не столько для сайта, как для документа (ресурсов правда потребуется поболее).
Bloody dude,
Результат поиска: страниц — 139 611
Область поиска: сайт — www.lenta.ru
Результат поиска: страниц — 103 575
Область поиска: сайт — www.utro.ru
Результат поиска: страниц — 55 413
Область поиска: сайт — www.pravda.ru
Сотню вижу, а сотни или миллионы... нет. Старайтесь голые слова всегда подкреплять фактами, тем более, если утверждаете категорично. В SEO и без этого хватает неопределенности. Хотя бы нам с вами надо быть конкретными.
тогда крупные вероятно будут описаны в каталоге и тематика им будет задана человеком, а все остальные попадут либо в автотематику, либо будут считаться нетематичными.
Дык ить даже в яке сейчас очень много крупных сайтов. И они, вроде бы, разбиты по тематике (можно спорить, насколько корректно, но это - просто факт). А если крупный сайт добавляет у себя новую тему? Каждый раз тарахтеть об этом модераторам? Они ж руками везде если лазить будут, то ротация пойдет неимоверная в связи с эпидемией шизофрении среди сотрудников отдельно взятой компании... Как, к примеру, быть с тематикой "вторичных" ресурсов? Которые занимаются переводом иностранных текстов, или формируют дайджесты чужих?
Не знаю, мне кажется, что вся эта тематика - черная магия и будет помирать. Рулить будет контент. То есть, на мой взгляд, самый корректный и правильный путь для поисковиков - решить, каким образом определять первоисточник информации. Это, наверное, сложнее, чем бить по тематике...
Bloody dude,
Результат поиска: страниц — 139 611
Область поиска: сайт — www.lenta.ru
Результат поиска: страниц — 103 575
Область поиска: сайт — www.utro.ru
Результат поиска: страниц — 55 413
Область поиска: сайт — www.pravda.ru
Дык это... Как бы сказать - это ж то, что есть в индексе, а не есть физически на сайте.
Хотя если Вы именно об индексе, то готов согласиться
То есть, на мой взгляд, самый корректный и правильный путь для поисковиков - решить, каким образом определять первоисточник информации.
имхо, задача не решаема. это не могут решить люди, а Вы хотите машину это заставить делать. В один день вышло 10 одинаковых книжек в разных обложках 10 авторов, вопрос - кто у кого стыбзил?