- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вообщем задача вычислить программно в % насколько донор и акцептор схожи по словам из текста страниц. Задача базируется на том, что в теории схожесть ключевиков на страницах нравится поисковикам и в частности яшке (доказывать это не буду, и к теме не относится).
Вижу три варианта решения:
1) Разбить текст донора и акцептора на слова. Взять из них n наиболее повторяющихся слов, исключая склонения, и сравнить сколько слов совпало.
2) Тоже самое но сравнить абсолютно все слова.
3) сравнить только слова из title, h1, h2, b (может что-то еще)
Само собой из текста исключить noindex текст, скрипты, теги и прочую лабуду.
Охото услышать мнение насчет:
1) имеют ли такие действия смысл?
2) что лучше 1-ый вариант сравнения, второй или третий?
2) Есть ли еще какие-нибудь мысли как можно сравнить тексты?
Важно не только внутреннее содержание, но также и внешнее. Т.е. ресурсы каких тематик ссылаются на донора, кто ссылается на них и на ресурсы каких тематик ссылается донор помимо вашего акцептора. Тексты анкоров.
Что касается сравнению по содержимому сайтов, ноидекс тексты не стоит исключать.
Важно не только внутреннее содержание, но также и внешнее. Т.е. ресурсы каких тематик ссылаются на донора, кто ссылается на них и на ресурсы каких тематик ссылается донор помимо вашего акцептора. Тексты анкоров.
Что касается сравнению по содержимому сайтов, ноидекс тексты не стоит исключать.
Спасибо за совет.
Вычисление схожести внешняков донора довольно ресурсоемко. Упростим пока задачу: доноры - обычные страницы 3-его уровня, которые не имеют линкбэков.
А почему не стоит исключать noindex?
А почему не стоит исключать noindex?
В ЯК например принимают сайт на основе его видимого содержания, а не кода. Почему же при сравнении тематики, то что закрыто в ноиндекс не должно влиять на общую тематику ресурса?
Вообщем задача вычислить программно в % насколько донор и акцептор схожи по словам из текста страниц. Задача базируется на том, что в теории схожесть ключевиков на страницах нравится поисковикам и в частности яшке (доказывать это не буду, и к теме не относится).
решение такой задачи на основе простого сравнения ключевиков даст плохие результаты.
более продуктивны методы классификации. можно построить свои наборы признаков, по которым относить текст к той или иной тематике. можно использовать байесовкий алгоритм.
в результате классификации документа вы получаете вектор коэффициентов тематической близости. перемножая вектора вы получаете коэффициент тематической схожести.
p.s. если ПС использует "тематику", то скорее всего применяются подобные алгоритмы. насколько я понимаю гугл при размещении рекламы именно так и подбирает тематику объявления.
Мастер Йода добавил 14.05.2009 в 00:20
А почему не стоит исключать noindex?
то что текст закрытый этим тегом не включается в поисковый индекс (то есть по нему страница не найдется) совсем не означает что этот текст никак не используется.
решение такой задачи на основе простого сравнения ключевиков даст плохие результаты.
более продуктивны методы классификации. можно построить свои наборы признаков, по которым относить текст к той или иной тематике. можно использовать байесовкий алгоритм.
в результате классификации документа вы получаете вектор коэффициентов тематической близости. перемножая вектора вы получаете коэффициент тематической схожести.
p.s. если ПС использует "тематику", то скорее всего применяются подобные алгоритмы. насколько я понимаю гугл при размещении рекламы именно так и подбирает тематику объявления.
Респект! Спасибо большое. Я не знал про байесовский алгоритм. Теория вероятностей это гуд.
Сейчас пробежался по его теории, думаю это вполне подходит в данном случае.
В ЯК например принимают сайт на основе его видимого содержания, а не кода. Почему же при сравнении тематики, то что закрыто в ноиндекс не должно влиять на общую тематику ресурса?
Но ведь индексирует (то бишь заносит в базу данных), не человек а робот. По идее он должен обрубать куски noindex. Человек лишь смотрит и говорит good сайт или нет. Или я не прав?
то что текст закрытый этим тегом не включается в поисковый индекс (то есть по нему страница не найдется) совсем не означает что этот текст никак не используется.
Можешь хоть привести простой пример?
Можешь хоть привести простой пример?
пример чего именно ?
Но ведь индексирует (то бишь заносит в базу данных), не человек а робот. По идее он должен обрубать куски noindex. Человек лишь смотрит и говорит good сайт или нет. Или я не прав?
Тематику определяет редактор каталога на основании содержимого сайта. В первую очередь смотрят на преобладание тематики указанной в заявке на морде. Если намешано много тематик - в лучшем случае в универсаное, в худшем в отказ. Отказ обычно - если на морде много новостей - с миру по нитке. Код, наличие сайта в индексе - совершенно не при чём. Наличие сайта в выдаче по тематическим ключам - тоже может влиять. Автоматика может применяться для первичного отбора, но просмотр человеком всё равно будет.
пример чего именно ?
Того как может использоваться noindex текст.
Того как может использоваться noindex текст.
в смысле как поисковик может использовать то что внутри ? ну например например учитывать при вычислении веса ключевиков на странице или учитывать при определении расстояния между словами.
Тематику определяет редактор каталога на основании содержимого сайта. В первую очередь смотрят на преобладание тематики указанной в заявке на морде. Если намешано много тематик - в лучшем случае в универсаное, в худшем в отказ. Отказ обычно - если на морде много новостей - с миру по нитке. Код, наличие сайта в индексе - совершенно не при чём. Наличие сайта в выдаче по тематическим ключам - тоже может влиять. Автоматика может применяться для первичного отбора, но просмотр человеком всё равно будет.
Хм.. Интересный скрипт. Похоже что он определяет вектор тематики по семантическому ядру. То бишь для каждой тематики составил набор ключевых слов, и вычисляй.
Насчет як - давай лучше его отбросим. Сайтов в яке маловато по сравнению с остальными, и там мы видим тематику. Тут вопросов не возникнет.
Тогда для чего существует noindex? Чтобы запретить передачу ссылочного? Но ведь обычно его и ставят на ссылки.