kotofeich

kotofeich
Рейтинг
28
Регистрация
25.03.2009
Должность
Web-coder
unknown php developer:
Насколько я понял вся соль не в определении тематики отдельной страницы, а в определении тематики сайта

В планах определять оба параметра. Потому что мы часто покупаем статьи и в их тематике мало сомневаемся, а вот в тематике сайта..

Владислав Железный:
А зачем тогда дискуссию открывать? Если это тема, то лучше молчать, чтоб лишнего не спалить, и реализовывать, чтоб дивиденты получить, если это лажа для репы, то тогда топик стоит продолжить. :)

Смотри - для меня это тема. Пару человек могут вчитаться и подсказать что-нибудь, поскольку здесь много народу набившего себе шишки. Теперь отбросим из сеошников всех, кто незнаком с программированием. Далее подумай сколько программистов сядут с целью повторить это? Очень сомневаюсь что наберутся полчеловека. А ведь нужна как минимум фирма с десятком человек для реализации алгоритма. Так что я не беспокоюсь о "палеве".

kotofeich добавил 20.05.2009 в 20:32

burunduk:
да а как же например грабштихель, то же не окажет воздействия на тематику текста

так зачем тогда анализировать исходящие анкоры, если вы пытаетесь определить тематику страницы? :)

Анализировать исходящие анкоры нужно чтобы не потерять доли тошнотности ключевиков. В реальности можно исследовать все слова с учетом тошнотности на предмет определения тематики, но для этого нужны довольно большие мощностя. Я думаю точность не изменится, если отбросить одиночные слова.

Если например в тексте идут ключевые слова "таблетки", "медикаменты", "аптека" и т.д. повторяющиеся по 3 раза. А потом встречается одно слово "автомобили", либо "фарма", то они не сыграют абсолютно никакой роли в общей оценке.

Владислав Железный:
Алгоритм как я понял еще на стадии разработки? Будет интересно узнать его точность. Например, сравнивая с сайтами в Яндекс.Каталоге.

Думаю сам понимаешь, что если результаты будут положительными, то их уже никто не узнает:)

А 99.99% человек прочитавшие этот пост скоро забудут про него.

Владислав Железный:
Изобретаете что-то типа этого? http://www.ashmanov.com/tech/semantic/demo/

Да. Задачей стояло повторить этот алгоритм.

burunduk:
очень слабое место, например в тексте всего один раз встречается слово "паллиатив" и вы его удалите? :)

да. Возможно это лишь покупная ссылка, и одно слово врятли сильно повлияет на тематику. К тому же тематику сайта я предложил определять по n-страницам. Если незнакомое мне слово "паллиатив" есть на нескольких страницах, то оно явно встретится более трех раз, чтобы имело воздействие на тематику

murvuz:
Почитайте перевод доклада. Тема тут.
Тематика для некоммерческих сайтов не так принципиальна, в виду опять же доклада.
Вопрос-то в практическом применении вашего алгоритма. Если Вы его сделали для "Чтобы был" это одно. Если для практического применения, то 5000 тематик не нужны.

Я ознакомлюсь с текстом. Выскажу свое мнение чуть позже, как обдумаю текст. Разработка идет для продвижения сайтов нашей фирмы и клиентов, так что он делается не для того "чтобы был", а для того чтобы "не стрелять из пушки по воробьям".

kotofeich добавил 20.05.2009 в 20:00

unknown php developer:
Неплохое решение. Но тут вы рассматриваете чистый текст. Если мы говорим о сайтах, то нужно учитывать также вес Title, Meta-description, Meta-keywords, H1, H2, H3 .. , <b>, <strong> ну и т.д. + я бы включил базу стоп-слов, а не просто отрезать слова меньше 3 символов.

Возможно вы правы. Насчет meta-description и meta-keywords вопрос спорный, но для h1 и title коэффициенты надо точно увеличить. Спасибо.

murvuz:
На последнем докладе в Мадриде Яндекс выделил всего 22 коммерческие тематики. Интересны по сути только они (вернее их определение).
ЗЫ Правда не совсем понятно. Они выделили 22 тематики для коммерческих запросов или они только для выборки взяли 22 тематики.

Что-то совсем неясно теперь. С точки зрения 22 тематик - думаю они есть в любой бирже ссылок.

Там как раз примерно столько. И что тогда в случае некоммерческого сайта?

kotofeich добавил 20.05.2009 в 19:34

shmelina:
5000 тематик конечно многовато, по сравнению с 22:) Мне кажется вам надо подумать над упрощением алгоритма.

Ашманов вообще выделил в качестве базовых 68 тематик. Остальные подтематики для более точного анализа.

Большое спасибо Str256 и Мастер Йода за ответы. Тема закрыта по пожеланию некоторых авторитетных пользователей. Основное направление куда копать я понял. Дальше не вижу смысла обсуждать.

Str256:
Тематику определяет редактор каталога на основании содержимого сайта. В первую очередь смотрят на преобладание тематики указанной в заявке на морде. Если намешано много тематик - в лучшем случае в универсаное, в худшем в отказ. Отказ обычно - если на морде много новостей - с миру по нитке. Код, наличие сайта в индексе - совершенно не при чём. Наличие сайта в выдаче по тематическим ключам - тоже может влиять. Автоматика может применяться для первичного отбора, но просмотр человеком всё равно будет.

Хм.. Интересный скрипт. Похоже что он определяет вектор тематики по семантическому ядру. То бишь для каждой тематики составил набор ключевых слов, и вычисляй.

Насчет як - давай лучше его отбросим. Сайтов в яке маловато по сравнению с остальными, и там мы видим тематику. Тут вопросов не возникнет.

в смысле как поисковик может использовать то что внутри ? ну например например учитывать при вычислении веса ключевиков на странице или учитывать при определении расстояния между словами.

Тогда для чего существует noindex? Чтобы запретить передачу ссылочного? Но ведь обычно его и ставят на ссылки.

Мастер Йода:
пример чего именно ?

Того как может использоваться noindex текст.

Всего: 162