- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Насколько я понял вся соль не в определении тематики отдельной страницы, а в определении тематики сайта
В планах определять оба параметра. Потому что мы часто покупаем статьи и в их тематике мало сомневаемся, а вот в тематике сайта..
К примеру есть тематики "дом и дача" и "строительство". После отработки алгоритма получаем основные ключевики - "строильство", "дача" (в контексте "строительство дачи"). Вопрос - к какой тематике отнесет такой сайт алгоритм?
Интересно потому, что у меня есть сайт, который я сам затрудняюсь к какой-либо тематике окончательно отнести.
FladeX добавил 20.05.2009 в 20:48
ЗЫ. Тема интересная, не слушайте некоторых и не закрывайте топик ;)
Да, ладно. Одной здравомыслящей головы достаточно, чтобы реализовать подобный алгоритм, главное желание. :) Рутины правда много по составлению словаря... и размытые перспективы по применению. У кого-то одни идеи, у кого-то другие, а какие из них рабочие, да и рабочие ли вообще, можно никогда и не узнать. ;) Тицекрутителям разве что понятно какую пользу из этого можно извлечь.
Одной головы достаточно для реализации алгоритма, но не для составления семантического ядра.
Перспективы - это дополнительный опыт в понимании и дальнейшего совершенствования алгоритмов "антияндекс". Думаю даже такой алгоритм будет лучше чем брать ссылки для сайта про недвижимость со страницы с текстом про фитнесс с сайта про недвижимость.
Тицекрутители меня не волнуют.
kotofeich добавил 20.05.2009 в 20:59
просто лень писать много букв (можно попросить корпарайтеров, они точно напишут :)), но вот вам несколько вариантов тематики текста на странице с ключивиками
"таблетки", "медикаменты", "аптека" и "автомобили":
лекарства, грузоперевозки, логистика и т.д. и т.п. :)
Это легко обьяснить. Если это сайт про фарму, то большинство слов будут про таблетки, и медикаменты, а меньшая часть про грузоперевозки и логистику (скорее всего это доставка медикаментов). Ошибки быть не должно. Я сомневаюсь что сайт про фарму будет везде расписывать про то как они прекрасно доставляют свой товар и какая у них логистика.
kotofeich добавил 20.05.2009 в 21:03
К примеру есть тематики "дом и дача" и "строительство". После отработки алгоритма получаем основные ключевики - "строильство", "дача" (в контексте "строительство дачи"). Вопрос - к какой тематике отнесет такой сайт алгоритм?
Интересно потому, что у меня есть сайт, который я сам затрудняюсь к какой-либо тематике окончательно отнести.
Это будет зависить от коэффициентов сопутствующих слов. В реальности нужно будет найти несколько сайтов, которые вы точно знаете что относятся к дачам и поставить коэффициенты веса слов так, чтобы тема определилась как дача. Аналогично для строительства.
В результате вы узнаете свою тематику.
В пример беру лишь несколько сайтов, поскольку обычному "смертному" не даны мощностя яндекса, и для реализации алгоритма достаточно пары проб.
FladeX добавил 20.05.2009 в 20:48
ЗЫ. Тема интересная, не слушайте некоторых и не закрывайте топик ;)
Закрывать не собираюсь, пока не набежит народ, которым охото поржать над любой темой. Тогда точно будет ясно что обсуждать больше нечего.
Алгоритм Портера слаб, но пока сойдет. Как найду морфологический словарь - сменю на него.
Могу посоветовать phpMorphy (описание).
Могу посоветовать phpMorphy (описание).
спасибо. обязательно ознакомлюсь.
Существуют уже готовые системы (алгоритмы) для классификации (кластеризации) текстов. Я бы на вашем месте изучил то что уже (давно) сделано в этом направлении, и только потом, оценив достоинства/недостатки существующих алгоримов и готовых программных средств, начал бы сочинять свой.
Почему вы не используете байесовский классификатор ?
Недостатков в вашем алгоритме хоть отбавляй. Начиная с однословности (надо использовать как минимум 2) и заканчивая ручной простановкой коэффициентов (бррррр....).
p.s. как например ваш алгорит классифицирует этот кусок текста?
Существуют уже готовые системы (алгоритмы) для классификации (кластеризации) текстов. Я бы на вашем месте изучил то что уже (давно) сделано в этом направлении, и только потом, оценив достоинства/недостатки существующих алгоримов и готовых программных средств, начал бы сочинять свой.
Пожалуйста покажите описание подобного алгоритма. Буду очень благодарен.
Почему вы не используете байесовский классификатор ?
Для его построения требуется выборка, содержащая все возможные комбинации переменных - а размер такой выборки экспоненциально растет с ростом числа переменных (т.н. "проклятие размерности").
Недостатков в вашем алгоритме хоть отбавляй. Начиная с однословности (надо использовать как минимум 2) и заканчивая ручной простановкой коэффициентов (бррррр....).
Есть решение как с минимальными затратами обойти однословность? Я видел лишь теории, которые нереально реализовать на практике. Мне и сотни лет не хватит чтобы просчитать подобные алгоритмы для многословности.
Насчет простановки коэффициентов - нельзя ждать от машины результатов, пока сам не научишь ее тому чего хочешь.
В нем нет ни капли благородства, но есть букет. Вы спросите меня: в чем загадка этого букета? Я вам отвечу: не знаю, в чем загадка этого букета. Тогда вы подумаете и спросите: а в чем же разгадка? А в том разгадка, что "белую сирень", составную часть "духа Женевы", не следует ничем заменять, ни "жасмином", ни "шипром", ни "ландышем". "В мире компонентов нет эквивалентов", как говорили старые алхимики, а они-то знали, что говорили. То есть, "ландыш серебристый" - это вам не "белая сирень", даже в нравственном аспекте, не говоря уж о букетах.
Зачем задавать подобный вопрос машине, если человек не сможет дать на него ответ? Ваш текст мал. Дайте полный текст в страниц 10 хотя бы, и его можно будет классифицировать. Тут же почти нет повторений, и тематика была бы "цветы"
Смотри - для меня это тема. Пару человек могут вчитаться и подсказать что-нибудь, поскольку здесь много народу набившего себе шишки. Теперь отбросим из сеошников всех, кто незнаком с программированием. Далее подумай сколько программистов сядут с целью повторить это? Очень сомневаюсь что наберутся полчеловека. А ведь нужна как минимум фирма с десятком человек для реализации алгоритма. Так что я не беспокоюсь о "палеве".
Да и вобще - все вокруг дураки, а котяра - весь в белом ;) 😂
Конечно, с топиком на форуме сапы вы ознакомились и там "все не правильно", да?
http://forum.sape.ru/showthread.php?t=30235
Да и вобще - все вокруг дураки, а котяра - весь в белом ;) 😂
🍻
Конечно, с топиком на форуме сапы вы ознакомились и там "все не правильно", да?
http://forum.sape.ru/showthread.php?t=30235
да, ознакомился недельку назад. Принял к сведению, но имхо там мысли от людей далеких от программирования. Они выдвигали теории, которые слабы в реализации.
Пожалуйста покажите описание подобного алгоритма. Буду очень благодарен.
в гугле наберите "text classification algorithm" и изучите первые штук 500 результатов.
p.s. не говоря уж о том, что существуют еще всякие библиотеки и там есть реферативные журналы.