Алгоритм определения тематики сайтов (решение)

1 234 5
kotofeich
На сайте с 25.03.2009
Offline
28
#21
unknown php developer:
Насколько я понял вся соль не в определении тематики отдельной страницы, а в определении тематики сайта

В планах определять оба параметра. Потому что мы часто покупаем статьи и в их тематике мало сомневаемся, а вот в тематике сайта..

Expert Theme (http://extheme.ru) - определение тематики любых сайтов, текстов и страниц
FladeX
На сайте с 07.11.2008
Offline
163
#22

К примеру есть тематики "дом и дача" и "строительство". После отработки алгоритма получаем основные ключевики - "строильство", "дача" (в контексте "строительство дачи"). Вопрос - к какой тематике отнесет такой сайт алгоритм?

Интересно потому, что у меня есть сайт, который я сам затрудняюсь к какой-либо тематике окончательно отнести.

FladeX добавил 20.05.2009 в 20:48

ЗЫ. Тема интересная, не слушайте некоторых и не закрывайте топик ;)

Услуги посредника на бирже контента: информационные статьи 40₽/1000, «продающие» тексты 50₽/1000. Пишите в личку. Помогаю правильно переехать на https (/ru/forum/973447). Подписывайтесь на мой канал в телеграм: https://t.me/fladex (https://t.me/fladex).
kotofeich
На сайте с 25.03.2009
Offline
28
#23
Владислав Железный:
Да, ладно. Одной здравомыслящей головы достаточно, чтобы реализовать подобный алгоритм, главное желание. :) Рутины правда много по составлению словаря... и размытые перспективы по применению. У кого-то одни идеи, у кого-то другие, а какие из них рабочие, да и рабочие ли вообще, можно никогда и не узнать. ;) Тицекрутителям разве что понятно какую пользу из этого можно извлечь.

Одной головы достаточно для реализации алгоритма, но не для составления семантического ядра.

Перспективы - это дополнительный опыт в понимании и дальнейшего совершенствования алгоритмов "антияндекс". Думаю даже такой алгоритм будет лучше чем брать ссылки для сайта про недвижимость со страницы с текстом про фитнесс с сайта про недвижимость.

Тицекрутители меня не волнуют.

kotofeich добавил 20.05.2009 в 20:59

burunduk:
просто лень писать много букв (можно попросить корпарайтеров, они точно напишут :)), но вот вам несколько вариантов тематики текста на странице с ключивиками
"таблетки", "медикаменты", "аптека" и "автомобили":

лекарства, грузоперевозки, логистика и т.д. и т.п. :)

Это легко обьяснить. Если это сайт про фарму, то большинство слов будут про таблетки, и медикаменты, а меньшая часть про грузоперевозки и логистику (скорее всего это доставка медикаментов). Ошибки быть не должно. Я сомневаюсь что сайт про фарму будет везде расписывать про то как они прекрасно доставляют свой товар и какая у них логистика.

kotofeich добавил 20.05.2009 в 21:03

FladeX:
К примеру есть тематики "дом и дача" и "строительство". После отработки алгоритма получаем основные ключевики - "строильство", "дача" (в контексте "строительство дачи"). Вопрос - к какой тематике отнесет такой сайт алгоритм?
Интересно потому, что у меня есть сайт, который я сам затрудняюсь к какой-либо тематике окончательно отнести.

Это будет зависить от коэффициентов сопутствующих слов. В реальности нужно будет найти несколько сайтов, которые вы точно знаете что относятся к дачам и поставить коэффициенты веса слов так, чтобы тема определилась как дача. Аналогично для строительства.

В результате вы узнаете свою тематику.

В пример беру лишь несколько сайтов, поскольку обычному "смертному" не даны мощностя яндекса, и для реализации алгоритма достаточно пары проб.

FladeX:

FladeX добавил 20.05.2009 в 20:48
ЗЫ. Тема интересная, не слушайте некоторых и не закрывайте топик ;)

Закрывать не собираюсь, пока не набежит народ, которым охото поржать над любой темой. Тогда точно будет ясно что обсуждать больше нечего.

MVH
На сайте с 03.05.2005
Offline
64
MVH
#24
kotofeich:
Алгоритм Портера слаб, но пока сойдет. Как найду морфологический словарь - сменю на него.

Могу посоветовать phpMorphy (описание).

kotofeich
На сайте с 25.03.2009
Offline
28
#25
MVH:
Могу посоветовать phpMorphy (описание).

спасибо. обязательно ознакомлюсь.

Мастер Йода
На сайте с 29.11.2006
Offline
135
#26

Существуют уже готовые системы (алгоритмы) для классификации (кластеризации) текстов. Я бы на вашем месте изучил то что уже (давно) сделано в этом направлении, и только потом, оценив достоинства/недостатки существующих алгоримов и готовых программных средств, начал бы сочинять свой.

Почему вы не используете байесовский классификатор ?

Недостатков в вашем алгоритме хоть отбавляй. Начиная с однословности (надо использовать как минимум 2) и заканчивая ручной простановкой коэффициентов (бррррр....).

p.s. как например ваш алгорит классифицирует этот кусок текста?

В нем нет ни капли благородства, но есть букет. Вы спросите меня: в чем загадка этого букета? Я вам отвечу: не знаю, в чем загадка этого букета. Тогда вы подумаете и спросите: а в чем же разгадка? А в том разгадка, что "белую сирень", составную часть "духа Женевы", не следует ничем заменять, ни "жасмином", ни "шипром", ни "ландышем". "В мире компонентов нет эквивалентов", как говорили старые алхимики, а они-то знали, что говорили. То есть, "ландыш серебристый" - это вам не "белая сирень", даже в нравственном аспекте, не говоря уж о букетах.
НалетайТорописьПокупайЖивопись.рф (http://colmix.ru/paint.html) Офисная-Мебель-Петербург.рф (http://Офисная-Мебель-Петербург.рф/) - скидка для участников форума домены RU на продажу (/ru/forum/comment/8125673) и кириллица в spb.ru (/ru/forum/568196)
kotofeich
На сайте с 25.03.2009
Offline
28
#27
Мастер Йода:
Существуют уже готовые системы (алгоритмы) для классификации (кластеризации) текстов. Я бы на вашем месте изучил то что уже (давно) сделано в этом направлении, и только потом, оценив достоинства/недостатки существующих алгоримов и готовых программных средств, начал бы сочинять свой.

Пожалуйста покажите описание подобного алгоритма. Буду очень благодарен.

Мастер Йода:

Почему вы не используете байесовский классификатор ?

Для его построения требуется выборка, содержащая все возможные комбинации переменных - а размер такой выборки экспоненциально растет с ростом числа переменных (т.н. "проклятие размерности").

Мастер Йода:

Недостатков в вашем алгоритме хоть отбавляй. Начиная с однословности (надо использовать как минимум 2) и заканчивая ручной простановкой коэффициентов (бррррр....).

Есть решение как с минимальными затратами обойти однословность? Я видел лишь теории, которые нереально реализовать на практике. Мне и сотни лет не хватит чтобы просчитать подобные алгоритмы для многословности.

Насчет простановки коэффициентов - нельзя ждать от машины результатов, пока сам не научишь ее тому чего хочешь.

Мастер Йода:

В нем нет ни капли благородства, но есть букет. Вы спросите меня: в чем загадка этого букета? Я вам отвечу: не знаю, в чем загадка этого букета. Тогда вы подумаете и спросите: а в чем же разгадка? А в том разгадка, что "белую сирень", составную часть "духа Женевы", не следует ничем заменять, ни "жасмином", ни "шипром", ни "ландышем". "В мире компонентов нет эквивалентов", как говорили старые алхимики, а они-то знали, что говорили. То есть, "ландыш серебристый" - это вам не "белая сирень", даже в нравственном аспекте, не говоря уж о букетах.

Зачем задавать подобный вопрос машине, если человек не сможет дать на него ответ? Ваш текст мал. Дайте полный текст в страниц 10 хотя бы, и его можно будет классифицировать. Тут же почти нет повторений, и тематика была бы "цветы"

SJ
На сайте с 16.03.2008
Offline
78
#28
kotofeich:
Смотри - для меня это тема. Пару человек могут вчитаться и подсказать что-нибудь, поскольку здесь много народу набившего себе шишки. Теперь отбросим из сеошников всех, кто незнаком с программированием. Далее подумай сколько программистов сядут с целью повторить это? Очень сомневаюсь что наберутся полчеловека. А ведь нужна как минимум фирма с десятком человек для реализации алгоритма. Так что я не беспокоюсь о "палеве".

Да и вобще - все вокруг дураки, а котяра - весь в белом ;) 😂

Конечно, с топиком на форуме сапы вы ознакомились и там "все не правильно", да?

http://forum.sape.ru/showthread.php?t=30235

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
kotofeich
На сайте с 25.03.2009
Offline
28
#29
sokol_jack:
Да и вобще - все вокруг дураки, а котяра - весь в белом ;) 😂

🍻

sokol_jack:

Конечно, с топиком на форуме сапы вы ознакомились и там "все не правильно", да?
http://forum.sape.ru/showthread.php?t=30235

да, ознакомился недельку назад. Принял к сведению, но имхо там мысли от людей далеких от программирования. Они выдвигали теории, которые слабы в реализации.

Мастер Йода
На сайте с 29.11.2006
Offline
135
#30
kotofeich:
Пожалуйста покажите описание подобного алгоритма. Буду очень благодарен.

в гугле наберите "text classification algorithm" и изучите первые штук 500 результатов.

p.s. не говоря уж о том, что существуют еще всякие библиотеки и там есть реферативные журналы.

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий