Существует ли рабочий сервис определения тематики сайта (вне ЯКа)

123
[Удален]
#11

Пока пакеты на хостинг не ходят, обсудим.

Seolib:

Во-первых у серьезных сайтов часто на главной нет текста основного.

Тематика сайта должна определяться как минимум по нескольким страницам (чем больше, тем лучше).

Seolib:

Во-вторых, тематика есть как у сайта, так и у страницы отдельно (и есть версия, что яндекс следит за тематикой именно страницы, ну и связь страницы страницы с сайтом).

Предполагается возможность выборочно отсеивать как по тематике сайта, так и по тематике страницы.

Seolib:

В-третьих, если по телу страницы у вас тематика - животноводство, а Тайтл и Дискрипшн и Кейвордс утверждают, что вы - недвижимость, отдавать предпочтения мета-тегам или телу?

Таким вопросом не задавался, так как считаю, что в идеале должна выдаваться именно та тематика, которую определил бы пользователь (для теста можно прогнать сайты из того же yaca и посчитать процент правильно определённых тематик), а он на кейвордсы не смотрит (тайтл, - другое дело).

Seolib:

Ну и опять же, как было сказано выше - структура рубрик у всех разная...

Пока взял простейшую структуру рубрик верхнего уровня по yaca. Потом посмотрим.

Seolib:

Но нереальных задач, конечно, нет ;)

Это что-то вроде эксперимента. Посмотрим, что выйдет. И выйдет ли.

autosubmit добавил 25.02.2010 в 15:02

Парсер отладил, запустил парсинг yaca.

autosubmit добавил 25.02.2010 в 17:54

Написал функцию определения тематики на основе распарсенных данных. Парсинг ещё не закончился.

[Удален]
#12

Парсинг сайтов и построение базы затянулось... Но подходит к концу.

autosubmit добавил 26.02.2010 в 22:45

Обработано около 7000 сайтов, осталось ещё тысячи 4, и тестовая база будет готова.

autosubmit добавил 27.02.2010 в 17:01

Отладил алгоритм, протестировал. Точность определения тематик меня не устроила. Работаю над увеличением точности. В частности, над самими тематиками (сейчас они слишком уж общие местами), а также над алгоритмом построения базы.

[Удален]
#13

Расширил и конкретизировал список тематик, переделал парсер и алгоритм самообучения (наполнения базы). Запустил парсинг сайтов заново.

[Удален]
#14

Жду частичного завершения парсинга для начала тестирования. Так как тем прибавилось (всего чуть больше 10 разделов и 100 подразделов), то полный парсинг будет выполняться около 5 суток.

[Удален]
#15

смотрите еще на апорт... тоже много сайтов вручную проверенных

[Удален]
#16

Посмотрю. Если тематики совпадают, то потом прикручу. Или как минимум использую для тестирования.

[Удален]
#17

Осталось процентов 40. После этого приступлю к тестированию доработанной версии.

[Удален]
#18

База почти готова, приступил к предварительному тестированию. Написал скрипт тестирования для вычисления % правильно определённых тематик. К окончательному тестированию приступлю после полного построения базы.

autosubmit добавил 05.03.2010 в 22:24

Предварительное тестирование показало вероятность правильного определения тематики примерно 73% (при попытке определения по одной главной странице сайта). При тестировании использовались сайты из yaca, не вошедшие в обучающую выборку. Ведутся работы по дальнейшему повышению этой вероятности.

autosubmit добавил 05.03.2010 в 22:42

При этом реальная точность определения несколько выше. Так как тестирование производилось автоматически. Например, тематика сайта www.film.ru была определена как "Культура" (в каталоге Яндекса в разделе "культура" есть подраздел "кино", и там действительно находится сайт film.ru. Однако в то же время сайт film.ru находится и в разделе "развлечения", который при этом и сканировался. Поэтому произошло сравнение тематики "развлечения" с тематикой "культура" и, естественно, это привело к тому, что скрипт посчитал тематику неправильно определённой. Если подойти к вопросу не автоматически, то % правильно определённых тематик составил не менее 80%.

autosubmit добавил 05.03.2010 в 22:47

Кроме этого, есть варианты, когда система "не уверена" в правильности определения тематики, но всё же в какой-то уверена больше, чем в остальных. При отсеивании сайтов и страниц по тематике такие ситуации можно исключить (не помещать эти сайты ни в одну категорию). В таком случае точность ещё несколько повысится.

autosubmit добавил 05.03.2010 в 22:55

Большинство ошибок системы происходят в состоянии неуверенности. Тогда как при чётком определении ошибки встречаются намного реже.

autosubmit добавил 05.03.2010 в 22:57

А само состояние неуверенности однозначно определяется алгоритмически.

autosubmit добавил 05.03.2010 в 23:47

При отсеивании сайтов, относительно которых система не уверена, она отбросила 29% сайтов из тестовой выборки. При этом вероятность правильного определения тематики возросла до 86 % по данным скрипта и более 90% на самом деле (с учётом смежных тематик).

autosubmit добавил 05.03.2010 в 23:51

В настоящее время тестировалось только определение тематике сайтов (исключительно по главной странице) из каталога yaca, которые не входили в обучающую выборку.

autosubmit добавил 05.03.2010 в 23:54

Следующим этапом будет тестирование определения тематик отдельных страниц. Страницы возьму из каталогов статей. Там они систематизированы.

[Удален]
#19

Тестирую сервис на приближённых к реальности задачах отсева тематических страниц и сайтов. Подкручиваю алгоритм и коэффициенты с целью достижения наилучшего результата.

[Удален]
#20

Протестировал систему на выборке из статей с одного из популярных каталогов статей. Доработал алгоритм, а также тематики. Приступаю к тестированию на сайтах из sape, а также к написанию интерфейса.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий