- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Пока пакеты на хостинг не ходят, обсудим.
Во-первых у серьезных сайтов часто на главной нет текста основного.
Тематика сайта должна определяться как минимум по нескольким страницам (чем больше, тем лучше).
Во-вторых, тематика есть как у сайта, так и у страницы отдельно (и есть версия, что яндекс следит за тематикой именно страницы, ну и связь страницы страницы с сайтом).
Предполагается возможность выборочно отсеивать как по тематике сайта, так и по тематике страницы.
В-третьих, если по телу страницы у вас тематика - животноводство, а Тайтл и Дискрипшн и Кейвордс утверждают, что вы - недвижимость, отдавать предпочтения мета-тегам или телу?
Таким вопросом не задавался, так как считаю, что в идеале должна выдаваться именно та тематика, которую определил бы пользователь (для теста можно прогнать сайты из того же yaca и посчитать процент правильно определённых тематик), а он на кейвордсы не смотрит (тайтл, - другое дело).
Ну и опять же, как было сказано выше - структура рубрик у всех разная...
Пока взял простейшую структуру рубрик верхнего уровня по yaca. Потом посмотрим.
Но нереальных задач, конечно, нет ;)
Это что-то вроде эксперимента. Посмотрим, что выйдет. И выйдет ли.
autosubmit добавил 25.02.2010 в 15:02
Парсер отладил, запустил парсинг yaca.
autosubmit добавил 25.02.2010 в 17:54
Написал функцию определения тематики на основе распарсенных данных. Парсинг ещё не закончился.
Парсинг сайтов и построение базы затянулось... Но подходит к концу.
autosubmit добавил 26.02.2010 в 22:45
Обработано около 7000 сайтов, осталось ещё тысячи 4, и тестовая база будет готова.
autosubmit добавил 27.02.2010 в 17:01
Отладил алгоритм, протестировал. Точность определения тематик меня не устроила. Работаю над увеличением точности. В частности, над самими тематиками (сейчас они слишком уж общие местами), а также над алгоритмом построения базы.
Расширил и конкретизировал список тематик, переделал парсер и алгоритм самообучения (наполнения базы). Запустил парсинг сайтов заново.
Жду частичного завершения парсинга для начала тестирования. Так как тем прибавилось (всего чуть больше 10 разделов и 100 подразделов), то полный парсинг будет выполняться около 5 суток.
смотрите еще на апорт... тоже много сайтов вручную проверенных
Посмотрю. Если тематики совпадают, то потом прикручу. Или как минимум использую для тестирования.
Осталось процентов 40. После этого приступлю к тестированию доработанной версии.
База почти готова, приступил к предварительному тестированию. Написал скрипт тестирования для вычисления % правильно определённых тематик. К окончательному тестированию приступлю после полного построения базы.
autosubmit добавил 05.03.2010 в 22:24
Предварительное тестирование показало вероятность правильного определения тематики примерно 73% (при попытке определения по одной главной странице сайта). При тестировании использовались сайты из yaca, не вошедшие в обучающую выборку. Ведутся работы по дальнейшему повышению этой вероятности.
autosubmit добавил 05.03.2010 в 22:42
При этом реальная точность определения несколько выше. Так как тестирование производилось автоматически. Например, тематика сайта www.film.ru была определена как "Культура" (в каталоге Яндекса в разделе "культура" есть подраздел "кино", и там действительно находится сайт film.ru. Однако в то же время сайт film.ru находится и в разделе "развлечения", который при этом и сканировался. Поэтому произошло сравнение тематики "развлечения" с тематикой "культура" и, естественно, это привело к тому, что скрипт посчитал тематику неправильно определённой. Если подойти к вопросу не автоматически, то % правильно определённых тематик составил не менее 80%.
autosubmit добавил 05.03.2010 в 22:47
Кроме этого, есть варианты, когда система "не уверена" в правильности определения тематики, но всё же в какой-то уверена больше, чем в остальных. При отсеивании сайтов и страниц по тематике такие ситуации можно исключить (не помещать эти сайты ни в одну категорию). В таком случае точность ещё несколько повысится.
autosubmit добавил 05.03.2010 в 22:55
Большинство ошибок системы происходят в состоянии неуверенности. Тогда как при чётком определении ошибки встречаются намного реже.
autosubmit добавил 05.03.2010 в 22:57
А само состояние неуверенности однозначно определяется алгоритмически.
autosubmit добавил 05.03.2010 в 23:47
При отсеивании сайтов, относительно которых система не уверена, она отбросила 29% сайтов из тестовой выборки. При этом вероятность правильного определения тематики возросла до 86 % по данным скрипта и более 90% на самом деле (с учётом смежных тематик).
autosubmit добавил 05.03.2010 в 23:51
В настоящее время тестировалось только определение тематике сайтов (исключительно по главной странице) из каталога yaca, которые не входили в обучающую выборку.
autosubmit добавил 05.03.2010 в 23:54
Следующим этапом будет тестирование определения тематик отдельных страниц. Страницы возьму из каталогов статей. Там они систематизированы.
Тестирую сервис на приближённых к реальности задачах отсева тематических страниц и сайтов. Подкручиваю алгоритм и коэффициенты с целью достижения наилучшего результата.
Протестировал систему на выборке из статей с одного из популярных каталогов статей. Доработал алгоритм, а также тематики. Приступаю к тестированию на сайтах из sape, а также к написанию интерфейса.