- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
парсинг ЯК здесь не интересен, именно потому что он вручную наполняется, здесь интересен алгоритм именно робота яндекса
Насколько я понял, у ТС задача определять тематику любой конкретной страницы, а не понять как работает я.робот.
Но ведь мы никак не узнаем какую тематику присвоил робот сайту, а если программа будет давать те же результаты, что и человек, то это будет хорошая программа.
ТС, не понял зачем вам определение самих тематик, как таковых? Я вот уже пару лет гоняю свой алгоритм, который берет мою страницу, нейроном определяет её темаический вес, а потом берет все отобранные страницы доноров, где я хочу купить ссылку и определяет на сколько они близки к тематике моей страницы (в частном случае тематике моего сайта в целом).
И не зачем мне хранить тучу данных в БД чтобы определить тематику которая мне "нафик" не нужна.
Ну это ИМХО, а если вам всетаки понадобилась зачем то база тематик, то ээто только вам известно зачем.
Возможно Вам стоит использовать то, чем пользуются (пользовались) в Яндексе.
mystem
Спасибо. Не знал.
kotofeich добавил 21.05.2009 в 21:19
Но ведь мы никак не узнаем какую тематику присвоил робот сайту, а если программа будет давать те же результаты, что и человек, то это будет хорошая программа.
Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.
kotofeich добавил 21.05.2009 в 21:20
ТС, не понял зачем вам определение самих тематик, как таковых? Я вот уже пару лет гоняю свой алгоритм, который берет мою страницу, нейроном определяет её темаический вес, а потом берет все отобранные страницы доноров, где я хочу купить ссылку и определяет на сколько они близки к тематике моей страницы (в частном случае тематике моего сайта в целом).
И не зачем мне хранить тучу данных в БД чтобы определить тематику которая мне "нафик" не нужна.
Ну это ИМХО, а если вам всетаки понадобилась зачем то база тематик, то ээто только вам известно зачем.
Фактически все пока не нужны. Сейчас обкатываю только на нужных мне тематиках.
Как вариант более-менее быстрого получения словаря с привязкой к тематике -
1. Парсинг ЯК (либо какого-то другого качественного каталога), создание базы вида УРЛ - тематика.
2. Заход робота на морду каждого из этих сайтов. Парсинг. В базу сохраняем все слова, кроме анкоров внешних ссылок. Словам из титлов, стронгов, мета-дескрипшнов придаём несколько больший вес. После прохождения этого шага имеем базу вида: Слово - Сайт - Число вхождений (Вес) - Тематика.
3. Анализ полученной базы. Делим все слова из базы на три категории:
3.1. Стоп-слова - они часто появляются во всех без исключения тематиках.
3.2. Средние слова - они часто встречаются в одной категории, но иногда попадаются и в других.
3.3. Хорошие слова - часто встречаются в какой-то конкретной рубрике, и практически не встречаются - в других.
4. Заходим на неизвестную страницу, опять же парсим её, анализируем найденные слова. В первую очередь обращаем внимание на хорошие слова из пункта 3.3. Думаю, этого будет достаточно в подавляющем большинстве случаев для правильного определения тематики.
В общем-то, реализуется такое за недельку без особого напряга одним челом.
Плюсы - не надо заморачиваться с морфологией и составлением базы вручную.
Алгоритм ТС будет скорей всего точнее этого, но он имеет большие шансы загнуться на стадии составления словаря с весами :)
Мысли очень правильные 🍻
Замечу только:
- морфология таки нужна - я все привожу к нормальной форме (тогда и совпадений больше). Можно простым стеммингом побаловаться.
- на ЯК хорошие результаты у меня дает даже просто парсинг каталога (тайтл + описание), без заходов на главную страницу и т.д. Тайтл с двойным коэф.
sokol_jack добавил 21.05.2009 в 21:27
Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.
А я - почти уверен.
Потому как те, кто оценивают работу робота ("ассесоры") и те, кто в ЯКе размещает мыслят почти одинаково (как и мы с вами).
Да и "эталонная" база у робота - почему бы и не ЯК?
А я - почти уверен.
Потому как те, кто оценивают работу робота ("ассесоры") и те, кто в ЯКе размещает мыслят почти одинаково (как и мы с вами).
Да и "эталонная" база у робота - почему бы и не ЯК?
Можно использовать и ЯК, суть моего алгоритма от этого не меняется. Я использую ашманова, потому что сразу вижу какие ключевики какой тематике соответствуют.
kotofeich добавил 21.05.2009 в 23:33
P.S. Скрипт уже реализован. Сейчас хорошо распознает три тематики: Интернет-ресурсы, Создание и продвижение сайтов, Поисковые системы. Обучение новой тематике занимает где-то 10 минут.
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6
Вы нашли не "активацию нейрона", а просто сумму весов.
Если вы действительно изучали нейронные сети, то должны понимать разницу ;)
Что-то я не понял, зачем смешивать тематику страницы и сайта. Это разные вещи. Определяются по-разному. Есть алгоритмы, например уже заезженный показ тематической рекламы адсенс, директ. Есть тематика сайта по Я.К и так далее. Я думаю, что да, можно группу страниц одинаково идентифицировать одного сайта. Но может и проще это делается (тематика сайта, если она и существует), что нету такого подсчета тошноты слов тематики и т.п.