- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
парсинг ЯК здесь не интересен, именно потому что он вручную наполняется, здесь интересен алгоритм именно робота яндекса
Насколько я понял, у ТС задача определять тематику любой конкретной страницы, а не понять как работает я.робот.
Но ведь мы никак не узнаем какую тематику присвоил робот сайту, а если программа будет давать те же результаты, что и человек, то это будет хорошая программа.
ТС, не понял зачем вам определение самих тематик, как таковых? Я вот уже пару лет гоняю свой алгоритм, который берет мою страницу, нейроном определяет её темаический вес, а потом берет все отобранные страницы доноров, где я хочу купить ссылку и определяет на сколько они близки к тематике моей страницы (в частном случае тематике моего сайта в целом).
И не зачем мне хранить тучу данных в БД чтобы определить тематику которая мне "нафик" не нужна.
Ну это ИМХО, а если вам всетаки понадобилась зачем то база тематик, то ээто только вам известно зачем.
Возможно Вам стоит использовать то, чем пользуются (пользовались) в Яндексе.
mystem
Спасибо. Не знал.
kotofeich добавил 21.05.2009 в 21:19
Но ведь мы никак не узнаем какую тематику присвоил робот сайту, а если программа будет давать те же результаты, что и человек, то это будет хорошая программа.
Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.
kotofeich добавил 21.05.2009 в 21:20
ТС, не понял зачем вам определение самих тематик, как таковых? Я вот уже пару лет гоняю свой алгоритм, который берет мою страницу, нейроном определяет её темаический вес, а потом берет все отобранные страницы доноров, где я хочу купить ссылку и определяет на сколько они близки к тематике моей страницы (в частном случае тематике моего сайта в целом).
И не зачем мне хранить тучу данных в БД чтобы определить тематику которая мне "нафик" не нужна.
Ну это ИМХО, а если вам всетаки понадобилась зачем то база тематик, то ээто только вам известно зачем.
Фактически все пока не нужны. Сейчас обкатываю только на нужных мне тематиках.
Как вариант более-менее быстрого получения словаря с привязкой к тематике -
1. Парсинг ЯК (либо какого-то другого качественного каталога), создание базы вида УРЛ - тематика.
2. Заход робота на морду каждого из этих сайтов. Парсинг. В базу сохраняем все слова, кроме анкоров внешних ссылок. Словам из титлов, стронгов, мета-дескрипшнов придаём несколько больший вес. После прохождения этого шага имеем базу вида: Слово - Сайт - Число вхождений (Вес) - Тематика.
3. Анализ полученной базы. Делим все слова из базы на три категории:
3.1. Стоп-слова - они часто появляются во всех без исключения тематиках.
3.2. Средние слова - они часто встречаются в одной категории, но иногда попадаются и в других.
3.3. Хорошие слова - часто встречаются в какой-то конкретной рубрике, и практически не встречаются - в других.
4. Заходим на неизвестную страницу, опять же парсим её, анализируем найденные слова. В первую очередь обращаем внимание на хорошие слова из пункта 3.3. Думаю, этого будет достаточно в подавляющем большинстве случаев для правильного определения тематики.
В общем-то, реализуется такое за недельку без особого напряга одним челом.
Плюсы - не надо заморачиваться с морфологией и составлением базы вручную.
Алгоритм ТС будет скорей всего точнее этого, но он имеет большие шансы загнуться на стадии составления словаря с весами :)
Мысли очень правильные 🍻
Замечу только:
- морфология таки нужна - я все привожу к нормальной форме (тогда и совпадений больше). Можно простым стеммингом побаловаться.
- на ЯК хорошие результаты у меня дает даже просто парсинг каталога (тайтл + описание), без заходов на главную страницу и т.д. Тайтл с двойным коэф.
sokol_jack добавил 21.05.2009 в 21:27
Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.
А я - почти уверен.
Потому как те, кто оценивают работу робота ("ассесоры") и те, кто в ЯКе размещает мыслят почти одинаково (как и мы с вами).
Да и "эталонная" база у робота - почему бы и не ЯК?
А я - почти уверен.
Потому как те, кто оценивают работу робота ("ассесоры") и те, кто в ЯКе размещает мыслят почти одинаково (как и мы с вами).
Да и "эталонная" база у робота - почему бы и не ЯК?
Можно использовать и ЯК, суть моего алгоритма от этого не меняется. Я использую ашманова, потому что сразу вижу какие ключевики какой тематике соответствуют.
kotofeich добавил 21.05.2009 в 23:33
P.S. Скрипт уже реализован. Сейчас хорошо распознает три тематики: Интернет-ресурсы, Создание и продвижение сайтов, Поисковые системы. Обучение новой тематике занимает где-то 10 минут.
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6
Вы нашли не "активацию нейрона", а просто сумму весов.
Если вы действительно изучали нейронные сети, то должны понимать разницу ;)
Что-то я не понял, зачем смешивать тематику страницы и сайта. Это разные вещи. Определяются по-разному. Есть алгоритмы, например уже заезженный показ тематической рекламы адсенс, директ. Есть тематика сайта по Я.К и так далее. Я думаю, что да, можно группу страниц одинаково идентифицировать одного сайта. Но может и проще это делается (тематика сайта, если она и существует), что нету такого подсчета тошноты слов тематики и т.п.