- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
попробуйте брать первые 10 наиболее значимых (лем/биграм...) с каждого документа из топа,
Для Яндекса может быть грязно, т.к. он ранее считал сайт как отдельную коллекцию и по сути не ранжировал документы отдельно от общего восприятия... в отличии от Гугла.
т.е. прямо релевантных лемм может и не случиться у некоторых представителей ТОП-10, или находиться они будут на статистически не значимых позициях. Хотя может сейчас что-то поменялось в этом отношении.
Если в лоб, по кол-ву вхождений, то для "renault kaptur купить", на корпусе - контент документов из 20:
не, для каждого документа отдельно считать, а потом составлять из отобранных корпус
(я топ 50 брал, это примерно 37-48 документов, в зависимости от запроса)
для каждого документа составлял отдельные словари и уже их обрабатывал нормируя вес в словарях в зависимости от позиции документа
самое сложное при составлении словаря n-грамм (я до 5 составлял) , не включать полный бред, например, 2 подряд идущих глагола в биграмме или 3 прилагательных в триграмме и выше, и тому подобное
(и да, я оставлял только глаголы, существительные и прилагательные, остальные части речи убивал, но учитывал их при составлении n-грамм, часть обрывала n-грамму, часть нет)
при условии что внутри n-граммы они отсортированы по алфавиту
P.S. достаточно тяжёлая технология при не очень явных плюсах
или находиться они будут на статистически не значимых позициях
ни разу с таким не сталкивался, возможно на нч запросах подобное и проявится
проверять честно лень, т.к. надо хотя бы 5-6 съёмов по каждому запросу, а это примерно 1,5месяца
+ последующая обработка
примерный объём 13 запросов 2,5 месяца съёма
P.S. достаточно тяжёлая технология при не очень явных плюсах
Все что "глубже" триграмм вообще дает какой-то практический смысл?
yanus, для понимания о чём документ
самое прикольное, хорошо копипаст отслеживает
+ позволяет убивать устоявшиеся обороты
и да сразу выявляет большие фрагменты текста
В Яндексе точно нет... там скорее начиная с ТОП 30... ну, ТОП 20, можно искать интенты, а первая 20-ка сглажена до среднего под ПФ, но если рассчитать корпуса самих представителей ТОП-10, например и сопоставить, то может получиться интересно, а если получится сохранить привязку к хосту
Ну да, как уже говорил, странные штучки дает 2гис, вк а так же, наверное, то что называлось спектр, что намекнули н-граммы (я их реже глазами смотрел, а там "disk_djujmovyj_legkosplavnyj_steppe", 97], ["bachok_bol'shoj_ob'em_omyvatel'", 84) видимо запчасти какие то зашли
файл во вложении снят сейчас. Нет проблем их писать. Выше приведенные данные могут отличаться по источникам
чуть торможу, не успеваю, осмысливаю.
-------
если по смыслу
то 2гис чаще всего нормальные данные дает, но осмыслить это может только человек. Ну, типа "Рога и копыта", если чел посмотрит, сразу скажет, так ё, они розовых слонов продают в моем городе, а я как раз их и искал.
для каждого документа составлял отдельные словари и уже их обрабатывал нормируя вес в словарях в зависимости от позиции документа
Каким образом формировался текст? Отбирался только текст статьи или весь контент?
Кстати Алексей тоже пробовал обучать на выборке https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html
Каким образом формировался текст? Отбирался только текст статьи или весь контент?
пробовал по разному, брал сохранёнку из яндекса и обрабатывал
только индексируемый текст с анкорами ,индексируемый текст без анкорной составляющей, и весь текст
обрабатывал весь документ, а не только статью со страницы
Каким образом формировался текст? Отбирался только текст статьи или весь контент?
Кстати Алексей тоже пробовал обучать на выборке https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html
Для примера я спарсил чуть больше тысячи статей о SEO и загрузил получившийся файлик на 15 мегабайт в python-оболочку к оригинальному Word2vec.
Источник: https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html
Это тоже самое, но машинно с шумом. Огрехи парсинга. Пассажи. Пассажи - важно: би-три-граммы, lsi/lda модели оттуда. Тут есть еще проблемы. А так ручками 1000 - или 20-сколько есть лимитов не суть. Пассажи необработанные во вложении, на 00:41
Шум это у меня, а не когда ручками корпус сделать. Когда ручками, исключаются 2 типа ошибок:
1. не возьмешь этот урл
2. аккуратно выберешь контент (хотя не уверен, что это ошибка. Яндекс то тоже это видит)
timo-71, да не очистите вы от шума. Только если выбирать вручную. Но это тогда не автоматизируется - если вы хотите для 10К запросов использовать.
Еще одна проблема - нерелевантные статьи.
Еще проблема - алгоритм хорош на статьях, а у вас в примере в выдаче много агрегаторов и мало текста.
burunduk, сейчас работаете? Можете добавить запрос "достопримечательности праги" для сравнения с этим?