- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Devvver, "достопримечательности праги"
lsi/lda сюда, пока в консоль пишутся🙄
burunduk, сейчас работаете? Можете добавить запрос "достопримечательности праги" для сравнения с этим?
слишком долго /ru/forum/comment/16208919
burunduk, я имел ввиду одноразовый съем.
Devvver, могу сделать, но толку будет мало
Devvver, для униграмм получилось
площадь 10,7027027
музей 9,783783784
век 9,72972973
башня 7,702702703
здание 7,648648649
святой 7,135135135
мост 6,945945946
старый 6,756756757
дом 5,918918919
град 5,864864865
но это не о чём, n-граммы формировать, надо дописывать вывод, т.к. нет исторических данных
Интересный результат получается, если сматчить биграммы полученные из топ20 выдачи, с биграммами из
запросов
$ /home/web/py/w2v/key.py
['град_пражский',
'площадь_староместский',
'карлов_мост',
'город_старый',
'святой_собор',
'вацлавская_площадь',
'тынский_храм',
'еврейский_квартал',
'дом_танцующий',
'башня_пороховой',
'место_стар',
'исторический_центр',
'маленький_страна',
'берег_левый',
'малый_страна',
'площадь_республика',
'место_нова',
'камп_остров',
'интересный_место',
'билет_входной',
'вар_карлов',
'место_стара',
'метро_станция',
'гора_кутна',
'метро_схема',
'отзыв_турист',
'виноград_район',
'проезд_схема',
'интересный_факт',
'петь_фонтан']
mystem "вацлавская" не умеет
Например берем запрос, берем историю выдачи до ТОП-100, за пару лет
нет исторических данных
Зачем? Какой то урл долго в топе? И именно его контент включить в корпус, или наоборот исключить. А может, без разницы... Ну онжетрастпфвитальный и шум.
И еще вопрос. Про цифру в корпусе. Запрос осень в нью-йорке, данные отсюда
Один из тематических векторов
-0.151*"шарлотта" + 0.145*"приключенческий" + 0.138*"боевик" +
-0.135*"осень" + -0.130*"википедия" + 0.127*"уилл" + -0.126*"hd"
+ 0.124*"качество" + -0.123*"2000" + 0.117*"триллер"
2000, нужно ли закладывать цифру? В буквах и цифрах типа 0.041*"прага" + 0.015*"место" на самом деле разные модели
где то в корпусе все кроме слов выжигается, а где то нет
шарлотта уилл
шарлотта уилл 2000
См. скрины. Браузер выбрал Опера, с которым практически не работаю. Ну там, резка с кино и т.д. Все, что через впн. Вспомнил, еще браузер есть, Вивальди, похожий топ. Один файл не поместился, >5.
Буду признателен за
1. Ваш топ, если он не совпадает с моим
2. Интерпретацию такого поведения
timo-71,
шарлотта уилл 2000
http://picplus.ru/img/1910/05/2a32948c.png
Зачем вы в гугле смотрите?
timo-71,
шарлотта уилл 2000
http://picplus.ru/img/1910/05/2a32948c.png
Зачем вы в гугле смотрите?
шарлотта уилл
осень в нью-йорке в гугле есть
осень в нью-йорке в я нет
шарлотта уилл 2000
осень в нью-йорке в обоих пс есть
* в пределах 1 экрана
Для Яндекса цифры 2000 достаточно чтобы значимость в топе темы "осень в нью-йорке" усилилась для запроса про шарлотту и уилла. Если, конечно, нет чего-то того, что я не учел. В сниппете 2000 не видать, опять же.
Отсюда и вопрос к сообществу - цифры в корпусе "убрать нельзя оставить", где поставить запятую?
У gensim есть метод simple_preprocess , который готовит пассаж, для включения в корпус. Оно удаляет все кроме слов. То что выкладывал, иногда цифры оставлял иногда нет.
* 2000 год выхода фильма.
А гугл - просто для сравнения.
Из крайности в крайность. Кто-то вообще не верит в эффективность ЛСИ, а кто-то верит в них до самозабвения и типа знает все параметры идеального текста. Механистический подход тоже туповат. Лично я пишу такие тексты, пользуясь лишь интуицией и опытом своим и конкурентов. Не применяю ни одного сервиса для анализа текстов. А тексты от копирайтеров проверяю лишь на здравый смысл и уникальность в Яндексе.