- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
burunduk, а не было опыта в использовании word2vec?
нет, на всё время не хватает :(
этот принцип в google?
там проблемы с парсингом очень большие - дорого, поэтому даже не проверял
там проблемы с парсингом очень большие - дорого, поэтому даже не проверял
А в методе ТС же в основном не Google парсить надо а страницы, из выдачи.
Получается получить 100к страниц по 10к запросам для анализа стоит около 0.5 - 0.8$
И то, это очень даже дофига данных.
Среднее ядро у коммерческого сайта не 10к, а 100-200 запросов.
Если Яндекс "якобы" кривой, и наполнен дорами, можно комбинировать - брать пересечение сайтов по Я и G.
Из минусов правда вижу, как писали, нерелевантные тексты которые висят из-за прибитости трастом или %% спримеси, ошибок, спама.
Но очистить тексты в принципе не такая большая проблема. Автомат + ручками пробежаться.
Блин, теме уже минимум лет 6.
У Чекушина есть "акварель".
Там ещё надо подсветку убирать по спектру
В Акварели Чекушина столько анализ одного текста стоит 1$. Хотя она, работая по такому же алго как у ТС, не выдает исходных данных для написания текстов, а только оценивает уже введенные.
Какой теме? Фигачить не тупо прямые вхождения, а подбирать близкие по смыслу слова? В 2005г еще были статьи на эту тему, даже биржи LSI-копирайтинга. :) Я так понял, с тех времен поисковики не особо умеют(хотят) ее использовать, потому что очень большие затраты ресурсов на рассчет семантических связей.
А в методе ТС же в основном не Google парсить надо а страницы, из выдачи.
а ссылки на эти страницы откуда появятся?
а ссылки на эти страницы откуда появятся?
Ну топ10 = 1 запрос, 10 результатов для анализа.
Если парсить, с каптчей через 10 запросов, получится что за 0.5-0.8$(!всего), можно получить топ по 10.000 запросам = 100.000 страниц для анализа. Мало в какой тематике столько годных запросов можно насчитать.
Обосновывая в акварели стоимость в 1$ за запрос-текст, тоже говорили что это дохрена затратная операция, поэтому дорого. Я что то не вкурю где :)
Или я что то не понял в теме...
burunduk, если щас уже не актуально анализировать выдачу для получения эталонных текстов, то какие методы можно использовать, если не тайна? :)
sni, у яши мы забираем для анализа топ100 :)
можно получить топ по 10.000 запросам
у меня для начала анализа обычно получается раза в 2-3 больше, а потом ещё поиск по сайту
если щас уже не актуально анализировать выдачу для получения эталонных текстов, то какие методы можно использовать, если не тайна?
не знаю :(
много чего перепробовал - не автоматизируется зараза, а каждый проект руками обрабатывать не вариант (очень сильно зависит от исполнителя)
И Чекушин с аналогичным таким сервисом подоспел.
На фразу "зенитные фонари" выдала 550 слов.
Дорогая, только опять же, зараза.
Свою акварель буду пилить, XML своих вроде достаточно.
Дорогая, только опять же, зараза.
Свою акварель буду пилить, XML своих вроде достаточно.
+ словари с нкря + майстем + АОТ ;)
+ словари с нкря + майстем + АОТ ;)
Opencorpora - для начала для леммитизатора сойдет, тем более со скачиванием проблем никаких.
Проект у Сегаловича был - Ruscorpora. Там есть словарь на основе 200млн словоупотреблений (но не инета, а по литературе и публицистике). Скачал, почистил от дублей, так же лемматизировал термины по К50. Может кому пригодится:
https://www.dropbox.com/s/4o52a2rvjc4psp4/800%D0%BA%20%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%83%D0%BF%D0%BE%D1%82%D1%80%D0%B5%D0%B1%D0%BB%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BB%D0%B5%D0%BC%D0%BC%D1%8B.xlsx?dl=0
Частоты примерно 800.000 слов, 250.000 лемм.
Жаль с узкими терминами беда. Хотя если их нет - значит на слово как раз стоит обратить внимание, как узкоспециализированное и возможно по нашей теме.