В Акварели Чекушина столько страниц по 10к запросам, 100 000 страниц для анализа - Яндекс

[Удален]

18 июня 2015, 14:48

#41

novoselov:
burunduk, а не было опыта в использовании word2vec?

нет, на всё время не хватает :(

[Удален]

18 июня 2015, 14:49

#42

ziliboba0213:
этот принцип в google?

там проблемы с парсингом очень большие - дорого, поэтому даже не проверял

1

166

Pavel Medvedev

26 июня 2015, 15:11

#43

burunduk:
там проблемы с парсингом очень большие - дорого, поэтому даже не проверял

А в методе ТС же в основном не Google парсить надо а страницы, из выдачи.

Получается получить 100к страниц по 10к запросам для анализа стоит около 0.5 - 0.8$

И то, это очень даже дофига данных.

Среднее ядро у коммерческого сайта не 10к, а 100-200 запросов.

Если Яндекс "якобы" кривой, и наполнен дорами, можно комбинировать - брать пересечение сайтов по Я и G.

Из минусов правда вижу, как писали, нерелевантные тексты которые висят из-за прибитости трастом или %% спримеси, ошибок, спама.

Но очистить тексты в принципе не такая большая проблема. Автомат + ручками пробежаться.

sht6:
Блин, теме уже минимум лет 6.
У Чекушина есть "акварель".

Там ещё надо подсветку убирать по спектру

В Акварели Чекушина столько анализ одного текста стоит 1$. Хотя она, работая по такому же алго как у ТС, не выдает исходных данных для написания текстов, а только оценивает уже введенные.

Какой теме? Фигачить не тупо прямые вхождения, а подбирать близкие по смыслу слова? В 2005г еще были статьи на эту тему, даже биржи LSI-копирайтинга. :) Я так понял, с тех времен поисковики не особо умеют(хотят) ее использовать, потому что очень большие затраты ресурсов на рассчет семантических связей.

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.

На ТОП-10 не претендую, Некорректная индексация тем форума Нерелевантные ссылки по яндексу

[Удален]

26 июня 2015, 15:35

#44

sni:
А в методе ТС же в основном не Google парсить надо а страницы, из выдачи.

а ссылки на эти страницы откуда появятся?

166

Pavel Medvedev

26 июня 2015, 20:17

#45

burunduk:
а ссылки на эти страницы откуда появятся?

Ну топ10 = 1 запрос, 10 результатов для анализа.

Если парсить, с каптчей через 10 запросов, получится что за 0.5-0.8$(!всего), можно получить топ по 10.000 запросам = 100.000 страниц для анализа. Мало в какой тематике столько годных запросов можно насчитать.

Обосновывая в акварели стоимость в 1$ за запрос-текст, тоже говорили что это дохрена затратная операция, поэтому дорого. Я что то не вкурю где :)

Или я что то не понял в теме...

burunduk, если щас уже не актуально анализировать выдачу для получения эталонных текстов, то какие методы можно использовать, если не тайна? :)

Разнесение схожих запросов на Вопросы к профессионалам Анализ ссылочного и фильтры

[Удален]

27 июня 2015, 01:59

#46

sni, у яши мы забираем для анализа топ100 :)

sni:
можно получить топ по 10.000 запросам

у меня для начала анализа обычно получается раза в 2-3 больше, а потом ещё поиск по сайту

sni:
если щас уже не актуально анализировать выдачу для получения эталонных текстов, то какие методы можно использовать, если не тайна?

не знаю :(

много чего перепробовал - не автоматизируется зараза, а каждый проект руками обрабатывать не вариант (очень сильно зависит от исполнителя)

Ссылки со статей "под Продвижение молодых сайтов Cервис автоматической регистрации: каталоги

166

Pavel Medvedev

29 июня 2015, 19:52

#47

И Чекушин с аналогичным таким сервисом подоспел.

На фразу "зенитные фонари" выдала 550 слов.

Дорогая, только опять же, зараза.

Свою акварель буду пилить, XML своих вроде достаточно.

[Удален]

29 июня 2015, 20:05

#48

sni:
Дорогая, только опять же, зараза.

Свою акварель буду пилить, XML своих вроде достаточно.

+ словари с нкря + майстем + АОТ ;)

348

yanus

29 июня 2015, 20:29

#49

burunduk:
+ словари с нкря + майстем + АОТ ;)

Opencorpora - для начала для леммитизатора сойдет, тем более со скачиванием проблем никаких.

166

Pavel Medvedev

29 июня 2015, 21:23

#50

Проект у Сегаловича был - Ruscorpora. Там есть словарь на основе 200млн словоупотреблений (но не инета, а по литературе и публицистике). Скачал, почистил от дублей, так же лемматизировал термины по К50. Может кому пригодится:

https://www.dropbox.com/s/4o52a2rvjc4psp4/800%D0%BA%20%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%83%D0%BF%D0%BE%D1%82%D1%80%D0%B5%D0%B1%D0%BB%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BB%D0%B5%D0%BC%D0%BC%D1%8B.xlsx?dl=0

Частоты примерно 800.000 слов, 250.000 лемм.

Жаль с узкими терминами беда. Хотя если их нет - значит на слово как раз стоит обратить внимание, как узкоспециализированное и возможно по нашей теме.

1

Тестирование словаря Продолжение - "класификатор" Мусорный код и его

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что такое Power BI и зачем это нужно бизнесу

почитайте! коментарии оставьте для себя!