почитайте! коментарии оставьте для себя!

[Удален]
#41
novoselov:
burunduk, а не было опыта в использовании word2vec?

нет, на всё время не хватает :(

[Удален]
#42
ziliboba0213:
этот принцип в google?

там проблемы с парсингом очень большие - дорого, поэтому даже не проверял

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#43
burunduk:
там проблемы с парсингом очень большие - дорого, поэтому даже не проверял

А в методе ТС же в основном не Google парсить надо а страницы, из выдачи.

Получается получить 100к страниц по 10к запросам для анализа стоит около 0.5 - 0.8$

И то, это очень даже дофига данных.

Среднее ядро у коммерческого сайта не 10к, а 100-200 запросов.

Если Яндекс "якобы" кривой, и наполнен дорами, можно комбинировать - брать пересечение сайтов по Я и G.

Из минусов правда вижу, как писали, нерелевантные тексты которые висят из-за прибитости трастом или %% спримеси, ошибок, спама.

Но очистить тексты в принципе не такая большая проблема. Автомат + ручками пробежаться.

sht6:
Блин, теме уже минимум лет 6.
У Чекушина есть "акварель".

Там ещё надо подсветку убирать по спектру

В Акварели Чекушина столько анализ одного текста стоит 1$. Хотя она, работая по такому же алго как у ТС, не выдает исходных данных для написания текстов, а только оценивает уже введенные.

Какой теме? Фигачить не тупо прямые вхождения, а подбирать близкие по смыслу слова? В 2005г еще были статьи на эту тему, даже биржи LSI-копирайтинга. :) Я так понял, с тех времен поисковики не особо умеют(хотят) ее использовать, потому что очень большие затраты ресурсов на рассчет семантических связей.

Консультирую по SEO. Опыт c 2005: окна топ1,Ашан,Фишки,Спортс и др. Пишите в FB.
[Удален]
#44
sni:
А в методе ТС же в основном не Google парсить надо а страницы, из выдачи.

а ссылки на эти страницы откуда появятся?

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#45
burunduk:
а ссылки на эти страницы откуда появятся?

Ну топ10 = 1 запрос, 10 результатов для анализа.

Если парсить, с каптчей через 10 запросов, получится что за 0.5-0.8$(!всего), можно получить топ по 10.000 запросам = 100.000 страниц для анализа. Мало в какой тематике столько годных запросов можно насчитать.

Обосновывая в акварели стоимость в 1$ за запрос-текст, тоже говорили что это дохрена затратная операция, поэтому дорого. Я что то не вкурю где :)

Или я что то не понял в теме...

burunduk, если щас уже не актуально анализировать выдачу для получения эталонных текстов, то какие методы можно использовать, если не тайна? :)

[Удален]
#46

sni, у яши мы забираем для анализа топ100 :)

sni:
можно получить топ по 10.000 запросам

у меня для начала анализа обычно получается раза в 2-3 больше, а потом ещё поиск по сайту

sni:
если щас уже не актуально анализировать выдачу для получения эталонных текстов, то какие методы можно использовать, если не тайна?

не знаю :(

много чего перепробовал - не автоматизируется зараза, а каждый проект руками обрабатывать не вариант (очень сильно зависит от исполнителя)

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#47

И Чекушин с аналогичным таким сервисом подоспел.

На фразу "зенитные фонари" выдала 550 слов.

Дорогая, только опять же, зараза.

Свою акварель буду пилить, XML своих вроде достаточно.

[Удален]
#48
sni:
Дорогая, только опять же, зараза.

Свою акварель буду пилить, XML своих вроде достаточно.

+ словари с нкря + майстем + АОТ ;)

yanus
На сайте с 21.01.2009
Offline
348
#49
burunduk:
+ словари с нкря + майстем + АОТ ;)

Opencorpora - для начала для леммитизатора сойдет, тем более со скачиванием проблем никаких.

Pavel Medvedev
На сайте с 27.01.2006
Offline
166
#50

Проект у Сегаловича был - Ruscorpora. Там есть словарь на основе 200млн словоупотреблений (но не инета, а по литературе и публицистике). Скачал, почистил от дублей, так же лемматизировал термины по К50. Может кому пригодится:

https://www.dropbox.com/s/4o52a2rvjc4psp4/800%D0%BA%20%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%83%D0%BF%D0%BE%D1%82%D1%80%D0%B5%D0%B1%D0%BB%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BB%D0%B5%D0%BC%D0%BC%D1%8B.xlsx?dl=0

Частоты примерно 800.000 слов, 250.000 лемм.

Жаль с узкими терминами беда. Хотя если их нет - значит на слово как раз стоит обратить внимание, как узкоспециализированное и возможно по нашей теме.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий