ключевые слова для марафонов и конкурсов по тематикам (алгоритмы разбивки)

12 3
Bukvarix
На сайте с 27.02.2013
Offline
134
4574

Экспериментируем с разбивкой нашей базы на тематики на основе категорий рейтинга@mail.ru. Суть идеи - взять слова из категорий, минимально нормализовать их и получить по ним выборку из базы.

Наверняка дорвейщики нередко сталкиваются с большими объемами выборок и перед ними стоит задача разбивки на тематики, поэтому хотелось бы узнать ваше мнение о методах такой разбивки, возможно, кто-нибудь предложит другие идеи.

Обещаем выложить готовые выборки по разным тематикам для использования в конкурсах и марафонах бесплатно :)

exarh
На сайте с 28.03.2010
Offline
503
#1
Bukvarix:
Экспериментируем с разбивкой нашей базы на тематики на основе категорий рейтинга@mail.ru. Суть идеи - взять слова из категорий, минимально нормализовать их и получить по ним выборку из базы.

Наверняка дорвейщики нередко сталкиваются с большими объемами выборок и перед ними стоит задача разбивки на тематики, поэтому хотелось бы узнать ваше мнение о методах такой разбивки, возможно, кто-нибудь предложит другие идеи.

Обещаем выложить готовые выборки по разным тематикам для использования в конкурсах и марафонах бесплатно :)

ИМХО - медвежья услуга.

Монетизируй (https://publishers.propellerads.com/#/pub/auth/signUp?ref_id=tnE) свой сайт с выгодой
Bukvarix
На сайте с 27.02.2013
Offline
134
#2
exarh:
ИМХО - медвежья услуга.

В каком смысле "медвежья"? У нас иногда просят готовые выборки по тематикам, не все хотят качать всю программу с базой.

exarh
На сайте с 28.03.2010
Offline
503
#3
Bukvarix:
В каком смысле "медвежья"? У нас иногда просят готовые выборки по тематикам, не все хотят качать всю программу с базой.

На счет не все хотят качать - вообще не понятно, при нынешних скоростях инета и объемах винта.

А услуга медвежья, потому что копаясь в кеях своей тематики, в поисках кеев уже по теме своего сайта:

- натыкаешься на кеи которые явно подходят, но ты о них и не думал;

- находишь смежные темы, вкусные, по которым сразу же делаешь сайты;

- ну и просто мозги поразвивать - пользительно.

Dos3
На сайте с 07.01.2011
Offline
363
#4

Bukvarix, не обращайте внимание), полезное дело делаете

Bukvarix
На сайте с 27.02.2013
Offline
134
#5

exarh,

У большинства проблемы скачать нет, но по факту у нас нередко качают всю базу со скоростью 100-200 Кб/с, для таких пользователей было бы хорошим выходом скачать интересующую их часть базы.

Да, своими руками и головой, конечно же, полезно (и для этого всегда можно воспользоваться нашей бесплатной программой, мы ее никуда не деваем :) Но по опыту мы также можем судить, что довольно часто спросом пользуется не просто выборка по списку слов, а выборка по тематике, определенной одним-двумя словами, и это влечет за собой дополнительную работу по поиску слов, относящихся к данной тематике. А в случае использования слов из рейтинга мэйл.ру работа по поиску слов в какой-то степни решается, нужно просмотреть списки, почистить от мусора. Этот метод неплох, но есть категории, в которых слишком много мусора, поэтому мы и решили спросить, какие еще есть идеи группировки.

Dos3,

Спасибо за поддержку :)

exarh
На сайте с 28.03.2010
Offline
503
#6

Bukvarix, да вы делайте как желаете, я вам высказал свое мнение и не более.

По мне так вообще отлично, если будут просто качать части баз ваших и тупо юзать, а не искать как я описал выше. Это увеличит количество не тронутых ниш.

Получится эдакаий фильтр тех кто в теме, от тех кто пишет - не обращайте внимание.

[Удален]
#7

Bukvarix, база супер. На других языках кроме русского бы такую.

plattoo
На сайте с 12.05.2010
Offline
195
#8

Bukvarix, на мой взгляд, то что вы решили сделать не просто бесполезно для конечного пользователя, но, напротив, вредно.

Вот смотрите, берём простую казалось бы тематику - download.

По вхождениям каких слов вы сделаете такую выборку? Понятно, что "скачать" и "торрент". А всё то, что можно скачать, но это явно не озвучивается в запросе в вашу выборку не войдёт.

К слову, download окажется одной из самых неполных, а потому неактуальных тематик в Буквариксе.

С другой стороны проблема неполноты будет актуальна только для дорвейщиков. При работе с белыми штучными проектами семантика прорабатывается прицельно и методично, от и до.

Я бы на вашем месте озаботился созданием удобного онлайн-сервиса на основе этой базы и брал бы за это деньги. А уже в нём можно прикрутить аналог гугловского Колеса обозрения

Однако куда проще решить технические задачи, т.е. предоставить быстрый сервис по выборке, чем повторить Колесо обозрения гугла. Это нетривиальная задача. Как дорвейщика меня постоянно заботить мысль: «Как собрать все явные и неявные актуальные кеи без смысловых и буквальных дублей

_Snake_
На сайте с 06.12.2010
Offline
151
#9
Bukvarix:
exarh,
У большинства проблемы скачать нет, но по факту у нас нередко качают всю базу со скоростью 100-200 Кб/с, для таких пользователей было бы хорошим выходом скачать интересующую их часть базы.

Продавайте диски почтой.

---------- Добавлено 23.11.2015 в 21:39 ----------

Bukvarix:
Экспериментируем с разбивкой нашей базы на тематики на основе категорий рейтинга@mail.ru. Суть идеи - взять слова из категорий, минимально нормализовать их и получить по ним выборку из базы.

Наверняка дорвейщики нередко сталкиваются с большими объемами выборок и перед ними стоит задача разбивки на тематики, поэтому хотелось бы узнать ваше мнение о методах такой разбивки, возможно, кто-нибудь предложит другие идеи.

Обещаем выложить готовые выборки по разным тематикам для использования в конкурсах и марафонах бесплатно :)

По теме, единственный логичный вариант, строить графы Тезаурус. А потом уже искать отправную точку в нём. Но тут тоже могут возникнуть проблемы, т.к. в разных сфрах деятельности, одно и то же слово, может обозначать различные вещи, то может быть много мусора. Я когда делаю выборки, бывает подставляю и по 1500 слов для запроса, а потом приходится отметать некоторые, т.к проще удалить слово в выборке, чем чистить потом результаты.

Dos3
На сайте с 07.01.2011
Offline
363
#10

plattoo, да просто не нужно юзать это решение для довнлоада

а где то и очень бы пригодилось

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий