Bukvarix

Bukvarix
Рейтинг
134
Регистрация
27.02.2013

Had, прежде всего спасибо за отзыв о программе!

По поводу распаковки: как правильно подметил one, это один архив в 9 частях.

Т.е. для его распаковки достаточно начать распаковывать самую первую часть - все остальные части ваш распаковщик подхватит и распакует автоматически.

Причина, по который архив разбили на части по 2 000 000 000 байт - чтобы было меньше проблем со скачиванием.

Т.е. если проблемы со скачиванием, то гораздо проще перекачать одну битую часть, чем весь архив полностью.

В торрентах можно было бы в принципе не бить на части (сама технология следит за правильностью закачки), но хотелось сделать архивы взаимозаменяемыми - чтобы, например, одну часть можно было закачать с Яндекс Диска, вторую с Облака Mail.ru, третью с торрентов и т.д (т.е. чтобы битую часть вы могли закачать с другого любого зеркала).

Поэтому архив на торрентах тоже разбит на части и все части во всех зеркалах взаимозаменяемы.

seo-Hunter:
Bukvarix, самое главное раз уже сервис будет платным, сделать ему достойную скорость подбора :)

Скорость подбора слов мы постараемся обеспечить не хуже, чем в десктопе, а вот скорость разработки не всегда получается идеальной.

Хелпзонович:
Эх, если бы еще и в linux заработало - было бы вообше замечательно. Ну или хотя бы в wine. Нет таких планов?

Мы сами не пробовали, но на форуме упоминали, что в wine работает, вот ссылка на этот пост:

/ru/forum/comment/13821538;postcount=133

Версии десктопа под Линукс в планах нет, надеемся, что онлайн-версия решит эту проблему.

Sevix:
Скорость выборки просто образцовая! Даже если она возрастет многократно, все равно это будет почти "мгновенно".
Может какой нибудь конвертер придумаете, чтобы свои базы в txt подключать? Можно и платный.

В этой нише уже есть достаточное количество инструментов, мы не видим развитие своей программы в этом направлении, по крайней мере на текущем этапе.

vastmanager:
Bukvarix, база супер. На других языках кроме русского бы такую.

Это есть в планах, после того, как сделаем версию с базой на сервере, начнем собирать английские ключи.

plattoo, Dos3, exarh,

Наш метод (использования нормализованных ключей из категорий рейтинга мэйл.ру) предусматривает запрос не только широких понятий, но и довольно узких. Например, в теме "работа" есть подтемы "заработок", "подработка", "вакансии", "заработок", "профессии", "вакансия+профессия", далее - в подтеме "заработок" есть как словосочетания со словом "заработок" в виде отдельной выборки, так и выборки "быстрый заработок", "заработать в интернете", "заработок в декрете", "заработок дома" и т.п., а также выборка по всем словам из этой темы вместе.

plattoo:


Я бы на вашем месте озаботился созданием удобного онлайн-сервиса на основе этой базы и брал бы за это деньги. А уже в нём можно прикрутить аналог гугловского Колеса обозрения

Возможность получить связанные слова и контекстные синонимы (как Колесо обозрения Google - жаль, конечно, что его уже нет) не может не приходить в голову тому, кто имеет отношение к анализу ключевых слов, да и для группировки она весьма полезна, но это задача, как вы справедливо заметили, совсем не простая. Онлайн-сервис у нас в планах, мы уже над этой задачей работаем.

plattoo:

Однако куда проще решить технические задачи, т.е. предоставить быстрый сервис по выборке, чем повторить Колесо обозрения гугла. Это нетривиальная задача. Как дорвейщика меня постоянно заботить мысль: «Как собрать все явные и неявные актуальные кеи без смысловых и буквальных дублей

Полный автомат такого рода это из разряда одной большой кнопки "№1 в Google", но это не значит, что к этому не стоит стремиться :)

_Snake_:

По теме, единственный логичный вариант, строить графы Тезаурус. А потом уже искать отправную точку в нём. Но тут тоже могут возникнуть проблемы, т.к. в разных сфрах деятельности, одно и то же слово, может обозначать различные вещи, то может быть много мусора. Я когда делаю выборки, бывает подставляю и по 1500 слов для запроса, а потом приходится отметать некоторые, т.к проще удалить слово в выборке, чем чистить потом результаты.

Главные проблемытезаурусов в том, что готовые решения, которые можно найти, 1) сильно отстают от жизни и 2) не учитывают контекстные синонимы, ведь чаще всего при подборе ключевых слов нас интересуют не просто синонимы, а контекстные синонимы (например, "планшет", "iPad", "Samsung Galaxy"). Собирать же свой самостоятельно - это другая задача и к тому же для большого авторского коллектива. Мы ищем решение попроще, которое - пусть не идеально - но поможет обработать всю или по крайней мере большую часть базы.

seo-Hunter, kakos007,

Мы работаем над онлайн-версией, но не так все быстро получается, как хотелось бы.

exarh,

У большинства проблемы скачать нет, но по факту у нас нередко качают всю базу со скоростью 100-200 Кб/с, для таких пользователей было бы хорошим выходом скачать интересующую их часть базы.

Да, своими руками и головой, конечно же, полезно (и для этого всегда можно воспользоваться нашей бесплатной программой, мы ее никуда не деваем :) Но по опыту мы также можем судить, что довольно часто спросом пользуется не просто выборка по списку слов, а выборка по тематике, определенной одним-двумя словами, и это влечет за собой дополнительную работу по поиску слов, относящихся к данной тематике. А в случае использования слов из рейтинга мэйл.ру работа по поиску слов в какой-то степни решается, нужно просмотреть списки, почистить от мусора. Этот метод неплох, но есть категории, в которых слишком много мусора, поэтому мы и решили спросить, какие еще есть идеи группировки.

Dos3,

Спасибо за поддержку :)

exarh:
ИМХО - медвежья услуга.

В каком смысле "медвежья"? У нас иногда просят готовые выборки по тематикам, не все хотят качать всю программу с базой.

Alexwweb, Artemchik1, Skarlett,

Пожалуйста и спасибо вам за то, что пользуетесь :)

freeman1, Wiiseacre,

Понимаем, что без сортировки и фильтрации по параметрам (в первую очередь) работать неудобно, нужно открывать выборку в Excel и там уже сортировать и фильтровать, но по соображениям технических требований, как мы писали раньше, отложили их реализацию в десктопе и приняли решение делать все это в версии с базой на сервере. При этом реализация любой даже урезанной сортировки в десктопной программе отнимет у нас время.

В настоящий момент мы сконцентрировали усилия на доведении процедур по базе - увеличении размера, чистке, автоматизации процедур (качественная база понадобится в любом случае), а затем вернемся к клиент-серверной версии. В десктопе мы хотим довести базу примерно до 1 млрд. фраз и сделать ее максимально чистой, а все улучшения функциональности будут в клиент-серверной версии.

В этом году мы выпустим еще пару апдейтов базы, в которых будет увеличено количество слов и улучшена фильтрация мусора, при этом программа останется бесплатной.

Tehnik1:
Организуйте сбор средств на boomstarter, я лично готов вас поддержать, как думаю и многие в этой теме.
И всё таки, примерно какую сумму необходимо собрать чтобы обойти капчи?
Точно говорю, для продвижения в регионах, без геонастроек не обойтись. Вы сильно просто урезаете список возможных пользователей вашей программы.


P.S. Ещё может вот этим для парсинга воспользуйтесь?

Сервис XMLProxy очень хорош, но не для объемов такой базы, как наша. Преположим, мы хотим воспользоваться сервисом XMLProxy для получения результатов выдачи по запросам ключевых слов нашей базы из 707 млн. фраз. 1 тыс. запросов стоит 5 руб., т.е. 1 запрос - 0,5 коп. Запрос всей базы 707 будет стоить 3 535 000 руб. И это только выдача, т.е. показатели конкуренции. А показателей нужно запросить больше - и регионы, и тренды с активным месяцем. ОК, пусть нам сделают очень большую скидку на опт, возможно мы найдем решение дешевле, но все равно это будет очень и очень дорого.

А если посмотреть, насколько успешен краудфандинг для проектов, которые находятся в наболее близкой к нам нише на Boomstarter.ru: https://boomstarter.ru/discover/categories/open%20software/active, то максимальная сумма, которую удалость собрать для активных проектов раздела "Программное обеспечение" - 27 050 руб. Т.е. это совсем другой уровень финансирования.

P.S. Мы не против краудфандинга как способа привлечения денег. Есть много случаев, когда он работает хорошо. Просто наш случай не такой.

P.P.S. Для нас лучшим вариантом вашей поддержки будет ваша покупка программы, когда она станет платной.

JOHNY2010:
А почему решили убрать гео-настройки?

Очень дорого поддерживать обновление такого количества регионов для базы 700+ млн.слов. в бесплатной программе.

Всего: 641