Sergeus,
посмотрите ещё на:
1) http://spywords.ru/
2) http://www.semrush.com/ru/?db=ru
El_grapaduro,
Мы планируем выпустить бету к концу сентября. В первую очередь мы отправим приглашение узкому кругу лиц, тем, кто явно выразил желание попробовать бету (El_grapaduro, вы, конечно же в нем).
Недели три поработаем в таком режиме, получим фидбэк, пофиксим то, что будет мешать работать бета-тестерам, а потом предложим потестировать более широкому кругу.
Мы пришлем приглашение тем способом, которым к нам обратились: ЛС, почтой, ICQ и также сообщим в этой теме.
....
Сейчас, работая с реальными стартовыми списками слов, мы обнаружили несколько случаев, когда программа работает недостаточно быстро (в основном, это когда применяется очень большой список минус-слов).
Мы не хотим предъявлять слишком высоких требований к компьютеру, и исходим их того, что программа должна быстро работать на компьютере с такиими минимальными характеристиками - RAM 2 GB, одноядерный CPU 1,5 GHz, 32 bit. Оптимальными рекомендуемыми будут RAM 4 GB, CPU двухядерный 2 GHz, 64 bit. HDD - чем быстрее, тем лучше (места нужно будет около ~50 Gb для базы с данными).
Спасибо всем за отзывы! :)
Юлиана Савина,
Наконец-то мы получили ваше письмо. Ссылка на вашу выборку отправлена вам в личку, пожалуйста проверьте.
Мы стараемся отвечать всем в течение получаса, если мы не загружены. Если кто-то не получил ответ в течение суток, пожалуйста, повторите письмо или обратитесь другим способом.
Благодарим всех за отзывы, обращайтесь еще.
Юлиана, ничего не пришло. Может это из-за отрицательной репутации? Напишите, пожалуйста, в почту bukvarix [at] yandex.ru или по ICQ 676613605. Мы будем рады сделать для вас выборку.
Напишите, пожалуйста, еще раз - мы перепроверили, ни в почте, ни в личке от вас ничего нет. Был человек, который обратился через ICQ, когда мы были офф-лайн, возможно это вы. Напишите, пожалуйста, прямо сейчас bukvarix[at]yandex.ru
Всем добрый вечер!
В связи с тем, что наиболее частый вопрос, который задается сейчас - как убрать лишний мусор - остановимся на нем подробней. Для примера возьмем выборку Sancey (но только цифры, без слов поскольку Sancey писал в личку, то слова без его разрешения светить не будем). Покажем как выборку можно отфильтровать и сколько в итоге будет мусора - что было до и что было после (только в цифрах). Так как пост большой и не всем его захочется читать до конца, то начнем немного с конца - т.е. с выводов. В выборке Sancey 50 581 слов. 37 434 слов легко отфильтровать в Excel, в них очень мало мусора (сотня-две мусорных слов). Из оставшихся 13 147 слов где-то 1-2 тыс. это мусор, а около 11-12 тыс - нормальные НЧ. Сейчас мы при выборке оставляем эти 1-2 тыс. мусора, чтобы не потерять 11-12 тыс. нормальных НЧ.
Ну а теперь немного подробней - почему мы оставляем мусор и почему не хотим терять НЧ - что, почему и как.
Стартовые условия - выборка из 50 581 слов.
Если просто открыть выборку, то можно заметить что в самом верху списка слова нормальные, а в самом низу - часто мусорные (это у всех так, не только у Sancey).
Это то, что нам удалось сделать на автомате - отфильтровать так, чтобы вверху были наиболее "хорошие" слова, а в самом низу "плохие".
Чтобы отфильтровать лучше, нужно уже чуть поработать ручками.
Так как сейчас все выборки формируются в .csv (других форматов мы сейчас не поддерживаем), то проще всего фильтровать в Excel или в программе-аналоге.
Итак, если отфильтровать нужно очень быстро, то:
1. Включаем автофильтрацию - при этом в Excel в самом вверху в названиях колонок появляется выпадающий список.
2. В списке-фильтре выбираем колонку с цифрами (например, Москва - широкий, Весь мир - фразовый и т.д. - название зависит от типа поиска).
3. Выбираем числовой фильтр > 0 и применяем фильтр.
В нашем примере из 50 581 слов останется 37 434.
Из них если быстро пробежатся глазками по списку, то видно что практически все нормальные, может изредка попадаются "плохие".
Если грубо прикинуть (полиства список в течении хотя бы минуты), то таких "плохих" наберется несколько десятков - ориентировочно до сотни-двух, что по сравнению с цифрой 37 434 выглядит совсем неплохо.
Т.е. с помощью такой вот грубой фильтрации можно очень быстро получить довольно неплохой результат.
Но мы так в программе не фильтруем - и вот почему.
Если посмотреть на те оставшиеся 13 147 слов, то видно что там очень много хороших НЧ, но у них количество показов, даже по широкому типу поиска равно 0.
И 0 там не потому что мы WordStat не запросили, а именно потому что WordStat вернул 0.
Как раз такие НЧ очень часто нужны оптимизаторам для SEO - и исключать их не хочется.
Эти НЧ мы получили не из WordStat, а из подсказок Yandex и Google, и ещё из Яндекс прямого эфира - т.е. эти слова люди ищут, пусть и редко.
И что самое плохое (для нашей программы) - именно такие слова очень сложно отличить от мусора.
В количественном соотношении, если грубо прикинуть, то из оставшихся 13 тысяч где-то 1-2 тысячи будут мусором.
Что в итоге получается - из 50 тыс. слов 1-2 тыс слов мусора.
В абсолютном отношении 1-2 тысячи мусорных слов - это много.
Но в относительном - от 50 тысяч это составляет 2-4 % мусора (у каждого в выборках по разному - у кого-то больше, у кого-то меньше).
А если мы бы делали "жесткую" фильтрацию, то нам бы пришлось убрать все 13000 слов, т.е. практически ~26% - грубо говоря четверть слов.
В итоге у нас был выбор:
1. Применить жесткую фильтрацию и отсеять четвертую часть слов, из которых подавляющее большинство нормальные НЧ.
2. Или оставить несколько процентов мусора, но не потерять столь ценные для многих НЧ.
Мы выбрали для себя 2. - оставить немного мусора и не потерять НЧ.
После недавних замечаний по поводу мусора решили что в программе, когда она будет готова, добавить режим "жесткой" фильтрации (опциональный), чтобы можно было оставить только самые-самые слова, исключив НЧ и мусор.
Добрый день, war357159,
Вот ссылка, по которой вы можете скачать вашу выборку: http://yadi.sk/d/ZB__QqXt8A6Be
Если возникнет потребность применить минус-слова - обращайтесь, обновим выборку.---------- Добавлено 21.08.2013 в 16:16 ----------XPresident,
Спасибо за отзыв и замечания. Вы абсолютно правы, в базе есть слова с количеством поисков равным нулю. Эти слова скорее всего либо мусор, либо НЧ, но наверняка автоматическими методами определить не получается.
Сейчас мы решили не исключать такие слова, чтобы заказывающий выборку сам принял решение - удалить их или оставить как НЧ. В любом случае, при фильтрации в экселе можно выбрать только те слова, по которым есть поиски.
Позже, когда мы доработаем программу и выборки можно будет делать самому не обращаясь к нам, мы добавим фильтр количества поисков как раз для таких случаев.
Мы понимаем, что сейчас это может вызывать неудобство, но пока мы не успеваем все сделать...
cyberbonus,
Сделали выборку по региону Россия, по всем 4 типам поисков.
Если нужны другие регионы, то пишите - обновим :)
Выборку скачать здесь: http://yadi.sk/d/tRAo2n7b89WND
alex-nn, вот как декодировать ответ:
1. Вычислить key - он идет в конце данных запроса, например:
... ,"key":"var f268 = function(v22){var t833=\"8a7538b9\";var tv863=v22;return function(v22){return t833.concat(v22.concat(tv863))}(\"c5d\")};f268(\"5c0a50878c\".split('a').join('b').split('').reverse().join('').split('').reverse().join(''))"} ...
2. Подсчитать ключ - посмотреть файл _common.ru.js - найти что-то похожее на
var _0x840cx7=navigator[_0xa032[51]][_0xa032[50]](0,25)+($[_0xa032[53]](_0xa032[52])||_0xa032[36])+eval(_0x840cx5[_0xa032[40]]);
вот тут к примеру eval(_0x840cx5[_0xa032[40]]) - это вычисление key из пункта 1
там все может меняться, нужно искать navigator[ и потом глазками выходить на нужный кусок.
3. Дальше декодировать с помощью ключа:
_0x840cx9<_0x840cx5[_0xa032[49]][_0xa032[54]];
_0x840cx9++){
_0x840cx8=_0x840cx8+String[_0xa032[56]](_0x840cx5[_0xa032[49]][_0xa032[55]](_0x840cx9)^_0x840cx7[_0xa032[55]](_0x840cx9%_0x840cx7[_0xa032[54]]))
}
4. И ещё раз декодировать:
_0x840cx8=decodeURIComponent(_0x840cx8);
Там на самом деле не сложно, но запутанно - главное разобраться что к примеру _0xa032[51] - это userAgent, а _0xa032[50] - это substr - т.е. вначале декодировать все это в человеческий вид (консоль для отладки JavaScript поможет).
В итоге из:
"hX8L^^\u0002@[ZUN\\F]_UR5LU.@\t\u0012_A\u0015QS\u0014\u000b'\u0007\u0011T&\u0011V\u0005\u0007A7\u0003\u0017\b\u0015gj|CJ3ub1Ps'GVg\u
получится
"{"content":{"js":1,"content":[{"elem":"last_update","content":"Последнее обнов...
Вообщем можно все это раскодировать, но проблема капч никуда не денется - сейчас её Яндекс требует практически через раз на запрос, т.е. много не поназапрашиваешь.
webigorek,
Могу сделать вам бесплатно выборку из собственной внутренней базы слов на основе WordStat - примерно 110 млн., обновлена в апреле-мае с количеством поисков по 57 регионам (Россия, Украина, Белоруссия, Казахстан + крупные города этих стран). Если по-прежнему есть необходимость, бросайте список слов и регионов.