- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
База будет без мусора (повторы, символы на разных языках в слове, различные символы перед/после ключей)? Или "как есть"?
База будет без мусора (повторы, символы на разных языках в слове, различные символы перед/после ключей)? Или "как есть"?
Все базы мы чистим от мусора, алгоритмы чистки - на основе алгоритмов чистки базы Букварикса (с поправкой на английский язык).
Т.е. если вы пользовались Буквариксом для рунета, то сможете приблизительно оценить качество чистки.
Дополнительно добавим, что мы фильтруем попадание в базу символов других алфавитов, например чтобы в английской базе не было русских/китайских и т.д. слов.
Но, например, если фраза состоит исключительно из символов, допустимых в английском языке, то мы такую фразу не фильтруем.
Поэтому в базу могут попадать и слова на других языках, например, латынь, испанский, итальянский, если там использована исключительно латиница английского алфавита - впрочем, это проблема всех баз, не только наших.
Как всегда, если заметите в базе мусор и есть идеи как его отфильтровать алгоритмически - пишите, в следующих апдейтах баз дополнительно почистим.
Как всегда, если заметите в базе мусор и есть идеи как его отфильтровать алгоритмически - пишите, в следующих апдейтах баз дополнительно почистим.
проще всего отфильтровывать при помощи частоупотребимых не английских слов, например предлогов.
фильтрация только одного предлога убрала 1.2 гига.
grep -v " de " EnglishKeywordsExtended.txt >result.txt
достаточно просто глазами просмотреть файл, чтобы найти дургие признаки для фильтрации, например: das, el, la и т.д.
Если кому нужно, то за пару часов набросал фильтр для зачистки от не английских ключевиков
даже при таком хаотичном составлении фильтра, подбиралось и анализировалось глазами, результирующий файл полегчал на 2.7 гига.
посмотреть/сохранить отфильтрованное:
метод фильтрации - рабочий, можно автоматизировать поиск признаков и создание фильтра на основе подсчета часточности, но это нужно уже писать небольшой код. :)
если копнуть глубже, то можно и по разным языкам разбирать ключевики.
Аdmak, идея хорошая, большое спасибо за предложение. Пока мы анализировали, описывали результаты и готовили ответ, вы уже свое решение выложили :)
На 99% включения испанских, французских, португальских, голландских, немецких, польских и прочих слов - это неанглийские фразы, часть их можно отфильтровать, использовав список наиболее часто употребляемых неанглийских слов - в основном, это предлоги, артикли, местоимения, союзы, а также существительные и глаголы, имеющие отношение к деятельности в интернете, к поиску, например, но есть достаточно много названий компаний, торговых сетей, отелей, ресторанов, различных торговых марок и брендов, которые содержат в своих названиях неанглийские слова. Сделать хотя бы мало-мальски удовлетворительный список таких компаний, чтобы их оставить, а остальное убрать, для нас нереально по трудозатратам. С другой стороны, нужны такие названия или нет, решать все-таки не нам.
Вот небольшая иллюстрация проблемы.
Полностью удалив "de", мы потеряем очень даже коммерческие словосочетания, включающие de luxe, торговые марки de beers, de longhi, а также tour de france, менее известные de novo hairstyle, De Fonseca и многие другие названия.
Не всегда целесообразным выглядит и удаление высокочастотных испанских san, los, la, las, el, del - они встречаются в названиях американских городов, других населенных пунктов, например, San Diego, San Francisco, San Jose, San Andreas, Los Angeles, Los Altos, Los Olivos, Los Santos, La Mirada, La Habra, Las Vegas, Las Cruces, El Monte, El Dorado, Del Mar, Del Rey. То же касается названий гостиниц, ресторанов и т.п.
Если удалить van, то вместе с ним мы удалим Van Buren (названия округов в двух штатах США), торговую марку Van Cleef, Van Damme (актера), Van Halen (который Eddie), да и Van Helsing тоже.
Все это вполне хорошие слова, которые кому-то будут нужны.
Т.е. на автомате поудалять словосочетания с артиклями, предлогами и союзами из других языков не нам бы не хотелось - можно потерять города, торговые марки и т.д. Что делать с двухбуквенными словами, если это не что-то устойчивое, а, возможно, аббревиатуры или часть каких-то марок, серий, кодов товара, тоже не совсем понятно. Например, va - это аббревиатура штата Вирджиния, ma - Массачусетса, а la - устойчивае сокращение Los Angeles.
Решили сделать так: база для закачивания будет по прежнему полная, но у тех, кому важно сэкономить место на диске, будет возможность выполнить команду для дополнительной очистки.
Мы также обновим инструкцию - добавим пункт, как дополнительно почистить базу от артиклей, предлогов и т.д. других языков. Список, который мы даем, не исчерпывающий, это те слова, которые встречались наиболее часто (мы посчитали количество употреблений уникальных слов, сейчас обрабатываем результаты).
Таким образом будет выбор - либо вы потеряете часть базы, зато удалите большую часть того, что не нужно, либо все оставляете полностью и ничего не теряете.
Аdmak, еще раз спасибо за то, что поделились результатами своей работы :)
P.S. Обновленную инструкцию со списком ВЧ неанглийских слов и максимальную базу выложим во вторник. Чуть позже сегодня список слов, которые могут пригодиться - с оговорками выше - для фильтрации.
---------- Добавлено 20.03.2016 в 19:49 ----------
Мы подготовили список неанглийских слов (среди них есть слова, имеющие также значение в английском языке, но у которых большинство случаев употребления в составе других языков, например, слово "les" - это имя (сокращенное от Leslie) , а также сокращение от "lesbian" в английском и одновременно это определенный артикль для существительных женского рода и множ. числа во французском. Еще похожий пример - слово "pour" - это английское словарное слово со значением "наливать", но чаще попадаются фразы, в которых слово "pour" - это француский предлог "для". Хотя для тех, кто будет составлять ядро для кулинарного сайта английское значение "pour" критично).
Также мы оставили в списке аббревиатуры штатов США и коды стран. Если делать строгую фильтрацию, то, возможно, вы ими также готовы пожертвовать.
Список слов для фильтров можно скачать: https://yadi.sk/i/Sv1B0af9qLZyt
Bukvarix, я с Вами полностью согласен и понимаю, что под фильтр может попасть и нужное. для себя я планирую разделить базу на две: основную и дополнительную, т.е. все что попадает под фильтр не удалять, а перемещать в дополнительную базу. нужно еще подумать над исключениями, как Вы правильно написали выше.
по фильтру, я не вдавался в особенности других языков, а написал мелкую утилитку для подсчета количества слов длинной от 2 до 4 символов. она может пригодится для быстрого поиска признаков фильтрации.
утилитка читает файл блоками по 10мег (если памяти мало, то нужно уменьшить этот параметр), результат выводит в STDOUT (лень было в файл писать :) поэтому запускать ее нужно строкой:
результат будет в таком виде
наибольший эффект получается при запуске утилитки на уже отфильтрованном файле, она позволяет найти и дополнить признаки фильтрации.
при запуске на всей базе придется сильно чистить результат.
admak, спасибо за Ваш вклад в улучшение базы, мы сейчас обновляем инструкцию, дадим ссылки на эти посты, чтобы те, кому может понадобиться фильтрация, смогли воспользоваться Вашими знаниями.
Позволю себе проанонсировать новость о возможности загрузки полной базы :) А то зашёл в тему, не увидел новости про обещанный вторник, перешёл на сайт и очень приятно удивился.
Вопрос: Для обновления баз, в частности русского букварикса, нужно каждый раз перекачивать все тонны гигабайтов? Нет возможности докачивать обновления?
P.S. У меня ещё пока что самая первая версия.
Позволю себе проанонсировать новость о возможности загрузки полной базы :) А то зашёл в тему, не увидел новости про обещанный вторник, перешёл на сайт и очень приятно удивился.
Вопрос: Для обновления баз, в частности русского букварикса, нужно каждый раз перекачивать все тонны гигабайтов? Нет возможности докачивать обновления?
P.S. У меня ещё пока что самая первая версия.
Спасибо за анонс :) вы нас чуть опередили. Вчера не успели выложить, база оказалась слишком большой, долго формировалась.
Дорабатывать удобные обновления десктопа не стали, решили потратить усилия на разработку онлайн-версии.
Теперь наш анонс :)
___________________
Сегодня мы выкладываем максимальную версию базы английских ключевых слов, которая - без преувеличения - является максимальной как среди бесплатных, так и среди платных баз английских слов, собранных с помощью поисковых подсказок. База состоит из 3 млрд. 421 млн. ключевых слов (архив занимает 40,2 Гб, 102 Гб в распакованном виде). Поэтому мы советуем качать эту базу через торрент (хотя мы залили ее на облачные сервисы тоже) и просим оставаться на раздаче.
Ссылка на страницу загрузки:
http://www.bukvarix.com/english-keywords.html
Также дополнена и расширена инструкция по работе с английской базой в PostgreSQL: добавлены примеры запросов для объединения результатов поиска разных слов, для вывода количества слов и знаков в словосочетаниях, сортировки, получения уникального списка слов. Даны примеры выборок при работе с другими базами. Ссылки на разделы иструкции также можно найти по вышеупомянутому адресу.
Качнул
Количество слов: 846 303 699
Юзал Penguin. Первоначальный отсев занял часов 5. В фоновом режиме жрёт 15-18% ЦП и ... 5 Мб оперативы.
А с базой в 1,8 мнл. работает с любыми фильтрами за 5-10 сек.
Авторам спасибо. Обоим. :)