База кейвордов на продажу

12
X
На сайте с 15.08.2008
Offline
11
1909

Прошу оценить базу кейвордов (в wmz :)

База парсилась НЕ с поисковиков (типа прямого эфира и тд), поэтому не содержит искусственных кейвордов и их частот, по которым оптимизаторы проверяют позиции своих сайтов.

Насколько могу судить это самые качественные кейворды, которые сейчас можно найти в рунете, на практике из нее очень хорошо работают низкочастотники.

Всего в базе: 9 501 379 кейвордов (сентябрь 2008 года)

В настоящий момент содержит следующие поля:

kwd - оригинальный кейворд

freq - конечная частота (среднее арифметическое по дням)

kwd_normal - нормализованный кейворд

day_count - количество дней в которых присутствует кейворд (всего 24)

day_percent - процент присутствия кейворда в днях

word_count - количество слов нормализованного кейворда

Нормализованный кейворд - это отсортированный по алфавиту и приведенный к именительному падежу, единственному числу и т.д. список слов из оригинального кейворда.

Позволяет делать запросы вида:

SELECT * FROM `kwds` WHERE MATCH(kwd_normal) AGAINST('+недвижимость' IN BOOLEAN MODE);

Результатом будет список кейвордов, где слово недвижимость присутствует во всех словоформах.

(Данный запрос выполняется ~0.5с на компьютере с 1Gb RAM, при включенном полнотекстовом индексе mysql)

Результат [почти] этого запроса можно скачать в .xls виде здесь

Если база вызовет интерес и за нее будет предложена достойная сумма, через 2-3 недели планируется апгрейд: увеличение количества кейвордов в 3-4 раза, добавление разбиения по примерно 40 темам, введение еще нескольких полей для удобства.

Если же цена меня не устроит, база не будет продаваться совсем, т.к. я ее использую сам, просто нужны деньги.

Технические моменты получения базы и ее обработки не раскрываю, кейворды можно оценить по представленному образцу, если будет нужна другая выборка, готов ее сделать.

Формат базы: mysql dump.

По вопросам покупки, прошу писать в ЛС или в эту ветку форума.

inse3t
На сайте с 08.05.2006
Offline
84
#1

Только ру? Англ. фарма есть?

ciber
На сайте с 04.01.2008
Offline
215
#2

До пастухова не дотягивает по колву, единственный плюс можно использовать на серваке.

Но всеже хотел бы взглянуть на пример.

X
На сайте с 15.08.2008
Offline
11
#3

Да, база только русская, по объему догоню позже если будет интерес, основная суть этой базы в качестве кейвордов.

Повторюсь, если нужны какие-либо выборки готов сделать, тестовая выборка есть в первом посте (первые 5 минут ее не было, немного поправил файл).

K
На сайте с 07.03.2007
Offline
143
#4

Как мы можем оценивать то? :) Вы выставьте цену, а мы уже будем либо покупать, либо материться... ;) Если будет нормальная цена и нормальный скрипт для работы с базой, то я бы купил

ciber
На сайте с 04.01.2008
Offline
215
#5
4591745 объявления недвижимость великий новгород 69 великий недвижимость новгород объявление 1 4 4
6033820 загородная недвижимость петербурга лисий нос 9 загородный лисий недвижимость нос петербург 1 4 5

Я наверное тупой, но нафига такие нормализованные кейворды?

X
На сайте с 15.08.2008
Offline
11
#6

ciber

Нормализация кейвордов нужна для поиска с учетом словоформ средствами mysql,

в выборке вы видите "недвижимость", "недвижимости", "недвижимостью" и тд.

Этот поиск работает очень быстро.

Со словом "недвижимость" конечно это не очень наглядно, т.к. там основа не меняется, но бывают слова у которых со словоформой меняется корень слова например, тогда простым поиском подстроки уже не получится.

Koag

Честно говоря, скрипт для работы с ней не планировался,

Там самый сложный запрос - это полнотекстовый поиск, остальное - выборки и сортировки по числовым полям.

Скрипт для этого сделать могу, если есть какие то пожелания пишите здесь же.

ciber
На сайте с 04.01.2008
Offline
215
#7
xwild:
ciber
Нормализация кейвордов нужна для поиска с учетом словоформ средствами mysql,
в выборке вы видите "недвижимость", "недвижимости", "недвижимостью" и тд.
Этот поиск работает очень быстро.
Со словом "недвижимость" конечно это не очень наглядно, т.к. там основа не меняется, но бывают слова у которых со словоформой меняется корень слова например, тогда простым поиском подстроки уже не получится.

Понял, видимо ты просто не умеешь работать с мускулом. (

X
На сайте с 15.08.2008
Offline
11
#8

Очень не хотелось самому озвучивать цену базы, но похоже придется :)

Пусть будет 140 wmz без скрипта для работы с базой, 150 wmz со скриптом,

сам скрипт сделаю завтра-послезавтра.

xwild добавил 25.11.2008 в 15:17

ciber:
Понял, видимо ты просто не умеешь работать с мускулом. (

Насколько я знаю средствами одного только mysql нельзя сделать поиск по русским словоформам, поэтому я их просчитываю заранее чтобы обеспечить максимальную переносимость базы.

Derek
На сайте с 23.09.2005
Offline
70
#9

важен источник базы. если это не парсинг чего-либо из веба, то есть только один способ снимать кейворды в таком количестве - выдергивать запросы с большого русскоязычного ботнета.

если не с ботнета, у меня скорей всего львиная доля кеев есть.

(.)(.) или ( Y ) ? (http://www.realderek.ru/) : как заработать 20 миллионов долларов США за 2 года (http://www.realderek.ru/2010/04/20-millions-za-2-goda.html)
X
На сайте с 15.08.2008
Offline
11
#10

Derek

Раскрывать источник, или указывать направление разумеется было бы неразумно с моей стороны.

Что касается проверки на повторяемость, - нужен всего один цикл по демо-выборке, с SQL-запросом к вашей базе, и вы узнаете нужна она вам или нет ;)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий