dimok

dimok
Рейтинг
291
Регистрация
08.11.2002

Kost, если парсить не один день, то это не так важно ;)

99th, ясно. у меня примерно 300к в сутки тянется. интересно было сравнить

99th, сколько за сутки собирает?

Русская есть, но она не столь хороша, чтобы ее продавать. Или сделаем хорошую или бесплатно раздавать будем - время покажет.

greenwood, на данный момент примерно 10 миллионов. Но это с учетом того, что фильтры ужесточаются, поэтому почти всегда получается: +15-20 лямов, а после применения обновленного набора фильтров удаляется 5-10 лямов.

greenwood, источники:

+ логи поисковиков второго эшелона

+ топ запросы и тренды с популярных поисковиков

+ хитрые источники типа гугл.продукты (там последние запросы показываются - если очень долго парсить, то получается очень неплохо)

+ собственные логи сайтов

Статистика популярности вычисляется по собранным данным, поэтому относительная популярность кивордов относительно друг друга идеальная.

Одно из важнейших качеств наших баз: постоянно обновление (один раз в месяц). Это значит, что в базе уже есть запросы типа macbook air, который был совсем недавно презентован публике, и т.п.

dimok добавил 16.02.2008 в 21:20

Насчет мусора совершенно верно! С каждым апдейтом совершенствуются и ужесточаются фильтры мусора.

Под мусором я понимаю, например, это (примеры взяты из базы пастухова):


zzzz
zzzzz
zzzzzz
zzzzzzz
http://google.com/
92 3365 695 189
link:http://www.wellestates.com
hometown.aol.com/airfrchp/airfare-cheap/airfare-cheap.html
industrial manufacturing news kingsdown names david kresser regional vice preside

и т.д. Фильтров уже около 200 штук

greenwood, попробуй. вордтрекер отдыхает ;)

Тула рулит - это факт. На вечеринке возможно буду.

Verlinov, т.е. в общем случае: софт для работы с биржами ссылок, так?

gutako, зачем отдельную машину? Я вот сижу работаю, а фоном индекс базы строится, пакеты собираются. Отдельной машины не надо. Насчет отзывов можно стучаться в аську.

Всего: 4272