Kost, если парсить не один день, то это не так важно ;)
99th, ясно. у меня примерно 300к в сутки тянется. интересно было сравнить
99th, сколько за сутки собирает?
Русская есть, но она не столь хороша, чтобы ее продавать. Или сделаем хорошую или бесплатно раздавать будем - время покажет.
greenwood, на данный момент примерно 10 миллионов. Но это с учетом того, что фильтры ужесточаются, поэтому почти всегда получается: +15-20 лямов, а после применения обновленного набора фильтров удаляется 5-10 лямов.
greenwood, источники:
+ логи поисковиков второго эшелона
+ топ запросы и тренды с популярных поисковиков
+ хитрые источники типа гугл.продукты (там последние запросы показываются - если очень долго парсить, то получается очень неплохо)
+ собственные логи сайтов
Статистика популярности вычисляется по собранным данным, поэтому относительная популярность кивордов относительно друг друга идеальная.
Одно из важнейших качеств наших баз: постоянно обновление (один раз в месяц). Это значит, что в базе уже есть запросы типа macbook air, который был совсем недавно презентован публике, и т.п.
dimok добавил 16.02.2008 в 21:20
Насчет мусора совершенно верно! С каждым апдейтом совершенствуются и ужесточаются фильтры мусора.
Под мусором я понимаю, например, это (примеры взяты из базы пастухова):
и т.д. Фильтров уже около 200 штук
greenwood, попробуй. вордтрекер отдыхает ;)
Тула рулит - это факт. На вечеринке возможно буду.
Verlinov, т.е. в общем случае: софт для работы с биржами ссылок, так?
gutako, зачем отдельную машину? Я вот сижу работаю, а фоном индекс базы строится, пакеты собираются. Отдельной машины не надо. Насчет отзывов можно стучаться в аську.