W.Ed.

Рейтинг
18
Регистрация
28.06.2005
Должность
дизайн-студия
Интересы
программирование, лингвистика

Ужасный трабл со мной приключился ...

Сайт animeforge.ru во время переезда успел стать алиасом pochtanavsegda.

А так как pochtanavsegda.ru не мой сайт, то и удалить его из базы или прописать его алиасом в robots.txt я не могу, подскажите как поступить??? письма писал - ответа нет, удалить из базы тоже не могу, так как "это всего лишь алиас"... (ответ такой же как и выше)



Адрес http://animeforge.ru/ может быть внесен в нашу базу данных (и, соответственно, проиндексирован) по адресу http://www.pochtanavsegda.ru/. Добавить.
Добавленный вами сайт не индексируется, так как является «зеркалом» http://www.pochtanavsegda.ru/. Подробнее о сайтах-зеркалах вы можете прочитать в FAQ.

ЗЫ: насчет русского не пишите - он раньше был в базе, и траффик с него был постоянный - большая часть была всегда проиндексирована.

Может яндексу забанить почтунавсегда??? %) а то столько доменов впустую на нем висят

Zute:
Как не крути, эт всёравно больше, чем просто вытаскивать :p

Хорошо ☝, завтра перепишу индексатор и сравним.🙄

Zute:
Вы забыли одну маленькую детальку: у DataparkSearch при этом ещё идёт индексирование, а у вас только выкачивание. Ну и естественно, при достаточно широком канале всё уприрается в скорость записи на винт.

Ну и если сравнивать dpsearch 4.22 и 4.31 (последнюю версию), то последняя по скорости раза в два быстрее (наглазок).

Не смотрели сколько времени тратится на индексирование?

Это занимает не так много времени, как кажется.

eshum:
Маловато для чего? 5 000 000 000 * 25Kb(размер страницы) = ~120Gb html страниц в сутки. Вы можете построить индекс в 120Gb за 1 сутки на PC c стандартной конфигурацией?

Я имел в виду 5Мб.

120 Gb/день - 11 Мбит/с ... Т.е. вероятнее всего приводились данные для канала шириной в 10Мбит/с, если исходить из того, что цифра в 25кб более-менее верна. При этом речь шла не о построении индекса, а только о прохождении по ссылкам, их скачивании. Это вполне реально на компьютере стандартной конфигурации.

Zute:
Сравните с dataparksearch, 260 килобайт/сек., вместе с индексированием:

One anonymous DataparkSearch user made indexing speed test on 10Mb connection.

FreeBSD 5.1

Pentium IV 2.6GHz, 1G RAM
Two 76319MB <ST380011A> [155061/16/63] at ata2-master UDMA100 in RAID1

MySQL 4

DataparkSearch 4.22-01072004 with cache mode, cached runned in old mode

60 indexing threads were runned, every thread took 2-3 kbytes/s, thus overall indexing performace was about 120-180 kbytes/s
Totaly about 240000 pages in 6,6G were indexed.

Не сравнить с моим Celeron 900 256 RAM и обычными винтами... Datapark по-моему не использует канал полностью, для него более важна мощность сервера.

и другой тест...Total 3617 seconds, 28373 documents, 969663000 bytes, 261.80 Kbytes/sec - это ~21,5 Гб/день при минимальной ширине канала в 2.04 Мбит/с...

eshum:
На их странице написано, о производительности в 5M индекируемых страниц в сутки.

The current version of Larbin can fetch 5,000,000 pages a day

Это не 5М, 5млн страниц... 5 М в сутки это маловато :)

Вы можете подробнее объяснить - что под этим подразумевается?

я подразумеваю такой выбор шинглов, чтобы это не шло в ущерб поиску схожих документов, при описанных выше условиях. Я понимаю когда в спамооброне используются супершинглы - этого достаточно для определения массовых рассылок, но годится ли выборка для определения неявных (одного-двух) зеркал сайтов с динамическим контентом?

Как модератору форумов Любые вопросы от новичков и Самое разное

2 euhenio, у меня такое впечатление, что Вы не вчитываетесь в заданные вопросы.

Я НЕ спрашивал что такое шинглы и какие задачи я смог бы с помощью них решить.

Я отлично ПРЕДСТАВЛЯЮ себе зачем мне требуется тот или иной метод/информация.

Я НЕ МОГУ ответить на свои вопросы, ответив на Ваши.

388 Кбит

я так понимаю, что у вас скорость чуть выше.... а 388 Кбит/с = 0,37890625 Мбит/с так что в первый раз я сказал правильно (про треть мегабита/сек) :)... мда.. не поспал ночку - уже и считать разучился..

хм...

4 Гбайт/день = 4*1024*1024*8 Кбит/день = 33554432 Кбит/день = 388,36(148) Кбит/с (может еще раз ошибся :)?)

проще все-таки в гигабайтах считать :)

прочитыватеся avg. 3,5GB/day.

0,33(1851) kbit/s

вот блин... математика :)

ошибся - 0,37(9259) kbit/s получается у меня, а не мегабит :)

похоже тут действительно какой канал будет (с сооветственным улучшением остального железа), такая скорость и будет

123 4
Всего: 38