Ужасный трабл со мной приключился ...
Сайт animeforge.ru во время переезда успел стать алиасом pochtanavsegda.
А так как pochtanavsegda.ru не мой сайт, то и удалить его из базы или прописать его алиасом в robots.txt я не могу, подскажите как поступить??? письма писал - ответа нет, удалить из базы тоже не могу, так как "это всего лишь алиас"... (ответ такой же как и выше)
ЗЫ: насчет русского не пишите - он раньше был в базе, и траффик с него был постоянный - большая часть была всегда проиндексирована.
Может яндексу забанить почтунавсегда??? %) а то столько доменов впустую на нем висят
Хорошо ☝, завтра перепишу индексатор и сравним.🙄
Не смотрели сколько времени тратится на индексирование?
Это занимает не так много времени, как кажется.
Я имел в виду 5Мб.
120 Gb/день - 11 Мбит/с ... Т.е. вероятнее всего приводились данные для канала шириной в 10Мбит/с, если исходить из того, что цифра в 25кб более-менее верна. При этом речь шла не о построении индекса, а только о прохождении по ссылкам, их скачивании. Это вполне реально на компьютере стандартной конфигурации.
One anonymous DataparkSearch user made indexing speed test on 10Mb connection.
FreeBSD 5.1
Pentium IV 2.6GHz, 1G RAMTwo 76319MB <ST380011A> [155061/16/63] at ata2-master UDMA100 in RAID1
MySQL 4
DataparkSearch 4.22-01072004 with cache mode, cached runned in old mode
60 indexing threads were runned, every thread took 2-3 kbytes/s, thus overall indexing performace was about 120-180 kbytes/sTotaly about 240000 pages in 6,6G were indexed.
Не сравнить с моим Celeron 900 256 RAM и обычными винтами... Datapark по-моему не использует канал полностью, для него более важна мощность сервера.
и другой тест...Total 3617 seconds, 28373 documents, 969663000 bytes, 261.80 Kbytes/sec - это ~21,5 Гб/день при минимальной ширине канала в 2.04 Мбит/с...
The current version of Larbin can fetch 5,000,000 pages a day
Это не 5М, 5млн страниц... 5 М в сутки это маловато :)
я подразумеваю такой выбор шинглов, чтобы это не шло в ущерб поиску схожих документов, при описанных выше условиях. Я понимаю когда в спамооброне используются супершинглы - этого достаточно для определения массовых рассылок, но годится ли выборка для определения неявных (одного-двух) зеркал сайтов с динамическим контентом?
Как модератору форумов Любые вопросы от новичков и Самое разное
2 euhenio, у меня такое впечатление, что Вы не вчитываетесь в заданные вопросы.
Я НЕ спрашивал что такое шинглы и какие задачи я смог бы с помощью них решить.
Я отлично ПРЕДСТАВЛЯЮ себе зачем мне требуется тот или иной метод/информация.
Я НЕ МОГУ ответить на свои вопросы, ответив на Ваши.
я так понимаю, что у вас скорость чуть выше.... а 388 Кбит/с = 0,37890625 Мбит/с так что в первый раз я сказал правильно (про треть мегабита/сек) :)... мда.. не поспал ночку - уже и считать разучился..
хм...
4 Гбайт/день = 4*1024*1024*8 Кбит/день = 33554432 Кбит/день = 388,36(148) Кбит/с (может еще раз ошибся :)?)
проще все-таки в гигабайтах считать :)
0,33(1851) kbit/s
вот блин... математика :)
ошибся - 0,37(9259) kbit/s получается у меня, а не мегабит :)
похоже тут действительно какой канал будет (с сооветственным улучшением остального железа), такая скорость и будет