itman

Рейтинг
64
Регистрация
26.05.2001

а откуда я знаю, я же не собираюсь туда идти :-)

Sonja:
Какая вакансия, если не секрет? 🙄 ;)

Ну у меня было подозрение, что речь идет о шинглах, полученных в результате обработки множества текстов, но я не был уверен. Я, гляжу, спрос на данные подобного рода растет.

!Иван FXS:
Почему-то мне кажется, что Вы знаете, что такое шингл ... то есть вопрос - о ТАБЛИЦЕ шинглов?

Это - список шинглов, полученых при обработке какого-либо (не очень важно какого!) "большого массива" текстов.

Можно - с частотами, но не обязательно.
Можно - отфильтрованый (обрезанный снизу) по частоте, но не обязательно.
Можно - с хэш-ключом, но не обязательно.

Was ist das?

!Иван FXS:
Не знает ли уважаемый кто-нибудь, где можно взять-скачать таблицу-список-базу англоязычных шинглов?

То есть примерно 170 тысяч среднестатистических HTML страничек, объем чистого текста 200-400 кб. Индекс гарантировано влезает в память. Мда... тот же Яндекс-сервер, например раза в 3-4 должен быстрее индексировать. С другой стороны какой-нибудь гугль-мини такой объем чисто теоретически (с лицензионной точки зрения) не будет обрабатывать. И тот же датапарк примерно с такой же скоростью индексирует, может даже медленее. И аспсик у меня 2 гига примерно несколько дней индексировал, правда машинка был гораздо слабее: PII, 500 Mb. Но, видимо, порядок индексации по скорости тот же.

Кстати, а у Вас на Java точно был включен JIT? Вообще, с точки зрения потенциально неэкономного расхода памяти писать поисковый движок на джаве не самая удачная идея.

TXD:
Довелось потестировать nutch версии 0.7.2.
Впечатление, мягко говоря, не очень.
Тестировалось следующим образом:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.
Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт
Так вот, на индексацию такого объёма было затрачено времени ~21ч.
Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?

Вообще, это все плюс-минус. Такие факторы, как PR, выделение жирным, курсиво итд должны чуть-чуть увеличивать ключевого слова. PR чуточку побольше чем жирный шрифт ИМХО. PR, к тому же, ИМХО опять-таки разумнее уже прибавлять к конечному весу страницы, посчитанному с учетом вхождения ключевых слов и их близости. А вот близость слов, плотность их расположения в пассаже, ИМХО опять-таки поважнее будет.

Вы читали документ Яндекс с описанием их алгоритма ранжирования?

Опять-таки по поводу морфологии: ИМХО (и Саша Садовский, которые в вопросах релевантности попродвинутее меня будет со мной согласился, да и И. Сегалович, кажется, тоже так считает), что точные вхождения нужно чуточку приоретизировать.

snoopckuu:
Подскажите мне пожалуйсто комьюнити в которых обсуждают поисковые алгоритмы тоесть что СЕО-оптимизаторы считают приоритетным в выдаче(морды,текст...) - мне очень интересен этот вопрос.

Спасибо за ссылочку, посмотрю на досуге. Некоторые аспекты оптимизации меня очень даже интересуют.

MaulNet:
itman, http://community.livejournal.com/ru_seo/profile - кстати, линк на комьюнити про СЕ. Возможно, вам будет интересно.

Pike у конвеера хорошая производительность, но с задержками. Иногда нужна не производительность, а респонсивность. Австралийцы очень дружелюбные и милые люди, но они не склонны решать чужие проблемы, пока их не "пинаешь" достаточно регулярно. Они не по злобе это делают, они просто забывают. Если лично Вас, мой не вполне обоснованный наезд, обидел, я приношу свои извинения и предлагаю закрыть эту тему.

По поводу регистратора: мне ответила служба поддержки, домен стоит 9 евро, но с немецких нерезидентов они снимают fee в размере 39 евро. То есть это уже не совсем дешево получается.

Pike:
Нет уж, тут одно из двух - или "задержки", или производительность. Она, между прочем, считается в единицах за единицу времени, так что медленно и производительно работать не получится.

А что до instra - сам с ними не работал, но вообще-то это известная международная корпорация с оффисами по всему миру, включая один в UK. Так что я думаю проблемы с немецкими доменами будут решать в европейском оффисе европейские сотрудники.

P.S. Первый раз вижу такое анатомически-медицинское отношение к бизнесу на основе его австралийскости. У австралийцев хорошая репутация в мире и интернете, сам с этим постоянно сталкиваюсь.

Они не ленивые! Они расслабленные. Производительность труда-то может быть и большая, но задержки при решении проблем порядочные. Вы лучше скажите, знаете ли что-нибудь про упомянутого мной регистратора или нет :)

а вот Cheap-DomainRegistration.com как раз в списке деника точно отсутствует. по-крайней мере не могу найти ни под каким соусом, так что кто работал много с немцекими доменами, подскажите, пожалуйста.

Всего: 444