itman

Рейтинг
64
Регистрация
26.05.2001

Средний веб-документ порядка 2-5 к тексту. Полный его размер 10-20к. Если исключить всякие доки с пдф будет еще меньше. Сжатый инвертированный индекс вполне себе влезает в 50% от размера текста. Ну сжатый образА HTML примерно как текст или полтора текста.

100 млн доков x 5 k тексту = 500 гб диска, умножаем на 1.5 получаем 1.5 террабайта. Ну если образы не хранить на том же сервере получаем 250 гб диска, что соответствует обычному серверу. А HTML для отрисовки сниппетов или прямой индекс можно хранить на одной машинке ну с очень большим и быстрым диском.

alexf2000:
Получаем средний размер документа в обоих случаях ~25к. Ровно как я написал в самом начале. :) То есть для хранения 80 миллионов документов нужно 2 тебарайта, что совсем не похоже на объём диска обычного сервера (200 Гб).
itman:
И будем это все иметь в ввиду на будущее, первый блин, известно до жопы не доходит. А так дай бог не последний немецкий домен :-)

И все-таки я всем настоятельно рекомендую не пользоваться registerfly.com, потому что они некомпетентны. По-крайней мере, в той части, которая касается немецких доменов. Саппорт там, вообще, нулевой. Ничего толком не знает. У меня, в частности, возникала ошибка: я не мог выставить свои DNS сервера (процедура, которая у всех других регистраторов проходит на раз). Оказывается (это я потом сам допер после месяца общения с саппортом), что нужно в одном месте менять настройку, тогда все получается. Они это знали и выставляли серваки за меня по моей просьбе. Последние две недели я пытался их заставить выставить правильные серваки. Дык нет же, люди просто не читают то, что им пишут. К тому же, когда там прописываешь свои серваки они почему-то их Денику отддают не напрямую, а через свои DNS. А их DNS не соответствуют требованиям Деника. В частности по тому пункту, который запрещает имени сервака быть CNAME. На него должна быть IN запись с айпи. А они это не понимают. ИМХО, registerfly.com, вообще, не может немецкий домены регистрировать. Буду от них пытаться трансфер домена делать :(:(

Seventh Son:
Леня, ну как можно так говорить на оптимизаторском форуме?
Знаешь, у скольки народу желание посмотреть на закрытую информацию появляется? :)

Звиняйте, но на самом деле, наскольку я понимаю, она имеет интерес чисто теоретический. То есть 99.9% что ее вряд ли можно было бы пустить в оборот. Сейчас я гляну есть ли она в официальной доке Яндекса.

pro-maker:
Т.е. по "почту" выбираются только документы в которых, оно существительное со смысловым значением "почтовая служба"?

По-крайней мере в первой сотне записей (а я проверил) так, с одним единственным исключением: в одном месте есть страница со словом почтовый, но, возможно, что туда есть линки со словом почта.

А может ищет все, но наверх "всплывают" прежде всего точные вхождения. А вот на двусловных запросах уже такой зависимости не видно. Я, по-крайней мере, таких явных примеров не нашел.

Но ведь и Исег, когда говорил в интервью про АЛГОРИТМЫ, возможно имел в виду ПАРАМЕТРЫ :-)

Хм... по поводу словоформ у меня есть дополнительная инфа. Не уверен, что она проходила в открытом доступе. По поводу линков: Вы правы: никак не могу, возможно, что это ПАРАМЕТРЫ.

ХренРедькиНеСлаще:
если не секрет, как Вы определяете изменения в АЛГОРИТМАХ и изменения в ПАРАМЕТРАХ алгоритма яндекса?

На самом деле вот что я хочу сказать. В запросе по слову почту нет ни одного результата, где нет слова почта и его формы. То, что слово почти выделено в сниппете - это может быть результат уже работы другого ведомства. То есть проще говоря, в одном месте поменяли, а в другом нет.

Про веса я имел в виду то, что точные вхождения слов сейчас могут учитываться с большим весом, чем неточные, такие как почты или даже почти, которое склеивается вообще боком. Возможно, что там идет более тонкий учет. Ну в пользу этой гипотезы мой пример с поиском по словам сходство и сходству. Ведь тут тыц абсолютно не причем. Как кроме различного учета словоформ можно объяснить "скачку" моего сайта при изменении падежа слова.

По поводу того, что было раньше. Хотелось бы поточнее это знать. Может кто и вспомнит. Дело в том, что у меня есть сооборажения, о которых я не могу рассказать на этом форуме, согласно которым раньше все-таки было все равно в каком падеже стоит слово однословного запроса. Для многословных запрсов это уже могло играть роль, потому что Яндекс, а он об этом где-то пишет, может решить искать по каким-то устойчивым сочетаниям не склоняя-спрягая.

pro-maker:
По Вашему примеру собственный вес устанавливается для словоформы, соответствующей разным нормалям - "почта", "почитать", "почтить", "почти".



Думаю, что и раньше по разным падежам были разные результаты, но значимость точного соответствия была ниже и проявлялось в глубине серпа, поэтому на это не обращали внимания. Собственно, в поиске, разделив выдачу по точному соответствию, можно усложнить оптимизацию. Скорее всего, в Яндексе предусмотрена возможность изменения влияния словоформы в зависимости от запроса.

ну я подробно описывал пример с запросом радулова, по которому, насколько я помню, раньше у яндекса и гугла были результаты похоже. теперь они в корне разъезжаются, и лезут наверх в основном не очень цитируемые ресурсы, вот подробно у меня здесь расписано звиняйте долго копипастить

Skyter:
pro-maker, зачот!!!

это что?

конечно, один запрос не показателен, но все же. может у кого-нибудь есть и другие примеры.

хммм.... может все-таки стали учитывать с разными весами?

ведь вроде бы раньше не было такого, что запросы по словам в разных падежах давали разные результаты? такое ощущение, что что-то в этом направлении подкрутили, хотя может простого объясннения и нет.

Seventh Son:
Леня, я не очень уловил мысль.
Можно поподробнее, плз.

ну совершенно явно учет словоформ, хотя это было до предыдущего апдейта и что-то отвалилось с учетом ссылок, хотя, возможно, что отвалилось. у меня слишком мало данных, чтобы утверждать наверняка.

Всего: 444