XPraptor

XPraptor
Рейтинг
333
Регистрация
15.10.2004
Должность
Web Soft Developer
Интересы
Programming
sander:
XPraptor, читайте внимательнее
сайтов несколько (как минимум 2 то есть)

Вы читайте внимательно - Вы не поняли меня. Именно это я хотел сказать, что с кучи сайтов человек может разместить - либо с морды либо с внутренней, но с каждого из кучи - только с морды или только с внутренней, а не две ссылки с одного.

Человек, как я понял, может либо с морды одного сайта добавить ссылку, либо с внутренней этого сайта, но не вместе.

Если так, то ИМХО лучше только с морд. Какой бы не была тематической статья, но ссылка с ключевиками с морды - перевесит ее всегда (или почти всегда). Я так думаю, хотя, как сказали, многое зависит от ресурсов.

To Vetra:

Да какая разница что побанили? Глюки у Яши есть и в этом вся беда. Мои несколько сайтов стоят на статике без добавления бэков и каждый ап скачут туда обратно (+ - 120) при этом в статистике бэков ничего не меняется. Это что? Типа сайты которые на меня ссылаются один месяц плохо поступают, на следующий исправляются, а потом опять месяц плохо поступают? Так получается :)

Да сама система протоколов и http и smtp ущербна. Сейчас уже нужно вводить новые правила и возможности, а то "плохие" парни уже достали со своей активностью.

Меня в прошлом месяце хостер опять чуть не закрыл за "спам" (каждые 2-3 месяца какая то сволоч рассылку делает, а обратку ставит мои e-mail). А свой сайт я постоянно нахожу в левых каталогах с левым описанием раза 3-4 в месяц.

Поэтому пора менять протоколы и правила, а не роботов писать глючных.

Кева плохому не научит. :)

А на счет лемм - то слова приводятся к лексемам, а не к лемам. Сразу видно ни один программер не участвует в обсуждении, а так бы давно поправил.

Причем, для словосочетаний - вычисляется их общая аддитивность по каждому слову и каждой лексеме от слова, а для одиночного слова - только найденные лексемы. Поэтому выдача должна быть практически одинаковой для разных падежей, так, как лексеммы будут практически одними и теми же (за редким исключением, которое и может изменить выдачу).

Вот если принудительно заставить алгоритм искать соответствие без лексем то тут уже будет конкретно разная выдача.

Я полгода потратил на изучение морфологии и анализа словоформ, чтобы написать к своему софту морфоанализатор средненький. А у Яши я думаю помощнее будет морфософт.

Глянул я его обращение на cobr-у свою - мало отсылает, ничего серьезного не перешлешь в таком объеме. Даже если и шлет описание машины и системы для сбора статистики - то ИМХО криминала нету никакого в этом, пусть смотрят и статистируют. Может чего хорошего напишут для людей.

Сегодня наконец то свершилось! Закончил индексить мои 1.2 Терабайта (терабита по привычке в посте написсал, все в инет трафике мерию). 12 дней понадобилось ему чтобы забить все мои файлы в индекс. Странно, но размер индекса не такой уж и большой 1.5 гигабайта. Я думал будет больше гораздо (я его заставил искать во всех файлах и в архивах и в .chm).

VipRaskrutka:
Неделю назад тож поставил сие чудо, а также гуглевое, так они одновременно двоем за ночь проиндексировали винт 50 гигов (заполненный на 55%) без всяких проблем.

Не смеши :) У меня на работе 80-и гиговый за пару тройку часов проиндексил в перерывах на мои перекуры.

У меня на домашнем 1,2 Террабита 70% заполнения более 26 миллиардов файлов (это я как то каспером делал полную проверку на вирусы, 5 суток без выключения рыл, но справился без вылетов и ошибок).

А ты 50 гигов - смех :)

ewg:
У меня этот поиск вторую неделю никак не может индексацию завершить... База уже больше 3Гб и конца пока не видно. Интересно, она в итоге будет такого же размера, как и вся остальная информация на винте? ;)

Это не показатель, я на принудительную ставлю уже третью неделю - и конца не видно. Да еще при принудительной через каждые час полтора, оно вылетает по ошибке критической, и снова нужно запускать. Интересно вот, а после вылетов, оно сохраняет что до вылета наиндексил, или я по кругу гоняю уже третью неделю? Как то я не допер засеч размер индексной базы. :)

Moonrainbow:
Есть интересная статья на эту тему, почитайте, коли будет время

http://lasto.com/blog/post_1172846331.html

Вы вот привели цитату моего поста, а сам пост прочитать удосужились? Там черным по белому написано - в Гугле сайт ведет себя как положено - всегда как был в топе так и держится без всяких скачков.

Только Яндекс издевается над ним.

А вы статью даете мне про гугл, поведение которого нормально поддается анализу, в отличие от яндекса.

Dybra:
Вполне может быть, что клеются однотипные или похожие страницы. Посколько слабо верится что 40к страниц сильно уникальны.

Нет, не клеются. Это справочник, и каждая страница содержит описание одной уникальной записи. Так что одинаковых страниц нет в принципе.

Но решение похоже уже озвучили здесь и не раз - новый сайт пока не обложен фильтрами и стартует с высоких позиций, а потом накладываются стандартные фильтры и сайт падает на то место, сколько сумел удержать контингента плюс внешние ссылки. Так как динамики на сайте нет, то больше никаких плюсов он получить не может.

Всего: 3323