Комментарии - seodev - Профиль вебмастера - Форум об интернет-маркетинге

29 мая 2006, 21:38

Приятно, конечно, стать объектом цитирования, но первая ссылочка ИМХО немножко не подходит под данную тему.

По поводу зиг-загнутых джойнов и само-инвертированные файлов. Несомненно для достаточно длинных (избирательных) запросов разрезание инвертированных списков на куски ускоряет процесс пересечения списков и довольно прилично экономит память. Под достаточно длинным я понимаю такой, у которого после выборки и пересечения N ключевых слов образуется небольшое количество диапазонов номеров документов, в которых могут быть результаты. Тогда, в процессе пересечения с последующими инвертированными списками (с номерами N+1, N+2, ...) не нужно будет вытаскивать списки целиком, а только кусками. В принципе, N может равняться и 1, если в запросе есть достаточно низкочастотное слово.

Проблема в том, что это экономия "в среднем" в худшем случае, всегда можно подобрать запросов из частотных слов, когда эта технология окажется бесполезной и на запросе из 5-10 слов. Что делать с такими тяжелыми и не очень запросами - большой вопрос, но в целом техника эшелонирования (pruning) должна помогать.

Еще одна модная тенденция заключается в том, чтобы разрезать индекс на примерно одинаковые куски, каждый из которых кешируется на 80-90%. Сейчас это стало недорого, благо 4гига памяти воткнуть в машину - не проблема. А в 4 гига памяти можно лего уложить индекс

8 гигов чистого текста, ну или примерно 2-4 млн средневебовских документов. А когда индекс хорошо закеширован, то зюгзаги работают очень хорошо, не сравнить со случаем, когда это все с диска загружается, потому как чтение с диска с небольшими, скажем по нескольку сотен байт пропусками фактически не быстрее, а иногда даже медленнее, чтения всего файла последовательно.

pelvis:
http://www.megawap.ru/~wap/dev/approximate_search.htm
http://cito-web.yspu.yar.ru/link1/metod/theory/node35.html
Для начала вот это.

Решение для индексирования?

29 мая 2006, 07:08

А является ли Яндекс-сервер по-настоящему масштабируемым. В документации про это ничего не написано.

evening:
EvM, Вашу задачу с высокой вероятностью решат 3-4 Яндекс.Сервера http://company.yandex.ru/technology/. В бюджет уложитесь с запасом.

Google чистит базу?

26 мая 2006, 10:06

меня просили пример привести, я привел, лично я эту утилиту не использую... я лишь хотел проиллюстрировать, что такие утилиты адекватные оценки снизу могут давать. а так этих утилит в интернет, еще раз повторюсь, довольно много.

motorhead:
этож баянище, да и сам Barry Schwartz сказал, что сделали они эту тулзу ради прикола

Google чистит базу?

26 мая 2006, 09:28

в общем, на самом деле, это все уже не важно. посмотрим выше пост человека, у которого выпала только морда с pr 6 :-) мы все просто жертвы калифорнийских жуков. и питаются эти жуки, к сожалению, не растительной, а духовной пищей.

Google чистит базу?

26 мая 2006, 09:27

ну правильно, получается оценка снизу. тема паче, если у человека получается почти шесть, то это шесть и есть. более того, я приведу пример из жизни. у меня есть сайт похожей тематике с точно таким же тыц яндексовым. у него pr 6, у меня 5. тулза мне показывает 6 для моего сайта. что очень показательно, потому как, в действительности, несмотря на различия в деталях ранжирования, гуглевый pr очень сильно коррелирует с яндексовым тыцем. что и не удивительно.

Zero:
А вот "некоторое количество самых больших" Гугл почему-то зачастую прячет по-дальше;) , а вместо этого по link:this_super_puper_domain
выдает муть разную 2,3...:)

Что вы думаете по поводу поста Mutt Cutts?

26 мая 2006, 09:20

msv, дышите глубже.

а если я сказал к теще, значит к теще :-) (c)

очевидно, что жестких критериев нет.

их поисковик, они и будут решать, что нормально, а что нет.

и будет куча, в том числе несправедливо обиженных.

а мы можем только выйти на демонстрацию протеста.

но, с другой стороны, их тоже можно понять: со спамом рано или поздно придется бороться, хотя вот не согласен, что нужно бороться включением-исключением. вполне можно очень немножеко понижать такие страницы, не считать с них ссылки, запихивать во второй эшелон, итд. но это толькое мое ИМХО. а у гугля оно другое.

не забывайте, что всякая тонкая настройка-подстройка требует огромных усилий, а задача любого коммерческого предприятия не строить коммунизм на земле, а зарабатывать деньги. они тривиально оптимизируют :-)

msv:
не нормально для кого?

Google чистит базу?

26 мая 2006, 09:15

первопричина здесь ;) ;)

Lolo:
у меня вот выпала морда старого сайта с шестеркой.
несколько сотен страниц в индексе сидят себе нормально, а морда пропала. Все, что от нее осталось - зеленая шестерка на тулбаре...
понять бы с чем это хоть связано может быть?

Google чистит базу?

26 мая 2006, 09:13

Zero:
А что толку-то?
Яха может тоже посмотреть беклинки.
Вот пример: за почти 5 лет существования сайта, Яха знает около 120к линков на сайт, Гугл менее 20к линков!
Это много или мало? При этом Pr морды 5, ну может с копейками.:)
Тема достаточно конкурентная, сайтов с параметрами куда лучше - пруд пруди.
Ну вот как тут какая-то тулза может определить реальный PR?

очень даже просто (с точностью до некоторых арфиметических операций, сами понимаете подробностей PR не помню):

на бис исполняется оператор

link:this_super_puper_domain

вытаскиваются эти самые линки, если их много, то некоторое количество самых больших. вытаскиваются pr страниц (тоже из гугля), с которых идут линки, вытаскиваются сами страницы, чтобы посчитать outbound links на каждой из этих страниц. итого получаем массив данных

(pr_i, num_links_is)

дальше читаем pagerank explain, например, здесь: http://www.iprcom.com/papers/pagerank/src_13

Google чистит базу?

26 мая 2006, 08:41

Zero:
Да нет, исследования в этой области сейчас бесполезны имхо.
Раньше в беквардах Гугл четко отображал лишь ссылки с PR = или > 4 ну и соотв. учитывал вес.
Сейчас вооще не понятно, что он там показывает и как он что учитывает.
Так что говорить, что тулза круче Гугла по меньшей мере наивно.

нет-нет, я не говорю, что круче. просто я имею в виду, что тулза может взять и посмотреть беклинки, и предполагаю, что PR рассчитывается так, как это указано в в статье, предположить следующее его значение. сейчас исследования может и бесполезны, но речь шла ведь о PR до начала выкатывания бигдедди. ведь именно на основе этого PR гуглевцы решали, что переиндексировать основательно, а что нет. а новый PR они, ИМХО, получат, когда переиндексируют все, что задумали переиндексировать.

утилит таких очень много, например, вот такая

http://www.rustybrick.com/pagerank-prediction.php

о какой именно писал автор с VMW я не знаю

Google чистит базу?

26 мая 2006, 08:30

Человек утверждает, что оценки этой тулзы очень часто совпадают с реальным гуглевым pr при следующем апдейте. А почему Вы думает, что Гугль оценивает абсолютно по-другому. У Вас есть ссылки на какие-нибудь исследования в этой области? (сейчас сам пойду поищу)

Zero:
Ну тулзы-то оценивают, только жаль Гугл об этом не знает😂
Он оценивает абсолютно по-другому.
Достаточно сравнить беки по Гуглу и Яхе.
Никому в этом мире низзя верить!😂

Open AI тестирует память для ChatGPT

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

seodev