ХорошийЧеловек

Рейтинг
26
Регистрация
27.06.2014
alaev:
Глянул через линкпэд доноров сайта, ссылки сняты, но на некоторых страницах есть ссылки на другие сайты. 99% продвигали сеопультом этот сайт.

А ведь да, ТС подтвердил это. Сейчас смотрю ахрефсом - очень похоже.

sear4er:
А зачем работаете с ними? Неужели их поступок пару лет назад никого не научил?
http://zeon18.ru/noutbuki/ вы лучше попросите их чтобы они оптимизацию маломальскую сделали :D Вместо того, чтобы присылать такие "отчёты" )))



П.С. Хорошая оплата за пдф файл с графиками ))

Кстати, там в pdf есть инфа о том, что было проставлено 4900 ссылок на sape, теперь можно пойти в ahrefs и посмотреть где закупается Демис.

Bazist:
На диске это линейный массив блоков. В ОЗУ это дерево.



Если в существующий индекс добавить 1 000 000 сайтов, то:
1. Все данные будут вставлены в ОЗУ, максимально быстро.
2. Два индекса, существующий на диске и тот который новый в ОЗУ будут смержены. Мерж индексов по сути означает что они будут дефрагментированы и перезаписаны на диске в один монолитный индекс.

В линейном массиве блоков данные хранятся в виде B+ дерева или линейного отсортированного массива? :)

У Вас ОЗУ используется как кэш или полностью дублирует индекс с харда?

Я к чему спрашиваю... Чтобы найти ноду с нужным значем на харде и вставить ее в дерево, нужно бежать по линейному массиву на харде искать ноду или обходить дерево и далее найденную ноду вставлять в дерево в ОЗУ.

У Вас диплом, исследовательская работа или диссер?

Bazist:
Используется Trie и NoSql база данных собственной разработки.
Она значительно быстрее работает чем существующие решения.
Например стандартный std::map из С++ построенный на красно черных деревьях превосходит в среднем по скорости в 5 раз. Достаточно легко оперирует таблицами в которых десятки и даже сотни миллионов ключей ( что важно для поисковиков )
Подробней еще здесь: http://blog.pikosec.com/?p=55



Индекс делится на две части. На тот что лежит на диске и тот что в ОЗУ. Новые страницы попадают в ОЗУ. Когда лимит выделенный на ОЗУ превышен, часть индекса из ОЗУ мержится с дисковым индексом и ОЗУ очищается.



Благодаря хорошей степени сжатия, индекс часто удается весь вытянуть в ОЗУ. Например расчет такой. На 56 ГБ проиндексированого контента индекс в районе 500-600 мб. На рабочей машинке сейчас 8 ГБ ОЗУ. Следовательно в ОЗУ можно разместить индекс сразу на несколько крупных ресурсов, вроде серчэнжин. Когда данные в ОЗУ, вопрос с фрагментацией уже не актуален.

Я имел ввиду, например, у Вас есть индекс и Вы его храните в базе данных, которую Вы разработали (NoSQL).

Пусть даже уже что-то в ОЗУ подгрузилось или хранится на диске - не важно.

1) Индекс у Вас расположен в отсортированном в линейном массиве или B+ дереве?

Т.е. вот сделали запрос однословник - Вася. Код посчитал хэш и пошел гулять далее по линейному отсортированному массиву искать или обходим B+ деревья. Т.е. Какая реализация ?

***

Например, Вы еще проиндексировали 1 000 000 сайтов и добавили информацию в индекс. Если индекс строили с нуля, то один вопрос, если вставляли в текущий индекс, то вопрос:

2) Как боритесь с фрагментацией?

Потому что при вставке начинается все равно внутренняя фрагментация данных.

Zegeberg:
Позвольте философии, Насколько продуктивна свинина, как продукт питания? Зависит от того, сколько съесть, какой и как часто, так же и про ссылки-картинки - могут быть продуктивны, могут быть вредны, могут работать только для своего "эго".

Наблюдаю два проекта. Один в гугл вошел в топ по ВЧ,СЧ,НЧ имея сквозняк (картинка) с тематики. Второй в топ яндекс по ВЧ тоже сквозняк (картинка) с тематики с картинки (2 сквозняка). Оба проекта молодых.

tysson:
Я прошел! Теперь выступление перед инвесторами в Москве. Думаю, что в Москву не поеду, буду выступать онлайн! здесь

Хотя народ едет со всей страны. Не много конечно, думал, что допустят больше! Есть любопытные, как например сеть томографов. В это дело я бы сам вложился, были бы бабки!

Успехов! Не забывайте головой кивать во время важных моментов. На подсознательном уровне это говорит человеку, который слушает, да, да, да....!

Частично просмотрел. Судя по всему проект делаете с нуля.

1) Какую хэш функцию используете: свою, известный алгоритм или дернули из какого-нибудь gnu проекта?

2) Индекс хранится отсортированным в линейном массиве или используете B+ деревья?

3) При обновлении индекса создаете новый и работаете по нему или идет вставка в существующий индекс?

4) Как боритесь с фрагментацией данных в хранилище (там где хранится индекс)?

Bazist:
Чем оно лучше Сфинкс, Люсена, Ксапиан и других подобных опенсорц проектов ?

Вот так глубоко не капал. Поэтому и спрашиваю.

Еще такой вопрос:

Вы архитектуру с нуля разрабатывали и с нуля код писали или форкнули что либо?

Bazist:
Начало темы было здесь: /ru/forum/832998
При попытке добавить сообщение, пишет что эта тема "слишком старая",
поэтому создал тему продолжение.

Итак, готова версия движка на основе ассоциативного поиска,
которая подымает ассоциации не только на основе единичных слов, но и на основе фраз. ☝

Напомню, что в некоторых тестах, движок зарекомендовал себя как более интеллектуальный, не уступающий алгоритмам гугла в некоторых кейсах:
http://blog.pikosec.com/?p=72
(по-моему субьективному мнению, естественно)

Таким образом это уже в какойто мере полноценный движок, с достаточно сильными релевантными алгоритмами. Он еще плохо оттесан, но он уже работает:

http://booben.com/?q=%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D0%BD%D0%B0%D0%B2%D1%82&s=sql.ru

Следующий этап, тюнинг движка и, возможно, движение в сторону селекторных запросов, запросов с выделением фактов из страниц и предоставления их в табличном виде.

PS: Прошу прощение у всех кто мне писал в личку или на мыло, освободился и добрался до проекта только сейчас.

Ветку не читал,

Давно уже есть вот такое опенсоурсное решение:

http://www.opensearchserver.com/

Без суппорта можно просто скачать, изучать и использовать.

Можно под себя подделать формулу ранжирования.

Данный проект изучали?

betauser:
нет, там только WMB

Должны же быть обменники, которые меняют WMZ на WMB.

Т.е. 1) обменять 2) Купить за WMB.

Всего: 260