Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Я так понял, что краулер качает страничку, обрабатывает ссылки, а индексатор, закачивает её опять (с мира или локального ресурса) и индексирует!

Не так. Краулер занимается и закачиванием документов, и извлечением из них ссылок. Индексатор создает поисковые индексы, по которым идет сам поиск.

Слонжовато писать на Сях, Си, как известно, не поддерживает строки и, следовательно, остожняет разработку! Подумывал писать на Python-е, но Питон плохо знаю и потом, он скриптовый!
Что посоветуете? Учить питон (забросить Си) или все же мучиться! Это чисто моя инициатива - создать паука для зоны Уз!

Используйте C++, там есть библиотеки STL для работы со строками.

1. Можно ли использовать MySQL базу для хранения данных?

Конечно, можно.

. как лучше хранить данные? (урл - слово или урл - фраза)

Вы паука хотите написать или что-то другое? Или какое отношение к нему имеет "слово" или "фраза" ?

И каков объём Меты ?

Около 6 млн документов. Точнее скажут только они сами.

Есть подозрение, что ваши представления о возможностях MySQL и PgSQL несколько устарели

Дело не в возможностях этих БД. Поисковый индекс все равно нужно как-то закладывать в базу и создавать в ней индексы с координатами.

Я здесь неоднократно говорил, что универсальные БД не должны использоваться для поисковиков.

Я сам с Украины, и хорошего отечественного поисковика нет на просторах Уанета, а жаль...
Может ли какой либо движок превзойти по качеству поиска украинскую поисковую систему meta.ua

На этих движках поисковик с объемом Меты поднять нереально - база быстро ляжет.

Возможно ли, на каком либо из упомянутых движков создать поисковую систему которая превзойдет по качеству поиска meta.ua и приблизиться хотябы на чучуточку к гуглу? "

Пока украинский интернет (и системы платежей) не слишком развит, нет смысла делать что-то выдающееся. Пока что это сильно убыточное мероприятие, которое могут себе позволить компании, которые основной доход получают от других видов деятельности, вроде бигмира. Даже если кто-то захочет инвестировать в такой проект, все равно нужен хороший бизнес-план.

Наверное, на таком хостинге проще всего будет поставить поиск по сайту, прописав форму поиска на Яндекс или Google, чем найти такой php-скрипт.

Сомнительно. С ограничением в 50000 документов разница в быстродействиии будет незначительна.

Да, 50 тысяч - это не очень много.

Более того за указаную сумму вы сможете купить железо помощнее и год-два поддержки разработчиков mnogosearch или dataparksearch, без всяких ограничений на число документов

Нет, они же построены на использовании баз данных, поэтому ограничения будут уже на объеме в несколько миллионов документов.

john_helbert, для подобных объявлений есть специальный раздел - работа называется. Переношу снова.

Здесь подобные посты не приветствуются.

Пока устное предупреждение.

Формулировка "необходимо наличие" подразумевает, что без этого работать не будет...

Будет. ;) Zute, у myWebsearch четыре версии, на трех разных языках, внедрения более чем на 20 сайтах. Стандартная версия использует Беркли для хранения лексикона.

На этом предлагаю спор о том, какой поисковик лучше или хуже, закончить. Пусть человек сам определяется, что ему больше подходит.

Однако на странице http://mywebsearch.adelite.com/faq/ написано следующее

Зависит от версии поисковика. Вполне работает и без Беркли.

Для информации, скорее всего известный вам поисковый движок "Сова" использует базу данных MySQL.

Я знаком с разработчиком search.com.ua (это и есть "Сова") Петром Власенко и эту информацию подтверждаю - действительно, здесь все построено на mysql.

Однако, несмотря на относительно небольшое количество документов (порядка нескольких миллионов), для нормальной работы пришлось раскидывать всю поисковую базу на сотню таблиц одинаковой структуры - поначалу потери в производительности были огромными.

Сейчас при посещаемости в несколько тысяч хостов Сова как-то все же работает, но очень медленно.

Всего: 847