Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

Пишу паука

31 января 2005, 10:52

Я так понял, что краулер качает страничку, обрабатывает ссылки, а индексатор, закачивает её опять (с мира или локального ресурса) и индексирует!

Не так. Краулер занимается и закачиванием документов, и извлечением из них ссылок. Индексатор создает поисковые индексы, по которым идет сам поиск.

Слонжовато писать на Сях, Си, как известно, не поддерживает строки и, следовательно, остожняет разработку! Подумывал писать на Python-е, но Питон плохо знаю и потом, он скриптовый!
Что посоветуете? Учить питон (забросить Си) или все же мучиться! Это чисто моя инициатива - создать паука для зоны Уз!

Используйте C++, там есть библиотеки STL для работы со строками.

Пишу паука

30 января 2005, 21:48

1. Можно ли использовать MySQL базу для хранения данных?

Конечно, можно.

. как лучше хранить данные? (урл - слово или урл - фраза)

Вы паука хотите написать или что-то другое? Или какое отношение к нему имеет "слово" или "фраза" ?

ht://Dig vs. AspSeek vs. mnogoSearch

26 января 2005, 10:58

И каков объём Меты ?

Около 6 млн документов. Точнее скажут только они сами.

Есть подозрение, что ваши представления о возможностях MySQL и PgSQL несколько устарели

Дело не в возможностях этих БД. Поисковый индекс все равно нужно как-то закладывать в базу и создавать в ней индексы с координатами.

Я здесь неоднократно говорил, что универсальные БД не должны использоваться для поисковиков.

ht://Dig vs. AspSeek vs. mnogoSearch

26 января 2005, 10:20

Я сам с Украины, и хорошего отечественного поисковика нет на просторах Уанета, а жаль...
Может ли какой либо движок превзойти по качеству поиска украинскую поисковую систему meta.ua

На этих движках поисковик с объемом Меты поднять нереально - база быстро ляжет.

Возможно ли, на каком либо из упомянутых движков создать поисковую систему которая превзойдет по качеству поиска meta.ua и приблизиться хотябы на чучуточку к гуглу? "

Пока украинский интернет (и системы платежей) не слишком развит, нет смысла делать что-то выдающееся. Пока что это сильно убыточное мероприятие, которое могут себе позволить компании, которые основной доход получают от других видов деятельности, вроде бигмира. Даже если кто-то захочет инвестировать в такой проект, все равно нужен хороший бизнес-план.

Поиск по сайту

26 января 2005, 09:59

Наверное, на таком хостинге проще всего будет поставить поиск по сайту, прописав форму поиска на Яндекс или Google, чем найти такой php-скрипт.

Google Mini

17 января 2005, 14:13

Сомнительно. С ограничением в 50000 документов разница в быстродействиии будет незначительна.

Да, 50 тысяч - это не очень много.

Более того за указаную сумму вы сможете купить железо помощнее и год-два поддержки разработчиков mnogosearch или dataparksearch, без всяких ограничений на число документов

Нет, они же построены на использовании баз данных, поэтому ограничения будут уже на объеме в несколько миллионов документов.

нужен человек

11 января 2005, 09:01

john_helbert, для подобных объявлений есть специальный раздел - работа называется. Переношу снова.

Здесь подобные посты не приветствуются.

Пока устное предупреждение.

Помогите с движком

3 января 2005, 12:55

Формулировка "необходимо наличие" подразумевает, что без этого работать не будет...

Будет. ;) Zute, у myWebsearch четыре версии, на трех разных языках, внедрения более чем на 20 сайтах. Стандартная версия использует Беркли для хранения лексикона.

На этом предлагаю спор о том, какой поисковик лучше или хуже, закончить. Пусть человек сам определяется, что ему больше подходит.

Помогите с движком

3 января 2005, 11:05

Однако на странице http://mywebsearch.adelite.com/faq/ написано следующее

Зависит от версии поисковика. Вполне работает и без Беркли.

Подбор СУБД

2 января 2005, 14:22

Для информации, скорее всего известный вам поисковый движок "Сова" использует базу данных MySQL.

Я знаком с разработчиком search.com.ua (это и есть "Сова") Петром Власенко и эту информацию подтверждаю - действительно, здесь все построено на mysql.

Однако, несмотря на относительно небольшое количество документов (порядка нескольких миллионов), для нормальной работы пришлось раскидывать всю поисковую базу на сотню таблиц одинаковой структуры - поначалу потери в производительности были огромными.

Сейчас при посещаемости в несколько тысяч хостов Сова как-то все же работает, но очень медленно.

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Зачем быть уникальным в мире, где все можно скопировать

Vyacheslav Tikhonov