Сколько стоит разработать и раскрутить поисковик?

L
На сайте с 02.05.2004
Offline
35
#81
L78:
С деньгами все понятно, но строить тоже самое что яндекс, рамблер, гугль, апорт, или вебальту бесперспективно, одна аренда под сервера и персонал 10000$ набежит+электричество и З/П около 40000$ в месяц...☝

Тоже самое и не получится :) И смысла не имеет строить конкурирующий поисковик по рунету. А вот строить тематический поисковик на базе нашего SearchInform Internet Server-a очень даже имеет, потому что поиск по тематическому поисковику всегда по определения будет лучше чем по общему хотя бы из за того что никто тематический поисковик спамить не будет.

А вот тут то уже и критично число серверов и т.д. которые очень даже стоят деньги. А наш основной конек это производительность, которая позволит имет намного меньше железа, чем если например использовать nutch lucene и т.д......... И в конечном итоге на больших объемах получается что дешевле заплатить пару сотен килобаксов за платное решение но сильно сэкономить на железе и в итоге стоимость железа + софта у нашего очень даже платного решения получится дешевле.

К примеру мы для себя построили тематический поисковик где около 1500 софт каталогов -- так вот это примерно 10 миллионов страниц. И все это крутится на одном серваке. Объем данных около 500 гиг. Полный цикл переиндексации примерно 4 дня. Естественно для коммерческого использования надо иметь минимум 3 таких сервака, чтобы один работал постоянно на индескирование а 2 на поиск. А туда еще по уму надо доавить вагон форумов, блогов, айти прессы и т.д. И будет уже это счастье как раз под 100 млн страниц, а это уж никак не 1 сервак...... ну это я так для инфы привел реалии, так как есть шанс что мы в следующем году поставим на хостинг площадке пару десятков серверов и сами будем запускать такой вот айти поисковик.

Но делать мы это будем реально чисто для облегчения работы своего отдела маркетинга и для повышения узнаваемости брэнда -- так как целей его раскрутить пока не ставим. Поэтому если кто то захочет сделать такой поисковик, зная как его грамотно раскрутить, то мы с большой радостью выступим просто поставщиком решения, не влазя в область раскрутки.

Leo www.searchinform.ru (www.searchinform.ru)
M
На сайте с 29.03.2003
Offline
65
#82
Leom:
А вот строить тематический поисковик на базе нашего SearchInform Internet Server-a очень даже имеет, потому что поиск по тематическому поисковику всегда по определения будет лучше чем по общему хотя бы из за того что никто тематический поисковик спамить не будет.

Брехня, таки спамят. Если не спамят, то поисковик настолько убог, что даже спамерам не интересен :)

Leom:

А вот тут то уже и критично число серверов и т.д. которые очень даже стоят деньги. А наш основной конек это производительность, которая позволит имет намного меньше железа, чем если например использовать nutch lucene и т.д......... И в конечном итоге на больших объемах получается что дешевле заплатить пару сотен килобаксов за платное решение но сильно сэкономить на железе и в итоге стоимость железа + софта у нашего очень даже платного решения получится дешевле.

Вообще делать какой-либо публичный поисковик, который будет конкурировать с кем-то, на базе закрытой системы - заранее обрекать проект на неудачу в перспективе. Там, где есть конкуренция, там обязательно придётся "довешивать" к поиску новые фичи и фишки, причем регулярно и адекватно конкурентам. С закрытой чужой системой это делать напорядок сложнее. А nutch и lucene через год заматереют сильнее, да производители выпустят новые линейки писюков помощнее, но вот вы свой код через год не откроете, да и в TREC участие тоже не примите... :)

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
L
На сайте с 02.05.2004
Offline
35
#83
Maxime:
Брехня, таки спамят. Если не спамят, то поисковик настолько убог, что даже спамерам не интересен :)

Вначале надо спросить бы про цели построения поисковика. Если вы имеете ввиду чтобы на нем был вагон пользователей и зарабатывать на рекламе, то да если он будет успешен то будут спамить. НО -- есть второе применение более интересное -- кокурентная разведка -- то есть такой вот вертикальный поисковик строится условно говоря для 20 аналитиков.

Пример практический -- блоги форумы, айти пресса где идет речь о конкурентах или о нужной теме -- встревать вовремя в нужную ветку -- поверь это интересует ну очень большое число компаний. Создание информационного пространства -- сильная вещь. Советую почитать новый роман Сергея Минаева " медиа сапиенс" прежде всего первую часть -- там хоть и фантастика но много полезного. Так вот наш инструмент для построения информационного пространства самое то.

Maxime:

А nutch и lucene через год заматереют сильнее, да производители выпустят новые линейки писюков помощнее, но вот вы свой код через год не откроете, да и в TREC участие тоже не примите... :)

А ну пусть матереют -- даже интересно будет, а то сейчас как то совсем в разы разница. Один независимый пользователь уже получил результаты (без его согласие не имею права разглашать его имя). Так вот Люцен индексировал 16 часов а мы 6 часов, хотя объем там был не самый большой -- чего то типа 3 млн страниц. Причем там 3 млн файлов в лоб на диске. Чисто открытие и закрытие 3 + млн файлов это уже часа 2 когда диск фрагментирован. Если же их скомпоновать хотя бы в архив то я почему то уверен что было бы 12 часов у Люцена и 2 часа у нас -- то есть разница была бы уже не в 3 а в 6 раз. Ну а при проектировании большой системы естественно маленбкие файлы в лоб на диске никто не хранит. А если запустить на например 10 млн. страниц то разница будет раз в 10 :)

Это все из стиля что вот надо преодолет 10км. В принципе можно и бесплатно прйоти за 2 часа пешком, а можно и взять такси и заплатить например $10. Если есть время и не надо что то делать быстро то конечно проще потратить 2 часа времени и сэкономить $10? особенно если час времени стоит $1/ Но вот если час времени стоит например $20 то уже дешевле заплатить за такси.

Или продолжая аналогию. 10-20км еще можно думать чтобы пройти пешком, а вот если надо пройти 1000км. -- то уже вариаций нет и хоть и дорого но надо будет платить за такси. Есть правда еще вариант самому разрабоатать двигатель и т.д. -- но не факт что это будет дешевле и вообще будет работать. А коммерческу. версию прежде чем покупать всегда можно бесплатно потестить :)

Andrey Ogarok
На сайте с 10.07.2007
Offline
49
#84

Вопрос поставлен крайне неопределенно. Поэтому и ответы такие. Для того чтобы оценить стоимость поисковика, нужно ответить на ряд вопросов:

- лингвистические функции поисковика (только ключевые слова или еще и семантика) ;

- технические требования (скорость индексации, объем интексируемых текстов, интенсивность потока запросов пользователей и т.п.).

Так как ответы на эти вопросы не определены, то могу сказать, что стоимость разработки поисковика может составить:

- практически около нуля (см. статью как сделать поисковик средствами windows - http://www.lghost.ru/lib/samag/content/2004/samag_08_21/samag8(21)-61-65.pdf );

- несколько тысяч у.е. (на базе открытых проектов) при использовании общедоступных исходных кодов стандартных поисковиков;

- нескольких миллионов у.е. - именно во столько обошлась разработка вопросно-ответной поисковой системы www.asknet.ru .

Здесь как в гран-при "формулы 1" для того чтобы получить небольшое преимущество надо вложить кучу денег. Правдо без этого непонятно зачем тогда вообще создавать стандартный поисковик. Пользователи на него не пойдут. Иное дело, если будут новые функции, фичи, которых нет в стандартных поисковиках. Например, как в www.asknet.ru - фича: задаете вопрос (типа - когда родился Пушкин) и получаете ответ (в 1799 году). Для прикола сравните что дает Яндекс при вводе запроса когда родился Пушкин.

Так что для ответа на ваш вопрос надо определиться с целью создания системы, ее функциями и ТТХ изделия.

www.asknet.ru (www.asknet.ru) - вопросно-ответная поисковая система. Автоматические ответы на вопросы пользователей.
L
На сайте с 02.05.2004
Offline
35
#85
Andrey Ogarok:
...., как в www.asknet.ru - фича: задаете вопрос (типа - когда родился Пушкин) и получаете ответ (в 1799 году). Для прикола сравните что дает Яндекс при вводе запроса когда родился Пушкин.
Так что для ответа на ваш вопрос надо определиться с целью создания системы, ее функциями и ТТХ изделия.

Андрей -- глянул -- интересная задумка, но пока я так понял что вы заточились сугубо под несколько вопросов. Я прав?

Ну например я дал запрос и к вам и к яндексу

Какие системы полнотекстового поиска есть в России

В итоге yandex:

----------------------

3. Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в ...

Описаны некоторые детали реализации полнотекстового поиска и ранжирования в Яндексе: особенности архитектуры выполнения запроса; параметризация поиска ...

Мы благодарны организаторам семинара не только за возможность сравнить полнотекстовый поиск Яндекса с другими системами, но и за настойчивость и ...

company.yandex.ru/articles/romip2004.xml · 21 КБ

4. Компьютерные Вести On-line. Тестирование программ для полнотекстового поиска

Специалисты из университета Висконсина провели тщательное, можно сказать, научное тестирование 12 утилит для полнотекстового поиска на компьютере.

Программы для полнотекстового поиска тестировались по шести критериям: точность, эффективность, универсальность и безопасность поиска, удобство ...

www.kv.by/index2005191103.htm · 25 КБ

5.CNews: Анонсирована новая версия программы для полнотекстового поиска ...

Компанией "СофтИнформ" выпущена новая версия программы SearchInform - корпоративной системы, предназначенной для полнотекстового поиска, а также ...

www.cnews.ru/news/line/index.shtml?2007/01/09/230484 · 39 КБ

------------------------------------------------

Ссылка 3 и ссылка 5 напрямую отсылают к системам полнотекстового поиска которые есть в России.

Теперь смотри по вам и к сожалению на первой странице нет прямой ссылки ни на одну российскую систему.

Или может я неудобный вопрос задал? :)

А вообще коллега задумка интересная, если доведете ее до ума. Вы как я понял в Москве? Я там с учетом того что один из наших офисов в Москве бываю очень часто. И с удовольствием готов с Вами пересечься где нибудь вечером за пивом -- думаю общие темы найдем :) Если будет желание пишите мне на leo собака softinform точка com

eN_Slon
На сайте с 13.02.2007
Offline
159
#86

добыть у меня. пишите в личку.

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.
Andrey Ogarok
На сайте с 10.07.2007
Offline
49
#87
Leom:
Андрей -- глянул -- интересная задумка, но пока я так понял что вы заточились сугубо под несколько вопросов. Я прав?

Leom. Вы только отчасти правы. Вопросно-ответная поисковая система asknet.ru реализована под список наиболее употребимых часто встречающихся ФАКТОГРАФИЧЕСКИХ (factoid) вопросов. Их список приведен здесь - http://asknet.ru/Technology/ListOfQuery.htm То есть система asknet на вопрос "какие" (Какие системы полнотекстового поиска есть в России) ищет ответы, в которых есть части предложения, являющиеся определениями (хорошие, плохие, многочисленные и др.). Мы и далее работаем над расширением семантической компоненты при оценке релевантности. Сейчас при ответе на этот вопрос (Какие системы полнотекстового поиска есть в России) asknet тоже выводит достаточно релевантные ответы: находит системы полнотекстового поиска GiST для PostgreSQL, и вашу SearchInform и т.д. Ваш пример неплохой, однако он относится не к вопросам фактографическим, а к вопросам нахождения списка. В конференции TREC, в которой система asknet неофициально участвовала, эти вопросы относятся к разным категориям: factoid и list соответственно. Возвращаясь к теме топика хотел еще раз подчеркнуть, что стоимость разработки поисковика зависит по экспоненте от ее функциональности. Насчет вашей компании - помнится я общался с вашими сотрудниками, когда еще руководил компанией Стокона, были интересные предложения. Думаю в Москве мы найдем не только холодное пиво, но и обоюдовыгодные проекты. Детали по e-mail.

S
На сайте с 08.06.2007
Offline
1
#88

Andrey Ogarok

Вот я видел на вашем сайте бизнес план.

Скажите как нужно представлять проект поисковик чтобы было больше шансов заинтересовать инвестора. Что их интересует? Какова компетентность инвесторов которые интересуются вложением в поиск?

Как действовать с вашей точки зрения?

L
На сайте с 03.05.2006
Offline
171
#89

У меня есть знакомыйй - он написал свой узкотематический поисковик. В индексе около 0.1 млрд записей. народу ходит много. Стоимость всего дела 1 руки.

Я тоже сейчас начал разрабатывать небольшой поисковичок, пока узкотематичный.

одна из самых трудных вещей на мой взгляд это работа с копирайтами. Я не гугл, и если придет какая судебная бумажка - я не смогу ни бабла откинуть ни адвоката нанять.

Какие фичи могут заинтересовать народ?

Например гугль-яндекс ищет, а если к поиску добавить анализ информации - то будет польза и интерес.

pelvis
На сайте с 01.09.2005
Offline
345
#90
luxs:
Какие фичи могут заинтересовать народ?

А вот это - правильный вопрос. Боюсь, что написать сейчас могут многие, вывести в свет единицы, а раскрутить пока нереально меньше, чем за 100 млн. Есть тому причины. Например: продвижения в поисковиках всегда взаимоисключающее. То есть, пока поисковик не будет мегапопулярен, не будет и интереса у вебмастеров и у маркетологов.

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий