Мы плохо, ой, плохо разбираемся в интернет-бизнесе. Но считаем, что в дальнейшем такой проект действительно сможет приносить прибыль.
Про копирайт и ссылки выдачи - это шутка? ;-)---------- Добавлено в 12:14 ---------- Предыдущее сообщение было в 12:03 ----------
Про "таксы" и "такси" - это у нас с ранжированием результатов имеются некоторые проблемы. Порешаем. Да, используем стемминг и морфологию, и нормализацию, и fuzzy. Всё сделали сами. AOT смотрели, показалось, что сможем сделать лучше. Просто посмотрели на словари, оценили производительность - не понравилось. На сегодня, к примеру, мы нормализуем килобайт текста за сотые доли секунды. А "таксы" получилось из-за функции fuzzy - исправления опечаток и орфографических ошибок.---------- Добавлено в 12:24 ---------- Предыдущее сообщение было в 12:14 ----------
Пользовательский поиск Гугла не даёт желаемых результатов. К примеру, мы индексируем активные форумы и доски объявлений несколько раз в сутки (да хоть бы и раз в час, и чаще) - Гугл этого не делает. Мы парсим доски объявлений - Гугл этого не делает. Мы имеем возможность управлять выдачей результатов - Гугл нам этого не даёт.
Наконец, мы имеем возможность проделывать всякие аналитические штуки с накопленными данными - иначе вместо нас это делает Гугл.
Да и просто интересно было написать поисковую машину. Уж, уверяю, полученный опыт точно пригодится в будущем. Да хоть бы и та же морфология...
По поводу клоноводства: этот топик создавал наш коллега. Ввиду того, что обсуждаемые здесь вопросы по ряду причин оказались более интересны мне, чем ему, далее вместо него с Вами общаюсь я.
Спасибо.
По поводу выдачи результатов, кривизны поиска и т.п. Уважаемые! Весь этот поисковик в основном делается двумя системными программистами, с каким-то там, более, чем 15-летним опытом, но мы никогда раньше не делали веб-проектов. Потому и веб-морда - кривая. Кроме того, http://sevpoisk.com мы постоянно ковыряем "на живую", что-то исправляем, что-то ломаем. От бедности ;-), конечно: нет возможности соорудить адекватный отладочный сервер.
Не судите строго то, что Вы видите по реальному поиску на http://sevpoisk.com, Уважаемые.
Мы делаем этот проект уже полтора года, этого времени уже жалко, потому до ума мы его доведём - ну точно.
И, вот поверьте, нам хотелось бы не пиариться здесь, а обсуждать, просить совета, быть может - кому-то чем-то и помочь...
А поиск по инету (по сайтам) сейчас не работает (и ещё день-два не будет работать), так как мы полностью перестраиваем индексы.---------- Добавлено в 15:43 ---------- Предыдущее сообщение было в 15:35 ----------
Большое спасибо. Изучаю.
Здравствуйте. Я - один из разработчиков этого "поисковика" ;-). Прокомментирую, если позволите:
В Севастополе не менее 4000 сайтов, примерно 2000 мы индексируем в тестово-отладочном режиме. Это около 2 млн. страниц. Ещё насобиралось за полтора года около 500 тыс. частных объявлений. Весь скачаный контент мы сохраняем. Полный размер базы - около 200 GB.
Тематический поиск - в разработке.
Порекомендуйте, пожалуйста, что нужно, на Ваш взгляд, сделать, чтобы там было, что делать обычным людям? Мы понимаем, что нужно работать над качеством и скоростью поиска, а ещё?
А там потому что был Жан Рено ;-) Но сниппет сформировался некорректно, это - баг, исправим.
Да, транслитерация. И в запросах, и в индексе. Это - плохо?
База - Oracle. Всё написано в Oracle на PL/SQL и Java. В перспективе, если возникнет необходимость, перепишем на Postgree или MySQL.
С релевантностью - у нас пока всё по-простому: находим наиболее релевантные сайты и возвращаем с них наиболее релевантные документы. Надо что-то думать с этим, но пока - так. Много времени ушло на повышение качества краулинга и индексирования - очень мешало всякое SEO. Как-то победили эту проблему - сейчас занимаемся качеством поиска.
Есть опыт. Есть работающий прототип. Даже почти beta. http://danvit.net
Затраты: полтора года, 3 программиста, в качестве хобби, можно так сказать.
Если в деньгах: порядка $10.000 - $30.000 на программирование.
$2.000-$3.000 - на железо, канал и т.п.
Здравствуйте. Я - один из разработчиков этого безобразия. С Вашего позволения, прокомментирую:
В Севастополе (имеют отношение к Севастополю) не менее 4000 сайтов Мы в ходе тестов индексируем порядка 2000. Это - около 2 млн. страниц, за полтора года насобиралось порядка 500 тыс. частных объявлений. Скачанные странички храним в сжатом виде в базе. База с индексами и проч. "весит" около 200 GB. Над тематическим поиском работаем. Вероятнее всего, будет поиск по каким-то таким разделам, как новости, городская администрация, политика, образование, здоровье, развлечения... ну и т.п.
Мы - системные программисты, не умеем делать сайты, увы. В ближайшем будущем рассчитываем исправиться. А что, на Ваш взгляд, могло бы быть полезно для обычных людей? Ну, понятно, чтобы релевантно искало, быстро искало... Это - сделаем. А ещё? Спасибо.
А там в 24 позиции Жан Рено представлен ;-) А вот почему сниппет некорректно отработался - это баг, спасибо, отработаем.
Да, транслитерация используется при поиске (и индексировании). Это сильно плохо? Гугл и Яша, например, на запрос "Nokia" находят и Нокиа...
Что же качается именно Вашего запроса - ну, как-то не попадалось нам, значит, сайтов в индексе с ТАКИМИ словами... Хотя, может, где-то и фильтр на подобную лексику - вроде, делали, посмотрим.
У нас пока как-то всё иначе... Мы ищем самый релевантный сайт, а с него - выдаём ссылку на самый релевантный документ. Релевантность считаем - по-простому ;-) : отношение кол-ва вхождений к общему количеству слов... Криво, что-то будем думать...
База - Oracle, пишем исключительно в его средствах: PL/SQL, Java. Под Oracle нам писать было удобнее, когда начинали. При необходимости в перспективе переедем на PostgreSQL или там на MySQL - это вполне реально.