Scheglov

Рейтинг
0
Регистрация
13.01.2012
cscope:
Scheglov, вы считаете, что такой проект в дальнейшем может приносить прибыль?
P.S. поменяйте местами копирайт и ссылки на страницы выдачи.

Мы плохо, ой, плохо разбираемся в интернет-бизнесе. Но считаем, что в дальнейшем такой проект действительно сможет приносить прибыль.

Про копирайт и ссылки выдачи - это шутка? ;-)

---------- Добавлено в 12:14 ---------- Предыдущее сообщение было в 12:03 ----------

Sterh:
Судя по "таксы" вместо "такси" стемминг используете? А морфологию прикрутить не пробовали?
Вот тут есть демки и скачать кое-что можно: http://www.aot.ru/onlinedemo.html

Про "таксы" и "такси" - это у нас с ранжированием результатов имеются некоторые проблемы. Порешаем. Да, используем стемминг и морфологию, и нормализацию, и fuzzy. Всё сделали сами. AOT смотрели, показалось, что сможем сделать лучше. Просто посмотрели на словари, оценили производительность - не понравилось. На сегодня, к примеру, мы нормализуем килобайт текста за сотые доли секунды. А "таксы" получилось из-за функции fuzzy - исправления опечаток и орфографических ошибок.

---------- Добавлено в 12:24 ---------- Предыдущее сообщение было в 12:14 ----------

Appassionato:
Пользовательский поиск Гугла религия не позволяет использовать?
ЗЫ: здесь за клоноводство банят всерьез и надолго.

Пользовательский поиск Гугла не даёт желаемых результатов. К примеру, мы индексируем активные форумы и доски объявлений несколько раз в сутки (да хоть бы и раз в час, и чаще) - Гугл этого не делает. Мы парсим доски объявлений - Гугл этого не делает. Мы имеем возможность управлять выдачей результатов - Гугл нам этого не даёт.

Наконец, мы имеем возможность проделывать всякие аналитические штуки с накопленными данными - иначе вместо нас это делает Гугл.

Да и просто интересно было написать поисковую машину. Уж, уверяю, полученный опыт точно пригодится в будущем. Да хоть бы и та же морфология...

По поводу клоноводства: этот топик создавал наш коллега. Ввиду того, что обсуждаемые здесь вопросы по ряду причин оказались более интересны мне, чем ему, далее вместо него с Вами общаюсь я.

Спасибо.

По поводу выдачи результатов, кривизны поиска и т.п. Уважаемые! Весь этот поисковик в основном делается двумя системными программистами, с каким-то там, более, чем 15-летним опытом, но мы никогда раньше не делали веб-проектов. Потому и веб-морда - кривая. Кроме того, http://sevpoisk.com мы постоянно ковыряем "на живую", что-то исправляем, что-то ломаем. От бедности ;-), конечно: нет возможности соорудить адекватный отладочный сервер.

Не судите строго то, что Вы видите по реальному поиску на http://sevpoisk.com, Уважаемые.

Мы делаем этот проект уже полтора года, этого времени уже жалко, потому до ума мы его доведём - ну точно.

И, вот поверьте, нам хотелось бы не пиариться здесь, а обсуждать, просить совета, быть может - кому-то чем-то и помочь...

А поиск по инету (по сайтам) сейчас не работает (и ещё день-два не будет работать), так как мы полностью перестраиваем индексы.

---------- Добавлено в 15:43 ---------- Предыдущее сообщение было в 15:35 ----------

Sterh:
И вот рекомендую: Введение в информационный поиск - оч много полезного можете для себя найти.

Большое спасибо. Изучаю.

Здравствуйте. Я - один из разработчиков этого "поисковика" ;-). Прокомментирую, если позволите:

Agent12:
Идея интересная только действительно ли так много севастопольских сайтов чтоб по ним поисковик делать ?
Я бы кстати отдельно добавил поиск по новостям.

В Севастополе не менее 4000 сайтов, примерно 2000 мы индексируем в тестово-отладочном режиме. Это около 2 млн. страниц. Ещё насобиралось за полтора года около 500 тыс. частных объявлений. Весь скачаный контент мы сохраняем. Полный размер базы - около 200 GB.

Тематический поиск - в разработке.

Scaryer:
Выглядит (надеюсь, пока) как поделка развлекающихся программистов. Обычным людям там делать нечего.

Порекомендуйте, пожалуйста, что нужно, на Ваш взгляд, сделать, чтобы там было, что делать обычным людям? Мы понимаем, что нужно работать над качеством и скоростью поиска, а ещё?

Sterh:
http://sevpoisk.com/search?q=%D1%80%D0%B5%D0%BD%D0%BE&szMarket=1&pgCnt=25

24 позиция как затесалась?
ЗЫ: логотип интересный :)

А там потому что был Жан Рено ;-) Но сниппет сформировался некорректно, это - баг, исправим.

Scaryer:
malquem, при том, что выделено жирным шрифтом "кондиционер HYUNDAI HSI/HUI 09H99X инвертор". Транслитерация, однако.

Да, транслитерация. И в запросах, и в индексе. Это - плохо?

SeoProff:
Придать больший вес словам в title и в h1 и h2.

Ну и это TF-IDF юзайте. Проверенно. :)

На чем пишите?

База - Oracle. Всё написано в Oracle на PL/SQL и Java. В перспективе, если возникнет необходимость, перепишем на Postgree или MySQL.

С релевантностью - у нас пока всё по-простому: находим наиболее релевантные сайты и возвращаем с них наиболее релевантные документы. Надо что-то думать с этим, но пока - так. Много времени ушло на повышение качества краулинга и индексирования - очень мешало всякое SEO. Как-то победили эту проблему - сейчас занимаемся качеством поиска.

webistin:
У кого есть опыт?
Оценить затраты хотелось бы. На программирование и железо.

Есть опыт. Есть работающий прототип. Даже почти beta. http://danvit.net

Затраты: полтора года, 3 программиста, в качестве хобби, можно так сказать.

Если в деньгах: порядка $10.000 - $30.000 на программирование.

$2.000-$3.000 - на железо, канал и т.п.

Здравствуйте. Я - один из разработчиков этого безобразия. С Вашего позволения, прокомментирую:

Agent12:
Идея интересная только действительно ли так много севастопольских сайтов чтоб по ним поисковик делать ?
Я бы кстати отдельно добавил поиск по новостям.

В Севастополе (имеют отношение к Севастополю) не менее 4000 сайтов Мы в ходе тестов индексируем порядка 2000. Это - около 2 млн. страниц, за полтора года насобиралось порядка 500 тыс. частных объявлений. Скачанные странички храним в сжатом виде в базе. База с индексами и проч. "весит" около 200 GB. Над тематическим поиском работаем. Вероятнее всего, будет поиск по каким-то таким разделам, как новости, городская администрация, политика, образование, здоровье, развлечения... ну и т.п.

Scaryer:
Выглядит (надеюсь, пока) как поделка развлекающихся программистов. Обычным людям там делать нечего.

Мы - системные программисты, не умеем делать сайты, увы. В ближайшем будущем рассчитываем исправиться. А что, на Ваш взгляд, могло бы быть полезно для обычных людей? Ну, понятно, чтобы релевантно искало, быстро искало... Это - сделаем. А ещё? Спасибо.

Sterh:
http://sevpoisk.com/search?q=%D1%80%D0%B5%D0%BD%D0%BE&szMarket=1&pgCnt=25

24 позиция как затесалась?
ЗЫ: логотип интересный :)

А там в 24 позиции Жан Рено представлен ;-) А вот почему сниппет некорректно отработался - это баг, спасибо, отработаем.

malquem:
Что скажете насчет этого?
Причем тут "кондиционер HYUNDAI HSI/HUI 09H99X инвертор"?
Scaryer:
malquem, при том, что выделено жирным шрифтом "кондиционер HYUNDAI HSI/HUI 09H99X инвертор". Транслитерация, однако.
malquem:
Но по запросу это не то что я ищу верно?

Да, транслитерация используется при поиске (и индексировании). Это сильно плохо? Гугл и Яша, например, на запрос "Nokia" находят и Нокиа...

Что же качается именно Вашего запроса - ну, как-то не попадалось нам, значит, сайтов в индексе с ТАКИМИ словами... Хотя, может, где-то и фильтр на подобную лексику - вроде, делали, посмотрим.

SeoProff:
Придать больший вес словам в title и в h1 и h2.

Ну и это TF-IDF юзайте. Проверенно. :)

На чем пишите?

У нас пока как-то всё иначе... Мы ищем самый релевантный сайт, а с него - выдаём ссылку на самый релевантный документ. Релевантность считаем - по-простому ;-) : отношение кол-ва вхождений к общему количеству слов... Криво, что-то будем думать...

База - Oracle, пишем исключительно в его средствах: PL/SQL, Java. Под Oracle нам писать было удобнее, когда начинали. При необходимости в перспективе переедем на PostgreSQL или там на MySQL - это вполне реально.