Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)
wolf:
Ну вот, теперь А&П знают все секреты Рамблера... :)

... а главное - "секретную формулу ранжирования" :)

Каширин:
<offtop>
Андрей, рад видеть Вас на форуме!
Где сейчас трудитесь, если не секрет? :)
</offtop>

Спасибо :) Я сейчас с Игорем Ашмановым, в "Поисковых Технологиях". Короче, банда ходит табуном :)

Interitus:
А что, в STL настолько все плохо с сортировкой?...

проблемы есть такие:

1. В данном контексте человек, который не умеет сортировать данные "вручную", никак не может быть разработчиком.

2. В сортировке STL еще недавно была серьезная ошибка - в отличие от стандартной qsort она не была гладкой. Т. е. если в неотсортированном массиве есть два элемента с одинаковыми ключами, после сортировки они могли поменять свой порядок.

3. Я еще не видел проектов, использующих STL, для которых выполнялась бы на произвольной платформе последовательность

> cvs get project

> cd project

> make

А что касается сортировки вообще... Я, составляя тестовые задания для программеров в Рамблере и в свое время в Мете, просил отсортировать некоторое количество гигабайт строк. На машине с 512 мегами памяти. И заметил, что сортировка слиянием - это какая-то terra incognita :)

prnavigator:
В Рунете появится новый поисковик

http://net.compulenta.ru/237254/?r1=yandex&r2=news

webalta.ru

их и едят.

dimases:
У сайта у большенство страниц сниппетами стал фрагмент меню, одним из пунктов которого является ключевик, а не текст (в принципе, меню расположено выше всего). И вообще, важно ли это или без разницы?

Вообще говоря, это означает, что пункты меню наиболее релевантны запросу.

Кроме шуток.

Рамблер строит при вычислении запроса несколько потенциальных цитат, для каждой зная вес по отношению к запросу, после чего показывает самую релевантную.

В этом отношении Мета поступает интереснее - она реализует ротацию цитат в пределах формируемой страницы. Но это далеко...

POLL:
Требуется организовать по сайту (группе сайтов) поиск, причем очень важно - это должен быть качественный поиск на русском языке. Если я знаю что среди кучи страниц есть одна такая фраза, а поисковик ее не выдает - это очень плохо.

Какая из этих систем лучшим образом с такой задачей справится

www.sitemeta.com

POLL:
и почему именно она?

попробуй...

statev:
Здравствуйте! Нужны разработчики ядра поисковой системы (постановщики задач). Люди, которые знают, что такое TF*IDF, LSA и т.д. На все вопросы отвечу по почте. Спасибо.

А вы реально представляете себе сейчас ситуацию на рынке?

Сейчас найти просто хорошего программиста, который бы умел писАть на C и C++, меньше чем за пару тысяч убитых енотов не очень реально...

Естественно, речь не идет о тех, кто задачу "отсортировать" решает с помощью STL и не читал Кнута :)

А "разработчики ядра поисковой системы (постановщики задач)" - так их, этих людей, вообще все знают, да и более-менее известна их цена.

Кроме того, для того, чтобы поисковик был сделан, постановщик задач нужен один, он же - единственный.

Другое дело, если стоит совсем другая задача - освоить инвестиционные деньги. Тут помощников найти гораздо проще :)

С уважением, Keva.

Как писал Pavelkq
...Почему бы не объединить все усилия в один проект. Ведь ясно, что лет через несколько из всех поисковых технологий будет выбрано всего несколько. Авторов назовут отцами компьютерной морфологии (это уже, практически, негласно сделано). А зачем эта конкуренция? Вопрос, конечно больше философский:-)

Тем не менее, хочу задать вопрос прямо Keva. Какие у вас планы? Чем в данный момент занимаетесь? Нужна ли помощь, и какая?

Во-первых, хочу сказать большое спасибо за комплимент :)

Давайте разберемся, о какой морфологии идет речь.

Если речь идет о словарном морфологическом анализаторе, то я над ним практически сейчас не работаю. Так, иногда внесу какие-то слова, но редко. И потюниваю его периодически в плане производительности. Однако это - коммерческий продукт, который продается и является моей собственностью. В силу сказанного, я вовсе не нуждаюсь в чьем-либо участии в этом проекте, так как у меня нет желания ни с кем делиться деньгами от его продажи :) Цинично, но это так :) И если выбирать между лаврами отца-основателя и наличными, я выбираю однозначно второе :)

Если же речь идет об открытых проектах, распространяемых бесплатно, как, например, stemka - тут я готов принять любую посильную помощь, слить этот проект с любым другим, до тех пор, пока результат будет распространяться бесплатно.

З увагою :), Keva.

Как писал Glob
Ну ненаю... когда рыбак ищет "сом" до "com" ему по барабану...
а таких примеров куча.
вот если бы Рамблер резделял: /слово в документе набрано всеми латтинскими - слово в поиске набрано преймущественно латинскими ...

Разделяет :-) С самого начала.

Вообще говоря, рыбак по запросу "сом" не найдет "com". В всяком случае, в Рамблере. Потому как "com" - это чисто латинское слово.

Так что нет предела совершенству.

Согласен.

А то я вот так и не понял: в пятницу или в субботу? И в какое время?

Всего: 238