Ashmanov

Ashmanov
Рейтинг
66
Регистрация
21.11.2000
Должность
"Ашманов и Партнёры", гендиректор

Штука нужна. Писать самим неинтересно - интересно писать технологии, которые кроме нас никто не напишет.

Но представьте себе, что мне нужно проверять несколько сайтов или разделов сайта клиента раз в день. И клиент не один. Какие уж тут десять долларов за пять сайтов. Тогда сами напишем.

Вот за названную цену, а лучше за 200 у.е. купить коробку - ещё туда-сюда.

Просто я не вижу способа грамотно спроектировать динамический индекс, а занимались мы этим довольно много. А главное, не вижу смысла. То есть при наличии денег на разработку можно, но зачем?

Динамический индекс, если приложение критичное, должен поддерживать транзакции и откаты, как в порядочной базе данных. В индустрии БД на это убили десятки лет, поэтому я не верю, что разработчики поисковой машины могли это сделать за небольшие сроки и деньги. Да и с масштабируемостью будут проблемы. Неспроста Яндекс, Рамблер, Гугл и прочие используют всё же статические индексы и эпизодическое обновление.

Если же этих средств обеспечения безопасности транзакций нет, то предлагается не очень надёжный продукт, причём неясно, зачем использовать именно такое решение. Динамический индекс может погнить, придётся использовать две копии и переключать их после транзакций, что раздувает хранилище, кроме того, нужны сложные сортировщики и сборщики мусора и т.п. Сам по себе динамический индекс и так предполагает довольно разреженное хранилище.

Впрочем, можно держать одну копию, а при разрушении индекса всегда можно переиндексировать заново, правда, будет потеряно время простоя.

При этом есть более простые и надёжные решения: статический или полустатический индекс можно собирать раз в день или в час, а в промежутке новые страницы сбрасывать во временный индекс простой структуры("помойку").

Эти проблемы Многопоиск, например, решает за счёт использования обычной реляционной БД для хранения индекса. Динамичность получена, а масштабируемость и производительность - нет, так как реляционная БД не годится для хранения полнотекстовых индексов, что есть довольно известный специалистам факт. Поэтому Многопоиск должен, по идее, тормозить и раздуваться на сколько-нибудь большой базе. По слухам, так и есть.

Что касается нашего движка, то там действительно используется бессловарная морфология. Так было проще - проект сделан очень быстро. В целом работает. Зато многоязыковая.

Но вообще говоря, морфология - не конкурентное преимущество никоим образом. Она у всех есть уже лет пять как. В том числе коваленковская или орфовская, или ещё какая.

У Меты есть, у Галактики есть, у Гаранта есть, у Рамблера есть, у Яндекса есть, у Апорта есть, у РБК есть, у Информатика есть, у МедиаЛингвы есть, у Рубрикона есть, у Нейрока была, у ДИАЛИНГа была, у Коваленки есть, у нас есть, у АВВУУ есть, у Вести есть, далее по индукции.

Ну и что?

Это раньше Яндекс гордо, но неуклюже писал "с учётом русской морфологии". Хотя морфология была и у Апорта, и у Рамблера. Сейчас, по-моему, перестали. В общем, общее место.

Главное там всё же удобство управления и установки, всякие пользовательские штучки, языки, прочее.

У нас есть движок, использующийся на Finds.ru и Poisk.tochka.ru, который можно поставить и на сайт за разумные деньги. Не за 290 евро, конечно. Немецкая, французская, испанская и английская морфология не проблема, у нас есть.

Другое дело, что этот движок - пока не коробка с глянцевой документацией.

Истинно динамический индекс не обещаем, более того, считаем вредным.

А вот переиндексация хоть раз в час возможна.

Так она вроду уже пару дней как выложена, Грей.

Про отель:

Мы гостиницей не занимаемся, не потянем ещё и это. Да и размещать в Москве в дорогих отелях мучительно, скидок не дадут и т.п.

В Ирисе жить, скорее всего, дорого.

Нужно написать Козлову по адресу оргкомитета, он знает расценки. Нашим участникам там даже дают какие-то скидки.

Рамблер отнёсся очень серьёзно к участию в конференции. Сначала они дали согласие, потом передумали. Они обсуждают это уже месяц, на уровне совета директоров. Хотя на мой взгляд, это вопрос уровня депарамента PR.

Есть ещё шанс, что удастся их уговорить, доказав, что это полезно для Рамблера, но он невелик. Думаю, их там всё-таки не будет.

Будут Апорт и Яндекс, Бегун и Спайлог.

Если интересно спросить что-то про устройство поисковика, на конференции будет Алексей Иванов, который руководил разработкой и эксплуатацией поисковика Рамблера в 2000-2001 гг. и имеет-таки представление о том, что в нём было и что есть сейчас.

AIK, они над Вами подшучивают: указанные фразы издревле служат для тестирования программистом качества воспроизведения букв на экране или на принтере - они гарантированно содержат все буквы алфавита (в данных примерах - кроме Ъ).

Что касается обсуждаемой здесь матрицы инцидентности слов, то набор сколько-нибудь стоящей статистики, похоже, нереален - не хватает текстов.

Матрица на самом деле имеет объём просто N*N, где N - число слов в языке, то есть "квадрат словаря Зализняка" - 100,000 в квадрате, 10 в 10-й степени.

Когда я этим занимался в МедиаЛингве, получалось, что статистики, достаточной для отеделения устойчивых словосочетаний от свободных сочетаний слов, просто не наберёшь на существующем объёме электронных текстов.

Матрица окажется почти нулевой, а наличие в клетке ненулевого значения не будет говорить ни о чём, кроме случайности.

И это при том, что вообще говоря, по сторонам такой матрицы должны стоять лексемы (корни), а не словоформы, поскольку словоформ миллионы и с ними вообще не справиться.

Можно ещё арендовать наш поиск:

а) http://www.finds.ru

б) http://poisk.tochka.ru

А это Вы там на фотографии? А то лица не видно.

Ну, положим, ни один админ не будет в восторге от любой массовой рассылки рекламы. Туда или в никуда - неважно. Поэтому никакие сервера с нормальными админами не используются. Спамеры используют чужие сервера, открытые релеи и пр.

Кстати, сейчас в Нью-Йорке есть игра по определению мест, где рядом есть радиосеть по стандарту 802.11b - там ставят крестик мелом на асфальте и каждый желающий с ноутбука может зайти в Интернет на халяву. В том числе это делают спамеры. Подъехал на машине, послал несколько десятков тыщ писем, а как обнаружили и закрыли дырку - поехал дальше. Но главный источник - открытые релеи в Китае, Индонезии и пр.

В таких условиях не всё ли равно, куда и что посылать - дёшево.

При этом, если сходить на спамерские сервера, вам предложат ПО, которое определяет существование адресов - см. http://www.massmail.ru.

Вот цитата оттуда:

" Advanced Maillist Verify

Программа для проверки на существование адресов электронной почты в списках рассылки, базах данных (через ODBC SQL) и адресных книгах Outlook, TheBat, Eudora. Интерфейсы COM/ActiveX и CGI/ISAPI для разработчиков ..."

На мехмате я повидал ферматистов - приставали в коридоре к каждому случайному студенту. Рассказывали своё доказательство Великой теоремы Ферма (напомню, она заключается в том, что x**(n) + y**(n) = z**(n) неверно при любом n>2).

Вот, говорят, переносим Z в левую часть, а дальше всё ясно. Это сродни мании или просто невежеству.

Замечу, что Великая теорема Ферма доказана в начале девяностых годов двадцатого века, но почему-то мне кажется, что многие ферматисты об этом не знают или не хотят верить.

Когда я читаю, что вот надо взять деревья, указатели, нитки, и осталось потом ещё кое-что запрограммировать и машина получит человеческую логику, моя рука тянется к мышке, чтобы пойти куда-нибудь ещё, как говорил Гитлер. Ну причём здесь логика, если обсуждаются элементарные приёмы программирования?

Как забраться на Эверест - да просто надо купить ледоруб и я знаю, где они продаются!!!

Уважаемый MSA, вы не задумывались, как же ваша программка будет классифицировать информацию, если, например, ваш собственный текст почти не содержит правильно написанных русских слов? Вот что в нём классифицировать, если содержания нет ни на грамматическом, ни на семантическом уровне? Да вы сами и расклассифицировали - "гониво".

И кто же к вам примкнёт - как на таком уровне общаться даже с единомышленниками?

Всего: 359