- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Ну насколько я понял проблема у GBall такая:
Пока я пытаюсь сделать лемматизатор, для приведения к заглавной форме, например, делал -> делать.
АОТ вполне с этой задачей справляется. Вводим "делал" получаем "делать" и все атрибуты. Зачем изобретать велосипед-то, да еще для дипломной работы:)
А про организацию поиска никто вроде бы и не спрашивал.
Пишу диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов". И вопрос сейчас не про саму организацию поиска, индексации и т.д., а про Морфологческий анализатор.
Варианта нормальных два - АОТ или mystem. АОТ точнее, но медленнее, mystem - грубее, но быстрее. Я пользую mystem.
Стоит ли его вообще писать
Не стоит, не осилите. Да и смысла для Вас в этом нет никакого.
Тоетсь привести их к заглавной форме.
Попробуйте перейти на общепринятые термины (найдя их в литературе) и писать без ошибок. А то диплом получится ржачным. :)
www.aot.ru - ну определяет части речи, ну и что? какое отношение это имеет к поиску?
Самое прямое - на АОТ можно построить приличный поиск.
GBall, что вы будете делать (т.е. что будет делать ваша интеллектуальная поисковая система) если в качестве запроса я введу "trejbngfek dnfvdnfwjknre rkjenrfevf"? какая тут морфология?
А в чем проблемы-то? :)
Цитата:
Самое прямое - на АОТ можно построить приличный поиск.
...
GBall, что вы будете делать (т.е. что будет делать ваша интеллектуальная поисковая система) если в качестве запроса я введу "trejbngfek dnfvdnfwjknre rkjenrfevf"? какая тут морфология?
А в чем проблемы-то?
1) приличный поиск можно построить и без АОТ.
2)
2.a) да нет проблемм, здесь с точки зрения морфологии, согласен - хотел сказать, что можно обходиться и без морфологического анализа.
2.b) что и как вы будете искать(индексировать) при строке запроса "trejbngfek dnfvdnfwjknre rkjenrfevf"? (вопрос на вопрос на вопрос...)
1) приличный поиск можно построить и без АОТ.
2)
2.a) да нет проблемм, здесь с точки зрения морфологии, согласен - хотел сказать, что можно обходиться и без морфологического анализа.
Ну тогда уровень приличности сильно упадет. Т.к., если говорить о русском языке, то слишком много исключений из правил. Более примитивными средствами типа стеммеров их не обработать.
2.b) что и как вы будете искать(индексировать) при строке запроса "trejbngfek dnfvdnfwjknre rkjenrfevf"? (вопрос на вопрос на вопрос...)
Именно это и буду искать. Вы думаете, что в словаре большого поисковика количество слов сравнимо с обычным словарем? Как бы не так, разница чуть ли не на 3 порядка по размеру, Ваши бредослова туда тоже войдут, кстати. :)
Ну тогда уровень приличности сильно упадет. Т.к., если говорить о русском языке, то слишком много исключений из правил. Более примитивными средствами типа стеммеров их не обработать.
доказательства есть? т.е. какой-то сравнительный анализ и чего и с чем... математически это как-то обосновывается либо это чистая теория? т.е. все сколь нибудь приличные результаты имеют какой-то математический базис. какой математический базис здесь? вот человек пишет диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - как ему обосновать необходимость "интеллектуального анализа запросов"? я полагаю он не сильно задумывался над этим - преедлагаю остальным задуматься.
исключений из правил
примитивными средствами типа стеммеров
- это общие слова не более.
Именно это и буду искать. Вы думаете, что в словаре большого поисковика количество слов сравнимо с обычным словарем? Как бы не так, разница чуть ли не на 3 порядка по размеру, Ваши бредослова туда тоже войдут, кстати.
ремарка:
[я не пишу, что я думаю, я пишу, что я знаю - если я предполагаю, что может быть как-то по другому - тогда я отмечаю особо - фразой "я думаю"]
что мне интересно узнать - ваши мысли насчет величины словаря большого поисковика - 3 порядка по размеру - это умножать на 3 или возводить в 3-ю степень?
обычный словарь это 100,000 слов? меньше? больше?
чисто порядок цифр - чтобы вы немного представляли о чем речь:
пусть есть алвавит из n букв, пусть средняя длинна слова m
итого m^n - размер словаря
алвавит из 36 букв, средняя длинна слова 6
итого размер словаря 6^36 = 10,314,424,798,490,535,546,171,949,056
так какие порядки у вас?
доказательства есть? т.е. какой-то сравнительный анализ и чего и с чем... математически это как-то обосновывается либо это чистая теория? т.е. все сколь нибудь приличные результаты имеют какой-то математический базис. какой математический базис здесь? вот человек пишет диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов" - как ему обосновать необходимость "интеллектуального анализа запросов"? я полагаю он не сильно задумывался над этим - преедлагаю остальным задуматься.
Я не спец в морфологическом анализе, потому просто использую чужие разработки. Понимание необходимости пришло из практики, оно окончательно сложилось, после чего аргументы были забыты. :)
Поиск в Яндексе сразу вывел на статью Андрея Коваленко, руководителя поисковика МЕТА: Морфологический анализ для небольших поисковых систем. Вроде там подробрно описано.
- это общие слова не более.
Они основаны на некоторой практике.
ремарка:
[я не пишу, что я думаю, я пишу, что я знаю - если я предполагаю, что может быть как-то по другому - тогда я отмечаю особо - фразой "я думаю"]
Если я не уверен на 100% в своих знаниях, я так же пишу "я думаю".
что мне интересно узнать - ваши мысли насчет величины словаря большого поисковика - 3 порядка по размеру - это умножать на 3 или возводить в 3-ю степень?
Ни то, ни другое. :)
Три порядка - это умножить на 10**3.
обычный словарь это 100,000 слов? меньше? больше?
чисто порядок цифр - чтобы вы немного представляли о чем речь:
пусть есть алвавит из n букв, пусть средняя длинна слова m
итого m^n - размер словаря
алвавит из 36 букв, средняя длинна слова 6
итого размер словаря 6^36 = 10,314,424,798,490,535,546,171,949,056
так какие порядки у вас?
А мои Вам зачем? Я вроде о больших поисковиках писал. У меня около 800К слов в базе. В большом поиске - около 100 миллионов. :)
Попробовал прочитать статью по вашей ссылке - статья пустая к математике не имеет никакого отношения - чисто популярная статья на тему. Руководитель должен быть в теме писать статьи по теме - вот статья и появилась. Смог осилить только начало и пару последних абзатцев - в конце упоминаются "докторов филологических наук А. А. Поликарпова и О. В. Кукушкиной." - что и требовалось доказать - филологи решают чисто математическую задачу... Ну пусть решают - каждый право имеет... не запретишь... хотя они там стеммер тестировали а не поиском занимались - так что впрочем все корректно.
Вернемся к теме.
Они основаны на некоторой практике.
согласитесь - это не научный подход. Нам как-то преподаватель рассказывал историю как в 90х Беларуская АН чуть не выдала как-то премию группе написавшей программу для решения задачи взаимозачетов между предприятиями - задача решалась с помощью ими придуманной эвристики, хотя вся теория известна давно и алгоритм для точного решения разработан.
Так и вы - "основаны на практике" - ну работает ваша практическая эвристика - но это не серьезно - где теоретическое обоснование?
Три порядка - это умножить на 10**3.
у каждого порядки свои :)
А мои Вам зачем? Я вроде о больших поисковиках писал. У меня около 800К слов в базе. В большом поиске - около 100 миллионов
так интересуюсь... больших поисковиков вы похоже не писали и лишь высказываете свое предположение?
просто сравнение цифр:
00,000,000,000,000,000,000,100,000,000 - это 100 миллионов;
10,314,424,798,490,535,546,171,949,056 - это размер словаря алвавит из 36 букв, средняя длинна слова 6
vitali_y добавил 28.10.2010 в 21:43
вы фигурально лопнете хранить всю аброкатабру типа:
"trejbngfek dnfvdnfwjknre rkjenrfevf"
Попробовал прочитать статью по вашей ссылке - статья пустая к математике не имеет никакого отношения - чисто популярная статья на тему. Руководитель должен быть в теме писать статьи по теме - вот статья и появилась. Смог осилить только начало и пару последних абзатцев - в конце упоминаются "докторов филологических наук А. А. Поликарпова и О. В. Кукушкиной." - что и требовалось доказать - филологи решают чисто математическую задачу... Ну пусть решают - каждый право имеет... не запретишь... хотя они там стеммер тестировали а не поиском занимались - так что впрочем все корректно.
Это статья успешного практика, имеющего свой, достаточно известный в Украине поисковик. Заметьте - он так же, как и я, не делал строгих выкладок, а написал свой морфологический анализатор. И Яндекс свой написал. Может быть мы все и не правы, а правы Вы, ну так поделитесь знаниями о чудесном стеммере, интересно же. :)
Вернемся к теме.
согласитесь - это не научный подход. Нам как-то преподаватель рассказывал историю как в 90х Беларуская АН чуть не выдала как-то премию группе написавшей программу для решения задачи взаимозачетов между предприятиями - задача решалась с помощью ими придуманной эвристики, хотя вся теория известна давно и алгоритм для точного решения разработан.
Так и вы - "основаны на практике" - ну работает ваша практическая эвристика - но это не серьезно - где теоретическое обоснование?
Если для каждого своего шага пытаться делать теоретическое обоснование, то только этим и придется заниматься. :)
у каждого порядки свои :)
В десятичной системе счисления они такие, как у меня. ;)
так интересуюсь... больших поисковиков вы похоже не писали и лишь высказываете свое предположение?
Не писал, у меня ни одного профессионального программиста сейчас в штате нет. Но я серьезно занимаюсь поиском, поэтому какие-то данные мне известны, это не предположение, а факт.
А Вы что-то поисковое писали? Или просто теоретик?
просто сравнение цифр:
00,000,000,000,000,000,000,100,000,000 - это 100 миллионов;
10,314,424,798,490,535,546,171,949,056 - это размер словаря алвавит из 36 букв, средняя длинна слова 6
И к чему эти цифры?
вы фигурально лопнете хранить всю аброкатабру типа:
"trejbngfek dnfvdnfwjknre rkjenrfevf"
Однако и гугл, и Яндекс ее уже находит. Не лопнули пока. :)
нету стеммеров. нету. нет необходимости.
Если для каждого своего шага пытаться делать теоретическое обоснование, то только этим и придется заниматься.
обычно что-то хорошо сделанное имеет под собой необходимый теоритический базис.
В десятичной системе счисления они такие, как у меня
в математической терминологии это обычно возведение в степень - не зависимо от системы счисления...
А Вы что-то поисковое писали? Или просто теоретик?
stopka.us - мой проект.
И к чему эти цифры?
повод для размышления.
Однако и гугл, и Яндекс ее уже находит. Не лопнули пока.
какой из этого вывод?
нету стеммеров. нету. нет необходимости.
Рассажете, как без морфологических анализаторов и прочих стеммеров найти и отранжировать? Интересно же. :)
обычно что-то хорошо сделанное имеет под собой необходимый теоритический базис.
Теоретически оно может и имеет теоретический базис. :D
Только в большинстве случаев на это нужно забивать, иначе не получится ничего. Если бы я перед покупкой авто начал изучать теоретический базис работы каждой его детали, крыша бы съехала. :)
в математической терминологии это обычно возведение в степень - не зависимо от системы счисления...
Ну мы же не научную статью пишем. В житейской терминологии порядок - количество цифр в числе, об этом наверное даже в вики написано (лень смотреть).
stopka.us - мой проект.
Понятно. Приходите к нам на РОМИП. ;)
повод для размышления.
О чем? Что словарь может перерасти размеры выделенной на него памяти? Ну в теории может, на практике - пока никто не парится.
какой из этого вывод?
Вывод из этого простой - все абракадабры индексируются, т.к. по ним нужно искать и не факт, что это бессмысленные наборы букв. И они входят в словарь, который получается большим (100М - реальное число). Некоторые большие поисковики такой словарь держат тупо в памяти сервера, так у них там устроено. Хотя мне такое решение не нравится, ввиду того, что в таком случае мои метрики уже не применить. :)