- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.
Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.
Размер словаря русского языка не большой, и с точки зрения словаря, как и с точки зрения морфологического анализатора, слова "ъъъъъъ" не существует. Но в тоже время оно реально существует в сети - ты же сам его туда занес. И поисковикам приходится это учитывать и искать по таким словам. Они есть в словаре поисковика, для них и частотные метрики всякие посчитаны, типа IDF или ICF.
ты же сам его туда занес.
Судя по всему - сильно опоздал.
Я к тому, что изначально забивать словарь всеми возможными комбинациями не имеет смысла.
Судя по всему - сильно опоздал.
Я к тому, что изначально забивать словарь всеми возможными комбинациями не имеет смысла.
Ну да, не имеет, так же, как и считать их количество.
Но если объединить всех вебмастеров в глобальный флешмоб и проставить на всех страницах в сети по кучке абракадабр хитрым образом, то все поисковики будут пищать, многое придется менять в идеологии и в архитектуре. :D
Я как бы не математик и не филолог, но букв в русском алфавите 33, а слов типа "ъъъъъъ" не существует, соответственно размер словаря существенно (на порядки, в любых системах исчисления) меньше 10^28.
а кто вы по профессии и по образованию?
как бы программисты знают, что
как бы существуют различные кодировки, как бы в ASCII 128 символов, а в расширенной ASCII 256.
а еще есть так называемый Unicode, куда занесены практически все встречаемые символы.
я как бы не говорил про русский язык, я как бы сказал про как бы алфавит в котором как бы 36 букв.
извините ваше "как бы" несколько заразительно... :)
а кто вы по профессии и по образованию?
Как бы :D менеджер.
а еще есть так называемый Unicode, куда занесены практически все встречаемые символы.
Это типа словарь нужно будет делать размером что-то около 6^65536? 😂
Если бы я перед покупкой авто начал изучать теоретический базис работы каждой его детали, крыша бы съехала.
это к тому что в некоторых вещах вы доверяете профессионалам, что не мешает делать "любительское" замену масла к примеру.
РОМИП - мне не интересен давно. Насколько я знаю, он не интересен даже большинству коммерческих фирм, так или иначе делающих продукты завязанные на поиск.
почему мне был интересен первоначально РОМИП? я надеялся получить нормальные данные для тестирования и как одиночка показать свой продукт делающий полнотекстовый поиск.
почему мне он сразу же перестал быть интересен? тестовые данные получить невозможно, т.е. простая ссылка на zip и описательная информация в нормальном виде недоступны. т.е. я даже удаленно не могу посмотреть насколько хорош мой поиск - т.е. не могу сравнить с результатами прошлых лет. зачем мне ехать куда-то?
в остальном - насчет работы поисковой системы и ваших утверждений - скажу так - в чем то вы правы, где то сильно заблуждаетесь.
vitali_y добавил 30.10.2010 в 17:30
Это типа словарь нужно будет делать размером что-то около 6^65536?
ну если исходить из точки зрения "формальной эрудиции" - то да для слов длинны 6 это и будет размером словаря (если число букв 65536). хотя с помощью морфологии я уверен что число слов в словаре можно сократить на порядок либо даже на 2 - впрочем к чему мелочится - делите на миллиард - надеюсь все остальное в память вашего очень очень большого компьютера влезет - по теперешним временам память практически бесплатна - время правда прочитать содержимое этой памяти кое-чего стоит... но это тема другого разговора.
ну если исходить из точки зрения "формальной эрудиции" - то да для слов длинны 6 это и будет размером словаря (если число букв 65536). хотя с помощью морфологии я уверен что число слов в словаре можно сократить на порядок либо даже на 2 - впрочем к чему мелочится - делите на миллиард - надеюсь все остальное в память вашего очень очень большого компьютера влезет - по теперешним временам память практически бесплатна - время правда прочитать содержимое этой памяти кое-чего стоит... но это тема другого разговора.
Поинтересуйтесь как-нибудь на досуге количеством атомов во Вселенной. ;)
:D
это к тому что в некоторых вещах вы доверяете профессионалам, что не мешает делать "любительское" замену масла к примеру.
Масло я тоже меняю у профессионалов, т.к. даже самое дешевое авто в моем парке достаточно сложно устроено.
В морфологическом анализе я также доверился профессионалам - Яндексу, с его мистемом.
РОМИП - мне не интересен давно. Насколько я знаю, он не интересен даже большинству коммерческих фирм, так или иначе делающих продукты завязанные на поиск.
У Вас не верная информация. РОМИП интересен всем и все читают труды, просто участие в семинаре - дело не 2-х дней на написание статьи, все гораздо сложнее, нужно выделять людей, технику и бабло, не всем это дают. Кому-то, возможно, и сцыкотно показать свои чюда-алгоритмы, ведь можно и не попасть в топ оценок. То же самое происходит например с участием отечественных коллективов в TREC - читают все, не участвует никто. Потому что и затратно и сцыкотно. К тому же, в отличие от РОМИПа, там нельзя выступить анонимно. :)
почему мне был интересен первоначально РОМИП? я надеялся получить нормальные данные для тестирования и как одиночка показать свой продукт делающий полнотекстовый поиск.
Ну так и получите, данные бесплатны, таблицы релевантности вообще в свободном доступе лежат. Нужно только соглашение подписать.
почему мне он сразу же перестал быть интересен? тестовые данные получить невозможно, т.е. простая ссылка на zip и описательная информация в нормальном виде недоступны. т.е. я даже удаленно не могу посмотреть насколько хорош мой поиск - т.е. не могу сравнить с результатами прошлых лет. зачем мне ехать куда-то?
Вы можете посмотреть, нужно только подписать соглашение. Т.к. коллекции документов не написаны участниками семинара, там чужие дукументы, на многих копирайт стоит. Пока Вы не подпишетесь - никто Вам колекций не даст, и это правильно. Подписать соглашение можно в Москве или в Питере, хотя возможно и по почте, в виде исключения. После этого будут простые ссылки на zip. :)
в остальном - насчет работы поисковой системы и ваших утверждений - скажу так - в чем то вы правы, где то сильно заблуждаетесь.
Так может быть расскажете, где я заблуждаюсь? Буду очень благодарен.
Ида - Вы как-то проигнорировали мой вопрос:
Рассажете, как без морфологических анализаторов и прочих стеммеров найти и отранжировать? Интересно же. :)