- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Александр,
Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи... Можно, конечно, вводить коэффициенты удаленности слова, не порекомендуете ли что-нибудь из своего опыта?
Сергей
Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи...
Попадалось число 12, как интервал слов, связанных с данным. Конечно, это не включает подчиненные предложения и анафоры.
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?
Я полагаю, наиболее оптимальный вариант самому сделать СУБД для работы индексами в инвертированных файлах (на Си или C++). При этом я, к примеру, для экономии ресурсов использую несколько типов индексов - временные и основные.
А реляционная база загнется уже на объеме в несколько сотен миллионов записей.
Спасибо всем за поддержку начатой темы.
Хотелось бы просветиться у знающих людей,
не знает ли кто, где в Интернете можно достать исходники классов (С++ или др.) либо работающие модули для морфологического разбора и обратной задачи лемматизации?
Я дважды за последние полтора года делал попытку найти, но все, что находил, либо недоработано (на уровне студенческого диплома), либо с ограниченной demo функциональностью. Вроде Андрей (keva) грозился выложить исходники, но до сих пор не решился на этот самоотверженный шаг.
Помогите кто чем может (можно частным образом). Мой проект некоммерческий.
Сергей.
Сергей, а можете рассказать чуть подробнее о проекте?
Основная цель проекта - создать инструмент, позволяющий пользователю находить нужную информацию в библиотеке тематически связанных текстов. (Нечто подобное Analyst, только бесплатное
. Ну, и конечно, с некоторыми отличиями в функциональности. В частности, вывод результата запроса из программы в Word и др. ...
Рабочей команды у меня нет, т.к. найти энтузиастов - единомышленников непросто, да и сотрудничать в off-line трудно, поэтому делаю все во внерабочее время самостоятельно.
Главное, меня увлекает сам творческий процесс работы со словом, с большими объемами связанной информации, это постоянно двигает вперед.
Сам проект родился в моей голове лет 7 назад и постепенно развивался по мере роста знаний от уровня досовского приложения на TurboPascal'е до обычного Windows приложения на VС++ с планируемым выходом в Интернет в самом ближайшем будущем, как только будут отработаны детали реализации.
Что еще о проекте? Открыт к сотрудничеству.
Судя по молчанию пора закрывать тему.
Александр, спасибо за подсказку.
Я кое-какие формулы вывел на основании предложенного принципа и на выходных реализовал. Результат хороший даже без учета морфологии, к тому же получился быстрый алгоритм расчета.
Тестирование на полмегабайтном тексте: Коэффициенты устойчивых объектных связей "всплывают" наверх. Правда при этом коэффициенты связи между словами, имеющими большой шум (типа союзов и предлогов) тоже оказывается достаточно большим, но с ростом массива они неизбежно будут уменьшаться примерно как 1/n.
Главное, формулы позволяют применить свойство аддитивности текста, это означает, что для группы текстов можно применить простую расчетную формулу суммарного коэффициента связи между двумя словами, что решает много проблем при пополнении массива текстов.
Так что если кто еще думает на эту же тему, берите на вооружение обсуждавшийся в теме подход, формулы очень просты в выводе.
Меня можно застать в частном порядке по
developer@s-mail.com
либо
s_ilyin@mail.ru
Пишите, обсудим.
Сергей.
Сергей, надеюсь, скоро сможем посмотреть на ваши результаты. Будут еще вопросы - постараюсь ответить.