- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Вы не ответили на вопросы совсем.
1. Кто будет решать, что правила нарушены и как будут допускаться сайты? Будет предмодерация или пост? Если пост, то как вы будете бороться с потоком спама (генерацию доров для заливки можно поставить на автомате). Если предмодерация, то для тех же нескончаемо заливаемые доров нужно будет бесконечную команду модерации.
2. Тут пропустим, если вы ещё не решили как будет работать.
3. То есть, он будет анализировать, что сервис находится в другом городе? На основании чего?
обработка корпуса сниппетов
В нём вы имеете дело с избыточным 'шумом', относящимся совсем не к ранжированию... ну создатели так заточили "чтобы не грузить искателей дублированием / разнообразить фрагменты". Т.е. лучше его для генерации доров – с целью 'разнообразить', чем для выяснения того, что влияет именно на ранжирование.
Кто будет решать, что правила нарушены и как будут допускаться сайты?
Ну всем же ясно, что распиаренный матрикснет – на самом деле просто толпа Платонов... этой ОПГ с кремлёвской крышей, которая не допустит перспективной поисковой системы.
В нём вы имеете дело с избыточным 'шумом', относящимся совсем не к ранжированию...
Шума везде вагоны, вагоны, еще вагоны. И потом тележки... Вопрос в том, как отранжировать - ('месяц_рубль', 0.09) вполне может стать самым частотным на корпусе документов из топа.
1192 из Я-хмл (100, lr=225), кей на картинке.
13496 биграмм из контента 12 документов (урлы на картинке, регион=225)
Это только промежуточный вариант. Но, как минимум, биграммы "аудит_сайт" для запроса продвижение сайта в сниппетах нет. Я проверил. Ну и дальше к gensim lsi/lda и т.п.
А потом, важно, чтобы быстро.
Ну и технические нюансы для ArbNet, где я много времени потерял.
1) Леммы: "поисковый_продвижение" должно включать "поисковое продвижение, продвижения в поисковой". Минус стоп слова, приведение в нормальную форму и сортировка. Грабли: php + внешняя программа (mystem, python pymorphy2, сервисы) нестабильно и долго.
2) Операции со строками/массивами(объектами): н-граммы, сортировка и т.д.
3) Время. Желательно, чтобы для получения, например, 12 урлов из интернета, каждый из которых отдается в среднем за 1-1,5 сек (в сумме 12 сек как минимум), потратить минимум сек. В данном случае 5.5:
Парсинг 12 документов + запись в базу заняла 5,5 сек. Параллельно сделать aiohttp помогла. На php тоже можно, но ...
Минус стоп слова, приведение в нормальную форму и сортировка
А какое практическое применение?
Я вижу, что такое можно использовать при проектировании сайта, по тематике где отсутствует эксперт.
Как вариант ещё посмотреть в сторону встречаемости лемм из документа в корпусе и\или среди конкурентов.
А какое практическое применение?
Ну, например, чтобы:
движок автоматически подбирал
В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.
На основе собственных граблей, куда наступил в процессе.
Ну и технические нюансы для ArbNet, где я много времени потерял.
В качестве направления для ТС. В том смысле, что все реально и куда можно посмотреть для этого.
На основе собственных граблей, куда наступил в процессе.
Я извиняюсь. У вас я вижу просто поиск повторений слов, что по сути не даёт для будущей логики поиска хорошего результата. По моему суть алгоритма должна быть следующая:
1. Должно выявляться суть текста, ключевые слова по которым потом делать выборку для тех кто будет искать нужную информацию.
2. Суть текста(ключевые слова) по-моему нужно определять по корням слов и их определению(то есть объяснению). У меня есть пока только наметки, для будущего алгоритма.
3. Для сокращения поиска необходимо определение направления в какой области, сфере деятельности и тд. нужно искать информацию. То есть в тексте также должно определятся какое либо направление информации(веб-строительство, новости, медицина, фермерство, автомобили и тд. и тп.)
Новый поисковик делаете?
Нет конечно 😀
Пока продумываю алгоритм для поиска ключевых слов выявляющих смысл текста. Их можно указывать в метатегах, а так же использовать во внутреннем поиске сайта.
Так же думаю сделать поиск по сайтам на своём движке. Вот и всё.
У вас я вижу просто поиск повторений слов
Не совсем. Лень, ковырять скрипт, чтобы просто частотность биграмм показать. Но, почти всегда там другой порядок. Здесь же
2687.3856000000164 без сомненья зависит от частоты, но и скорректировано функцией учитывающей частоту и вхождение в слов из ключей по буквариксу, вхождение слов из подсветок, заголовка, сниппета и еще кое какими данными (все с разным весом). Но и это промежуточный вариант.
Ну и дальше к gensim lsi/lda и т.п.
Из темы про lsi ссылку на которую я неоднократно приводил. Попросили запрос "наполеон".
Нетрудно заметить, что gensim.models.lsimodel.LsiModel выделил в х-документов из топа Яндекса несколько тематических кластеров, касающихся как собственно Наполеона, так и торта.