Опа) Я лучше в своем продукте эти идейки приплюсую:)
Хотел у teh идейку позаимствовать, но как видно не катит их темка. А твои мысли вполне разумны. Критиковать тут особо нечего. Только наличие popup врятли говорит о наличии фильтра передачи ссылочного.
что же они тогда определяют в этом сервисе teh?:) random чтоли)
Ну может просто я неправильный запрос предложил
Хотя все равно странное решение. Это ведь текст анкора должен не присутствовать на продвигаемой странице, хотя такое редко встретишь.
kotofeich добавил 25.05.2009 в 14:03
почему?
Можно использовать и ЯК, суть моего алгоритма от этого не меняется. Я использую ашманова, потому что сразу вижу какие ключевики какой тематике соответствуют.
kotofeich добавил 21.05.2009 в 23:33
P.S. Скрипт уже реализован. Сейчас хорошо распознает три тематики: Интернет-ресурсы, Создание и продвижение сайтов, Поисковые системы. Обучение новой тематике занимает где-то 10 минут.
Спасибо. Не знал.
kotofeich добавил 21.05.2009 в 21:19
Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.
kotofeich добавил 21.05.2009 в 21:20
Фактически все пока не нужны. Сейчас обкатываю только на нужных мне тематиках.
для TF*IDF нужно большуую базу иметь, чего к сожалнию не имею.
🍻
да, ознакомился недельку назад. Принял к сведению, но имхо там мысли от людей далеких от программирования. Они выдвигали теории, которые слабы в реализации.
Пожалуйста покажите описание подобного алгоритма. Буду очень благодарен.
Для его построения требуется выборка, содержащая все возможные комбинации переменных - а размер такой выборки экспоненциально растет с ростом числа переменных (т.н. "проклятие размерности").
Есть решение как с минимальными затратами обойти однословность? Я видел лишь теории, которые нереально реализовать на практике. Мне и сотни лет не хватит чтобы просчитать подобные алгоритмы для многословности.
Насчет простановки коэффициентов - нельзя ждать от машины результатов, пока сам не научишь ее тому чего хочешь.
Зачем задавать подобный вопрос машине, если человек не сможет дать на него ответ? Ваш текст мал. Дайте полный текст в страниц 10 хотя бы, и его можно будет классифицировать. Тут же почти нет повторений, и тематика была бы "цветы"
спасибо. обязательно ознакомлюсь.
Одной головы достаточно для реализации алгоритма, но не для составления семантического ядра.
Перспективы - это дополнительный опыт в понимании и дальнейшего совершенствования алгоритмов "антияндекс". Думаю даже такой алгоритм будет лучше чем брать ссылки для сайта про недвижимость со страницы с текстом про фитнесс с сайта про недвижимость.
Тицекрутители меня не волнуют.
kotofeich добавил 20.05.2009 в 20:59
Это легко обьяснить. Если это сайт про фарму, то большинство слов будут про таблетки, и медикаменты, а меньшая часть про грузоперевозки и логистику (скорее всего это доставка медикаментов). Ошибки быть не должно. Я сомневаюсь что сайт про фарму будет везде расписывать про то как они прекрасно доставляют свой товар и какая у них логистика.
kotofeich добавил 20.05.2009 в 21:03
Это будет зависить от коэффициентов сопутствующих слов. В реальности нужно будет найти несколько сайтов, которые вы точно знаете что относятся к дачам и поставить коэффициенты веса слов так, чтобы тема определилась как дача. Аналогично для строительства.
В результате вы узнаете свою тематику.
В пример беру лишь несколько сайтов, поскольку обычному "смертному" не даны мощностя яндекса, и для реализации алгоритма достаточно пары проб.
Закрывать не собираюсь, пока не набежит народ, которым охото поржать над любой темой. Тогда точно будет ясно что обсуждать больше нечего.