kotofeich

kotofeich
Рейтинг
28
Регистрация
25.03.2009
Должность
Web-coder
intraweb:
Вообщем сервис для определения фильтра для передачи ссылочного нужен.
Давайте соберем методы как оценить зафильтрованность ребятам отправим и сделают хороший сервис.

1. Мне кажется, что если у взрослого сайта на который много ссылок - PR 0 или PR 2 главной, то в гугле у него фильтр скорее всего за продажу ссылок.

2. Если сайта нет по тайтлу в ТоП-30 Яндекса или Гугла, или на первой странице, по дополнительно с этого сайта (так как тайтлы могут быть одинаковыми), то и брать ссылку не нужно.

3. Нужно определять popup и прочую хрень. Если есть - сайт под фильтром наверное.

Кто еще че предложит, или покритикует.

Опа) Я лучше в своем продукте эти идейки приплюсую:)

Хотел у teh идейку позаимствовать, но как видно не катит их темка. А твои мысли вполне разумны. Критиковать тут особо нечего. Только наличие popup врятли говорит о наличии фильтра передачи ссылочного.

rpex:
Этой идее уже года как три, и уже года как полтора она не работает.

что же они тогда определяют в этом сервисе teh?:) random чтоли)

intraweb:
Идея хорошая, а реализация пока не сильно впечатляет, проверил несколько доноров, пишет не определено.

Ну может просто я неправильный запрос предложил

Хотя все равно странное решение. Это ведь текст анкора должен не присутствовать на продвигаемой странице, хотя такое редко встретишь.

kotofeich добавил 25.05.2009 в 14:03

Ziby:
Это было актуально полтора года назад.

почему?

sokol_jack добавил 21.05.2009 в 21:27

А я - почти уверен.
Потому как те, кто оценивают работу робота ("ассесоры") и те, кто в ЯКе размещает мыслят почти одинаково (как и мы с вами).
Да и "эталонная" база у робота - почему бы и не ЯК?

Можно использовать и ЯК, суть моего алгоритма от этого не меняется. Я использую ашманова, потому что сразу вижу какие ключевики какой тематике соответствуют.

kotofeich добавил 21.05.2009 в 23:33

P.S. Скрипт уже реализован. Сейчас хорошо распознает три тематики: Интернет-ресурсы, Создание и продвижение сайтов, Поисковые системы. Обучение новой тематике занимает где-то 10 минут.

sun99:
Возможно Вам стоит использовать то, чем пользуются (пользовались) в Яндексе.

mystem

Спасибо. Не знал.

kotofeich добавил 21.05.2009 в 21:19

Igorrok:
Но ведь мы никак не узнаем какую тематику присвоил робот сайту, а если программа будет давать те же результаты, что и человек, то это будет хорошая программа.

Человек помещая сайт в як дает тематику, в дальнейшем она может поменяться. Сомневаюсь что робот яндекса определит тематику аналогично админу яка.

kotofeich добавил 21.05.2009 в 21:20

XPraptor:
ТС, не понял зачем вам определение самих тематик, как таковых? Я вот уже пару лет гоняю свой алгоритм, который берет мою страницу, нейроном определяет её темаический вес, а потом берет все отобранные страницы доноров, где я хочу купить ссылку и определяет на сколько они близки к тематике моей страницы (в частном случае тематике моего сайта в целом).
И не зачем мне хранить тучу данных в БД чтобы определить тематику которая мне "нафик" не нужна.
Ну это ИМХО, а если вам всетаки понадобилась зачем то база тематик, то ээто только вам известно зачем.

Фактически все пока не нужны. Сейчас обкатываю только на нужных мне тематиках.

alexalinks:
Бурундук не зря писал, что сортировать надо не по TF, а хотя бы по TF*IDF для отбрасывания лишних слов :)

для TF*IDF нужно большуую базу иметь, чего к сожалнию не имею.

sokol_jack:
Да и вобще - все вокруг дураки, а котяра - весь в белом ;) 😂

🍻

sokol_jack:

Конечно, с топиком на форуме сапы вы ознакомились и там "все не правильно", да?
http://forum.sape.ru/showthread.php?t=30235

да, ознакомился недельку назад. Принял к сведению, но имхо там мысли от людей далеких от программирования. Они выдвигали теории, которые слабы в реализации.

Мастер Йода:
Существуют уже готовые системы (алгоритмы) для классификации (кластеризации) текстов. Я бы на вашем месте изучил то что уже (давно) сделано в этом направлении, и только потом, оценив достоинства/недостатки существующих алгоримов и готовых программных средств, начал бы сочинять свой.

Пожалуйста покажите описание подобного алгоритма. Буду очень благодарен.

Мастер Йода:

Почему вы не используете байесовский классификатор ?

Для его построения требуется выборка, содержащая все возможные комбинации переменных - а размер такой выборки экспоненциально растет с ростом числа переменных (т.н. "проклятие размерности").

Мастер Йода:

Недостатков в вашем алгоритме хоть отбавляй. Начиная с однословности (надо использовать как минимум 2) и заканчивая ручной простановкой коэффициентов (бррррр....).

Есть решение как с минимальными затратами обойти однословность? Я видел лишь теории, которые нереально реализовать на практике. Мне и сотни лет не хватит чтобы просчитать подобные алгоритмы для многословности.

Насчет простановки коэффициентов - нельзя ждать от машины результатов, пока сам не научишь ее тому чего хочешь.

Мастер Йода:

В нем нет ни капли благородства, но есть букет. Вы спросите меня: в чем загадка этого букета? Я вам отвечу: не знаю, в чем загадка этого букета. Тогда вы подумаете и спросите: а в чем же разгадка? А в том разгадка, что "белую сирень", составную часть "духа Женевы", не следует ничем заменять, ни "жасмином", ни "шипром", ни "ландышем". "В мире компонентов нет эквивалентов", как говорили старые алхимики, а они-то знали, что говорили. То есть, "ландыш серебристый" - это вам не "белая сирень", даже в нравственном аспекте, не говоря уж о букетах.

Зачем задавать подобный вопрос машине, если человек не сможет дать на него ответ? Ваш текст мал. Дайте полный текст в страниц 10 хотя бы, и его можно будет классифицировать. Тут же почти нет повторений, и тематика была бы "цветы"

MVH:
Могу посоветовать phpMorphy (описание).

спасибо. обязательно ознакомлюсь.

Владислав Железный:
Да, ладно. Одной здравомыслящей головы достаточно, чтобы реализовать подобный алгоритм, главное желание. :) Рутины правда много по составлению словаря... и размытые перспективы по применению. У кого-то одни идеи, у кого-то другие, а какие из них рабочие, да и рабочие ли вообще, можно никогда и не узнать. ;) Тицекрутителям разве что понятно какую пользу из этого можно извлечь.

Одной головы достаточно для реализации алгоритма, но не для составления семантического ядра.

Перспективы - это дополнительный опыт в понимании и дальнейшего совершенствования алгоритмов "антияндекс". Думаю даже такой алгоритм будет лучше чем брать ссылки для сайта про недвижимость со страницы с текстом про фитнесс с сайта про недвижимость.

Тицекрутители меня не волнуют.

kotofeich добавил 20.05.2009 в 20:59

burunduk:
просто лень писать много букв (можно попросить корпарайтеров, они точно напишут :)), но вот вам несколько вариантов тематики текста на странице с ключивиками
"таблетки", "медикаменты", "аптека" и "автомобили":

лекарства, грузоперевозки, логистика и т.д. и т.п. :)

Это легко обьяснить. Если это сайт про фарму, то большинство слов будут про таблетки, и медикаменты, а меньшая часть про грузоперевозки и логистику (скорее всего это доставка медикаментов). Ошибки быть не должно. Я сомневаюсь что сайт про фарму будет везде расписывать про то как они прекрасно доставляют свой товар и какая у них логистика.

kotofeich добавил 20.05.2009 в 21:03

FladeX:
К примеру есть тематики "дом и дача" и "строительство". После отработки алгоритма получаем основные ключевики - "строильство", "дача" (в контексте "строительство дачи"). Вопрос - к какой тематике отнесет такой сайт алгоритм?
Интересно потому, что у меня есть сайт, который я сам затрудняюсь к какой-либо тематике окончательно отнести.

Это будет зависить от коэффициентов сопутствующих слов. В реальности нужно будет найти несколько сайтов, которые вы точно знаете что относятся к дачам и поставить коэффициенты веса слов так, чтобы тема определилась как дача. Аналогично для строительства.

В результате вы узнаете свою тематику.

В пример беру лишь несколько сайтов, поскольку обычному "смертному" не даны мощностя яндекса, и для реализации алгоритма достаточно пары проб.

FladeX:

FladeX добавил 20.05.2009 в 20:48
ЗЫ. Тема интересная, не слушайте некоторых и не закрывайте топик ;)

Закрывать не собираюсь, пока не набежит народ, которым охото поржать над любой темой. Тогда точно будет ясно что обсуждать больше нечего.

Всего: 162