- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Где-то вычитал, что делается примерно так:
1) Существует таблица-словарь, где (как я понял) записаны вобще все слова: [ID_слова][слово]
2) Текст страницы помещается в таблицу [ID_страницы][Текст_Страницы]
3) Когда обрабатывается какая-либо страница, расчитывается релевантность каждого слова и т.о. заполняется следующая таблица:
[ID_слова][ID_страницы][Релевантность_Слова]
Как-то так... Но при этом нельзя будет учесть, насколько близко располдожены слова поиска. Ну да ладно. Непонятно другое: как все слова записать в (1)? Яндекс, например, и с опечатками ищет...
ИМХО: это всё несовсем правильно. Предложите свои идеи по модернизации или дайте, плиз, документацию почитать (желательно на русском).
Заранее багодарен.
http://www.dcs.gla.ac.uk/Keith/Preface.html
http://citeseer.ist.psu.edu/88449.html
http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15539
http://company.yandex.ru/articles/romip2004.xml
Спасибо за ссылки, но там как-то в общих чертах... Короче, того, что мне нужно, я так и не нашел.
Я пишу поисковик для небольшой внутреннйе сети (5-7 тыс. сайтов). spider, crawler и indexer (с безабразным расчетом релевантности) написал, нашел марфологический словарь (130 тыс. слов).
Осталось разобраться, как это всё должно работать :) Чёткой концепции у меня в голове пока нет.
вообще-то все это делают опенсорсные поисковики на базе sql, mnogosearch, dataparksearch, aspseek.
Спасибо за ссылки, но там как-то в общих чертах... Короче, того, что мне нужно, я так и не нашел.
Я пишу поисковик для небольшой внутреннйе сети (5-7 тыс. сайтов). spider, crawler и indexer (с безабразным расчетом релевантности) написал, нашел марфологический словарь (130 тыс. слов).
Осталось разобраться, как это всё должно работать :) Чёткой концепции у меня в голове пока нет.
Может быть. Но охото чего-то своего, и чтобы постепенно его совершенствовать. Думаю пойдет в зачёт преддипломной практики. Да и MySQL я не жалую, буду пользовать Oracle.
Ну так основная идея такая, что раскладывание всего этого по реляционным таблицам идея заведомо не очень хорошая, но посмотреть структуру базы можно в mnogosearch.
А в принципе, сложностей быть не должно таблица
words:
word_id
word
таблицы
urls:
url_id
url
таблица связей
url_words
url_id
word_id
pos
Может лучше так?
words:
word_id
word
GROUP_ID
urls:
url_id
url
PAGES:
url_id
page_id
page_url
url_words
url_id
GROUP_ID
RELEVANCE
---
Здесь GROUP_ID для объединения слов в группу - для морфологического поиска; PAGES - описывает все страницы с одной главной url (из таблицы urls) - чтобы выдавать только одну самую релевантную страницу сайта; RELEVANCE - чтобы учитывать title, description и "жирность написания"...
Как идея?
не бывает одной, главной страницы.
в смысле она бывает, но она редко бывает релевантной
небольшой внутреннйе сети (5-7 тыс. сайтов).
если не секрет, что это за внутренняя сеть с таким количеством сайтов? это не один сервер по объемам
Для itman: Главная страница здесь, чтобы идентифицировать сайт. Например: forum.searchengines.ru - главная, а остальные - вида: forum.searchengines.ru/showthread.php?t=43850. Это чтобы выдавать пользователю не несколько релевантных страниц одного сайта, а одну самую релевантную.
Для ЗодчийТеней: это городская сеть и серверов в ней много.
Это чтобы выдавать пользователю не несколько релевантных страниц одного сайта, а одну самую релевантную.
не совсем понял вашу логику, вы хотите страницы отвечающие поисковому запросу но принадлежащие одному сайту исключить оставив одну наиболее релевантную? или хотите сгруппировать их?