Nick Bubelo

Рейтинг
95
Регистрация
14.09.2004
Должность
командую

Ну, вот. Суммы на partner.yandex.ru и mixmarket.biz выровнялись. Похоже, этот инцидент исчерпан...

FedXP, у Вас блок "Banner Advert" занимает самую "вкусную" часть странички. IMHO, неправильно это...

А я бы "забил" на все это. Написал бы на каждой страничке аршинными буквами, что имярек недобросовестный заказчик, и оставил бы все as is. А время, которое можно было бы потратить на борьбу с "плохим" заказчиком, потратил бы на работу с "хорошим" заказчиком.

Алексей Гурешов, дык, вот: http://www.ua/domains/

Региональный поиск в webalta глючит.

Ищу свой сайт по двухсловному запросу с опцией "Искать в Интернете" -- на 2-й позиции.

Ищу то же с опцией "Искать в Dnepropetrovsk" -- вообще нет в выдаче. Несмотря на то, что домен в зоне .dp.ua 😕

Katrin Baukina:
имхо, низкая вероятность, что такие сайты могут быть на этом форуме. без каталогов и раскрученные. разве что молодые.

Ну не совсем так, только у меня таких штуки четыре есть (самый старый -- 2002г.)

Но они не продаются 🚬

Камиль:
lastadm, мне бы на русском.

http://www.egoroff.spb.ru/portfolio/apache/mod_rewrite.html

Никак.

Только дублировать functions.php на каждом сайте.

Segey, это база, изначально предназначенная для проверки русской орфографии. Там есть словарь основных словоформ русского языка (около 100000), и формализованные правила их изменения. Обычно по ним строят полную базу всех словоформ русского языка (с аффиксами) -- около миллиона, и затем по ней нормализуют слова, найденные в тексте. Сам ispell-словарь найти в инете не поблема, возможно, найдутся и какие-то примеры использования. Гугл рулит ;)

Совсем просто не получается. Я делал так:

1. Отбрасываем стоп-слова (предлоги, союзы, местоимения и т.п.)

2. Нормализуем оставшиеся. Если без словаря -- используем к-л алгоритм стемминга. Я использовал стеммер Портера ( http://snowball.tartarus.org/algorithms/russian/stemmer.html ). Хотя лучше все-таки нормализовать по ispell-овской базе (т.е., со словарем)

3. Сортируем то, что получилось, по частоте.

4. Отбрасываем все, что выше 10% (м.б., 9 или 8 -- в зависимости от объема текста)

5. Из оставшегося первая десятка (или сколько нужно -- м.б., все, что не ниже какого-то %) -- искомое множество.

6. Дополнительно сюда еще можно добавить слова из заголовка/названия (если не вошли)

Всего: 325