- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Качнул XML каталог книг. 400Мб не для слабонервных конечно, ну да ладно - хотел разобраться.
Что Выходит:
Предположим хотим сделать выборку книг одного автора. Что делаем теоретически Зная ID автора - получаем книги соответствующие этому ID, но вот незадача, возьмем например Лермонтова:
Т.е. одному автору соответсвует несколько ID - бред? Как быть в такой ситуации?
Тем более что, как я подозреваю, однозначно зашить к себе в базу соответствия IDs-АВТОР нельзя, т.к. кол-во ID ему соответствующих может увеличиться в любой момент. Поиск по фамилии автора ничего не дает т.к. мы уже видим несколько вариантов:
Лермонтов, Михаил
Лермонтов М. Ю.
Лермонтов Михаил
В данном случае выбирать ID по фамилии возможно, но если фамилия например Петров, то однозначного соответствия провести нельзя.
Вопрос - как работать с таким каталогом?
Примитивный пример, есть автор, нужно выбрать все его книги - какие варианты?
А никак. Когда у нас в Актисе делали www.24x7.ru (один из первых руинетмагов по книгам) столкнулись с тем, что даже одна и та же книга у разных поставщиков может быть поименована десятью способами. Типа "Лермонтов, Пушкин, Толстой" или "Лермонтов и др." и пр.
Пишите обработчик синонимов, можно самообучающийся с предположениями и т.д. Эффективность будет все равно низкая, но выше совсем ручной обработки. Можно попробовать сопоставлять названия книг, чтобы вычислять варианты написания автора. Но от разных Петровых вы все равно никак не защититесь (по крайней мере в такой постановке задачи).
Дело в том что число собственно авторов конечно. Т.е. поэтов например в России можно насчитать штук 800 (включая совсем неизвестных может быть тысячу). С писателями примерно такая же ситуация. Сл-но сама идея делать выборки исключительно по писателям неплоха. В пределах того же Озона каждой книге ручками прописываются соответствия "автор-ID" плохо то что дополнительно плодят лишние ID-шники... Вот и хочется понять как с этим бороться.
Почему бы не воспользоваться регулярными выражениями, и не получить все айдишники, строка имени которых начинается с (или просто содержит) "Лермонтов"?
А можно просто заюзать XQuery.
Почему бы не воспользоваться регулярными выражениями, и не получить все айдишники, строка имени которых начинается с (или просто содержит) "Лермонтов"?
Потому что если автора зовут "Петров" или "Толстой" то возникает проблема ошибочных выборок.
Тогда прогонять содержимое тега через три паттерна.
Один проверяет фамилию.
Два других - имя (полное вхождение, и как первую букву имени с точкой в конце).
Программная реализация такой проверки не составит особого труда.
В любом случае, имя либо будет прописано полностью, либо будет обозначено инициалом. Разве нет так, и есть ещё варианты формата написания?
Тогда прогонять содержимое тега через три паттерна.
Один проверяет фамилию.
Два других - имя (полное вхождение, и как первую букву имени с точкой в конце).
Программная реализация такой проверки не составит особого труда.
В любом случае, имя либо будет прописано полностью, либо будет обозначено инициалом. Разве нет так, и есть ещё варианты формата написания?
Да то что "конструкций" можно нагородить - это понятно, только это не решает проблемы.
Встречаются ведь и перлы вроде:
Соловьёв, Сергей Михайлович — (1820-1879), русский историк.
Соловьёв, Сергей Михайлович — (1885-1942), русский поэт.
оба немало понаписали, а мне надо только одного из них выбрать - напр. историка.
Сумеете склепать регулярку для этого случая - можете считать что "памятник нерукотворный ..." Пушкин про Вас написал. :)
Хотелось бы услышать представителя Озона - вдруг у них отдельно есть таблица соответствий...
А он филонит... :) Хотя был на сайте: 13.01.2009 в 10:23. Тему наверняка видел.
Мы со своей стороны боремся с такими дублями авторов. Но, к сожалению, ассортимент настолько огромен, что быстро переименовать все созданные когда-либо карточки товаров - не представляется возможным.
Мы со своей стороны боремся с такими дублями авторов. Но, к сожалению, ассортимент настолько огромен, что быстро переименовать все созданные когда-либо карточки товаров - не представляется возможным.
Уже веселее - тогда вопрос - это означает что больше такие ID плодится не будут? Т.е. как максимум будут использоваться только те которые уже есть в базе и соответственно однократное составление базового списка из существующих ID решает проблему? Или не так?
2 malls
При прилагаем для этого все усилия. Такие дубли появляются, к сожалению, благодаря человеческому фактору. Исключать подобные случаи нельзя, но надеюсь "благодаря" воздействию на административном уровне они сведутся к минимуму.