БобрДобр, я только лишь еще по термину "рерайт" хочу пояснить: если вы возьмете из чужого текста лишь голую идею и изложите её целиком своими словами, то в этом случае не будет нарушений авторских прав, т.к. авторским правом защищается только форма, а не суть.
БобрДобр, по всем пунктам - будет нарушение авторских прав, если вы результат опубликуете. Если же только для себя, для исследовательских целей скачаете и обработаете, то скорей всего нарушений не будет, да и не узнает никто.
В вашем случае наверно всё же лучше и проще сфинкс использовать, коль он уже имеется. После набора тайтла идет запрос к сфинксу и результат публикуется в окошке. Как-то так.
toxic steel, определение схожести всегда было нетривиальной задачей, особенно на больших объемах данных. Решений может быть множество - от примитивных до очень сложных, плюс к тому решение зависит от ваших требований и специфики данных. Например, если вы захотите считать схожими фразы типа "Где подстричь пуделя" и "Выбор парикмахерской для собаки", то решение простым не будет и тем более не будет решения "из коробки".
Вам тогда вообще никакой дополнительный модуль не нужен, всё у вас уже есть: просто обязуете контентщика проверять свой тайтл через имеющийся поиск. Если поиск хорошо настроен, он уже должен выдавать схожие материалы, причем отсортированные по убыванию схожести. Ну, или если поиск не годен, доработайте прежде поиск, а потом при желании на сохранение документа повесьте обработчик события с проверкой схожести через простой запрос к имеющемуся поиску.
В вашем случае нормального решения "из коробки" быть не может, но решение может быть простым, если у вас действительно поиск уже нормально настроен на ВАШ контент. ---------- Добавлено 31.07.2018 в 11:15 ---------- Т.е. после ввода тайтла контентщиком или при сохранении документа обработчик должен посылать в сфинкс запрос типа: "Какой то тайтл"~5, где 5 - количество допустимых перестановок слов, плюс к тому настроить параметр грязи (т.е. сколько слов или какую долю можно опустить), а потом высвечивать контентщику окошко с результатами. Т.е. вам нужно лишь в форме редактирования документа реализовать дополнительное взаимодействие с поиском. Это уже несколько иное ТЗ.
toxic steel, вам, кстати, правильно указали на расплывчатость термина "схожесть". Вам прежде всего необходимо определить критерии схожести. Без этого нет смысла что-либо обсуждать.
Далее... сфинкс? И это просто? Честно говоря с финксом не работал, но работал с эластиксёрч. Там сотни взаимосвязанных параметров, настройка такого монстра - это весьма нетривиальная задача. Но повторюсь, пока неопределены требования к схожести, нет предмета обсуждения. Может быть вам какая-нибудь частотность важна или наоборот мешает, может быть у вас какой-нибудь словарь ключевых слов и фраз есть, усиливающих сигналы (а может быть его только предстоит создать?)... и т.д. и т.п.
Но это для большого объема. Для малого количества материалов и при минимальных требованиях наверно можно и "мешком слов" обойтись без всяких сфинксов.---------- Добавлено 30.07.2018 в 22:49 ----------
Да просто всё :)
Пропускаем заголовки и базу фактов через нейронную сеть, выявляем семантические связи, т.е. строим математические семантические модели, потом определяем их схожесть... если модели схожи, выдаем предупреждение... Математический аппарат выношу за скобки...
Да, так лучше (надежнее), но с тем, что в оригинале, разница небольшая. Т.е. шило на мыло. Если это нужно для 5-10 строк. Если бы было много преобразований, то ваш вариант был бы однозначно лучше.
Честно говоря, в вашем варианте проще сделать неочевидную ошибку (нарушение строгого порядка следования сложно заметить), также сложнее отлаживать. Хотя ваш код конечно красивше.
Между if-elseif и switch разница минимальна, в питоне вообще switch нет реализуется через elif.
Я не знаю, какого возраста этот проект. Если древний, то это объяснимо.
А если у самого правообладателя спросить? Если товар на самом деле легален, то в судебном порядке признавать его нелегальным для правобладателя чревато серьезными последствиями.
Конечно, не хотят, если нет оплаты, нет хотя бы договоренности об оплате и... возможно они видят, что нет перспектив продажи по цене, которую вы хотите.
А насколько целесообразно вообще искать покупателей в вашем городе? Может быть в Москве ваша целевая аудитория?
Продвигать сайт с домом в поисковиках или через контекстную рекламу не вижу смысла, сам бы таким образом дом не искал. Но однако польза от сайта может быть, если сделать галереи, подробные описания и пр, и если направлять туда потенциальных покупателей.