borisd

Рейтинг
262
Регистрация
13.02.2008

БобрДобр, я только лишь еще по термину "рерайт" хочу пояснить: если вы возьмете из чужого текста лишь голую идею и изложите её целиком своими словами, то в этом случае не будет нарушений авторских прав, т.к. авторским правом защищается только форма, а не суть.

БобрДобр, по всем пунктам - будет нарушение авторских прав, если вы результат опубликуете. Если же только для себя, для исследовательских целей скачаете и обработаете, то скорей всего нарушений не будет, да и не узнает никто.

toxic steel:
Да нет же, мне тупая совершенно похожесть нужна

В вашем случае наверно всё же лучше и проще сфинкс использовать, коль он уже имеется. После набора тайтла идет запрос к сфинксу и результат публикуется в окошке. Как-то так.

toxic steel, определение схожести всегда было нетривиальной задачей, особенно на больших объемах данных. Решений может быть множество - от примитивных до очень сложных, плюс к тому решение зависит от ваших требований и специфики данных. Например, если вы захотите считать схожими фразы типа "Где подстричь пуделя" и "Выбор парикмахерской для собаки", то решение простым не будет и тем более не будет решения "из коробки".

toxic steel:
Ну давайте ещё раз что ли повторю: поиск по сайту уже есть, уже работает, уже настроен. Качество поиска устраивает. Вы создаёте проблему там, где её нет от слова вообще.

Вам тогда вообще никакой дополнительный модуль не нужен, всё у вас уже есть: просто обязуете контентщика проверять свой тайтл через имеющийся поиск. Если поиск хорошо настроен, он уже должен выдавать схожие материалы, причем отсортированные по убыванию схожести. Ну, или если поиск не годен, доработайте прежде поиск, а потом при желании на сохранение документа повесьте обработчик события с проверкой схожести через простой запрос к имеющемуся поиску.

В вашем случае нормального решения "из коробки" быть не может, но решение может быть простым, если у вас действительно поиск уже нормально настроен на ВАШ контент.

---------- Добавлено 31.07.2018 в 11:15 ----------

Т.е. после ввода тайтла контентщиком или при сохранении документа обработчик должен посылать в сфинкс запрос типа: "Какой то тайтл"~5, где 5 - количество допустимых перестановок слов, плюс к тому настроить параметр грязи (т.е. сколько слов или какую долю можно опустить), а потом высвечивать контентщику окошко с результатами. Т.е. вам нужно лишь в форме редактирования документа реализовать дополнительное взаимодействие с поиском. Это уже несколько иное ТЗ.

toxic steel, вам, кстати, правильно указали на расплывчатость термина "схожесть". Вам прежде всего необходимо определить критерии схожести. Без этого нет смысла что-либо обсуждать.

Далее... сфинкс? И это просто? Честно говоря с финксом не работал, но работал с эластиксёрч. Там сотни взаимосвязанных параметров, настройка такого монстра - это весьма нетривиальная задача. Но повторюсь, пока неопределены требования к схожести, нет предмета обсуждения. Может быть вам какая-нибудь частотность важна или наоборот мешает, может быть у вас какой-нибудь словарь ключевых слов и фраз есть, усиливающих сигналы (а может быть его только предстоит создать?)... и т.д. и т.п.

Но это для большого объема. Для малого количества материалов и при минимальных требованиях наверно можно и "мешком слов" обойтись без всяких сфинксов.

---------- Добавлено 30.07.2018 в 22:49 ----------

Sitealert:
Например:
Сергей Собянин поздравил московских метростроевцев.
Сергей Собянин поздравил работников МВД.
Московских метростроевцев пригласили в Кремль.
Работники МВД провели обыски у московских метростроевцев.

Да просто всё :)

Пропускаем заголовки и базу фактов через нейронную сеть, выявляем семантические связи, т.е. строим математические семантические модели, потом определяем их схожесть... если модели схожи, выдаем предупреждение... Математический аппарат выношу за скобки...

silicoid:
окай, а вот такой вариант не проще для восприятия?

Да, так лучше (надежнее), но с тем, что в оригинале, разница небольшая. Т.е. шило на мыло. Если это нужно для 5-10 строк. Если бы было много преобразований, то ваш вариант был бы однозначно лучше.

silicoid:
нет, ну чесслово, что мешало сделать вот так?

Честно говоря, в вашем варианте проще сделать неочевидную ошибку (нарушение строгого порядка следования сложно заметить), также сложнее отлаживать. Хотя ваш код конечно красивше.

silicoid:
или как вам 20 штук if-elseif с одним условием.
когда там просто switch - case должен быть без вариантов

Между if-elseif и switch разница минимальна, в питоне вообще switch нет реализуется через elif.

silicoid:
Объектное программирование? а что это?!

Я не знаю, какого возраста этот проект. Если древний, то это объяснимо.

А если у самого правообладателя спросить? Если товар на самом деле легален, то в судебном порядке признавать его нелегальным для правобладателя чревато серьезными последствиями.

rklending:
Тут либо они работать не хотят

Конечно, не хотят, если нет оплаты, нет хотя бы договоренности об оплате и... возможно они видят, что нет перспектив продажи по цене, которую вы хотите.

rklending:
не удивительно зная наш город

А насколько целесообразно вообще искать покупателей в вашем городе? Может быть в Москве ваша целевая аудитория?

Продвигать сайт с домом в поисковиках или через контекстную рекламу не вижу смысла, сам бы таким образом дом не искал. Но однако польза от сайта может быть, если сделать галереи, подробные описания и пр, и если направлять туда потенциальных покупателей.

Всего: 2244