- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Акция! Покупайте до 7-го июня Penguin Premium Edition и Penguin Standard Edition, а так же X-Parser Light со скидкой 50%. Промокод акции - 4373A6B805C44417.
Хотелось бы иметь возможность по фильтрации дублей(и выборке), указав кол-во слов, которые следует игнорировать.
Пример:
Вася хочет купить большую и красивую легковую автомашину
Петя хочет купить большую и красивую легковую автомашину
Маша хочет купить большую и красивую легковую автомашину
Валя хочет купить большую и красивую легковую автомашину
Гриша хочет купить большую и красивую легковую автомашину
В данном примере если выставить в игнорируемый параметр 1 - то отфильтруется первое слово, после дубли и на выходе будет:
"хочет купить большую и красивую легковую автомашину"
Если я Вас правильно понял, то Вы можете сделать следующее: на вкладке Операции ввести "^[^ ]+ ", это удалит первые слова в каждой фразе, для удаления двух слов - "^[^ ]+\s+[^ ]+ " ", ну и по аналогии для 3-х и более слов, а затем удаляйте дубли. Таким же образом можно удалить любое слово во фразе, последнее будет так: "[^ ]+$". В целом можно добавить опцию удалить слова с k1 по k2, где k1 - позиция первого удаляемого слова, k2 - последнего. Если такой функционал нужен - напишите об этом ниже.
Добрый день. Мне нужно сделать выборку по 2000 анкорам. У меня на 11.7 версии не работает задание имени файла. Т.е выделяю в "списке включений" ключи, нажимаю F2 - и ничего не происходит.
Если выделить 1 слово в редакторе - то создается нормально.
А если в редакторе выделить несколько анкоров и нажать на F2 - то во включениях получается каша:
Так же не работает функция "Удалить явно дублирующие строки":
В итоге получается нормально. Дубли с оригиналом удалились. Результат:
1
2
3
4
5
6
7
8
Открываю файл с 9кк строками в EmEditor-е. Копирую с него же + 200к строк, получатся = 9.2кк строк. Далее в Пингвине делаю - "Удалить явно дублирующие строки" - получается итоге 9кк строк.
Почему оригинал остался?
Прежде всего, хочу поблагодарить ТС'а за программу - это реально крутая штука, жаль что не знал о ней раньше.
Не смог сам разобраться, как после чистки ключей удалить все строки, содержащие менее 3 слов?
Долго создавал кластеры, сохранил проект, чтобы продолжить позже. После открытия этого проекта везде пусто, настройки слетели, сохранились только слова исключения. На вкладке "кластеризация" список базовых слов пустой. Думал проект сохраняется как в кей коллекторе.
Как сохранять проект без потери уже сделанного?
Итак, давайте разберемся с поставленными вопросами:
Т.е выделяю в "списке включений" ключи, нажимаю F2 - и ничего не происходит.
F2 в окне редактора как раз и срабатывает именно для выделенного текста, а не для списка выделенных строк. Вам же нужно указать Ваши условия в списке включений и в контекстном меню выбрать первую строку "Подставить к каждому условию имя файла (условие:=условие.txt)" и получите нужный Вам результат. В принципе можно добавить алгоритм, который и из окна редактора будет условия вставлять построчно, сделаю.
Так же не работает функция "Удалить явно дублирующие строки":
...
Открываю файл с 9кк строками в EmEditor-е. Копирую с него же + 200к строк, получатся = 9.2кк строк. Далее в Пингвине делаю - "Удалить явно дублирующие строки" - получается итоге 9кк строк.
Почему оригинал остался?
Функцию удаления явных дублей проверил - работает корректно. По строкам: при открытии файла пингвин не читает файл целиком, а читает первые 5к строк и считает примерное количество строк, и может очень сильно ошибаться, если например в начале файла строки короткие а в конце длинные. После же каждой операции, прочитав файл, пингвин показывает уже точное количество строк. Если нужно точно посчитать строки, то нужно нажать на кнопку пересчета в виде оранжевой стрелки, которая расположена в стаусбраре рядом с количеством строк. И так же обратите внимание, что при открытии файла пингвин пишет "Количество строк (примерно)".
Не смог сам разобраться, как после чистки ключей удалить все строки, содержащие менее 3 слов?
Вот скриншот с настройками для этого:
Долго создавал кластеры, сохранил проект, чтобы продолжить позже. После открытия этого проекта везде пусто, настройки слетели, сохранились только слова исключения. На вкладке "кластеризация" список базовых слов пустой. Думал проект сохраняется как в кей коллекторе.
Как сохранять проект без потери уже сделанного?
Смотрите, проект с кластерами сохраняется вот здесь, на вкладке кластеризации, а в меню сохраняется проект с первой вкладки, так как эти 2 модуля независимые друг от друга и настройки и результаты их никак не связаны:
эти 2 модуля независимые друг от друга и настройки и результаты их никак не связаны
Теперь понятно, спасибо.
Если таблицу кластеризации отсортировать , например по алфавиту или по возрастанию, то чекбоксы перестают отмечаться с первого раза.