Сервис поддерживает кодировки: utf-8, windows-1251, koi8-r, iso8869-5 и другие.
Разместил по адресу promo.comze.com. Там пока много ошибок, но это я все исправлю. Пользуясь случаем, поздравляю всех с новым годом!
Мой анализатор в основном для этого и использовали. Это помогало сэкономить трафик и время при анализе конкурентов.
Это точно. Интересно, как автор поста проблему решил, если решил конечно.
Похоже нет смысла тратить время и силы на создание сревиса. Очень мало желающих им воспользоваться.
Интересно, автору поста еще нужно решение, или у нас просто дискуссия? Автор отзовись! Решил проблему или нет? Если решил, то как.
А спорить про алгоритм можно бесконечно. Сначала можно обсуждать максимально оптимальный вариант написания скрипта на PHP, потом перейти на Си, и так далее до написания программы на Ассемблере, которая будет расходовать минимум ресурсов и отсеет все дубли за время на доли секунды больше, чем займет чтение всех этих файлов с диска. Я думаю, здесь не стоит перегибать палку. Нужно найти более или менее оптимальный вариант и реализовать его, если это еще нужно.
Давай я напишу, если надо еще.
Можно сделать при помощи PHP скрипта. Просто нужно его написать правильно. Одна проблема, он будет работать долго и алгоритм "хитрый" нужен. Тут есть над чем подумать минут 20-30 :) Один из вариантов (наверное самых НЕоптимальных) - это: открыть файл > прочитать 100 строк в массив > очистить эти 100 строк от совпадений > читать весь файлы кусками (выбрать лучший вариант чтения: по 1 строке, по 100 строк и т.д.) и проверять на совпадения > удалять совпадения > записать строки без совпадений во временный файл > заменить файл из которого читали временным >> прочитать в массив следующий 100 строк и т.д.
WebProgrammer добавил 30.11.2008 в 22:05
Ну можно еще сюда сходить http://www.rusdocs.com/text-duplicate-killer-utilita-dlya-udaleniya-iz-spiska-povtoryayushhixsya-strok
Я не вижу смысла делать конвертер. В AllSubmitter уже есть возможность импортирования (и экспортирования) asd4.
Да.
Под разные программы.