WebProgrammer

Рейтинг
2
Регистрация
27.11.2008

Сервис поддерживает кодировки: utf-8, windows-1251, koi8-r, iso8869-5 и другие.

Разместил по адресу promo.comze.com. Там пока много ошибок, но это я все исправлю. Пользуясь случаем, поздравляю всех с новым годом!

SeoRegistrator:
... и по конкурентам пробежаться не помешало бы :) ИМХО

Мой анализатор в основном для этого и использовали. Это помогало сэкономить трафик и время при анализе конкурентов.

BigBoss:
Прав на 100%.
Но этим оно и интересно :)

Это точно. Интересно, как автор поста проблему решил, если решил конечно.

Похоже нет смысла тратить время и силы на создание сревиса. Очень мало желающих им воспользоваться.

Интересно, автору поста еще нужно решение, или у нас просто дискуссия? Автор отзовись! Решил проблему или нет? Если решил, то как.

А спорить про алгоритм можно бесконечно. Сначала можно обсуждать максимально оптимальный вариант написания скрипта на PHP, потом перейти на Си, и так далее до написания программы на Ассемблере, которая будет расходовать минимум ресурсов и отсеет все дубли за время на доли секунды больше, чем займет чтение всех этих файлов с диска. Я думаю, здесь не стоит перегибать палку. Нужно найти более или менее оптимальный вариант и реализовать его, если это еще нужно.

dino_spomoni:
Ну вот. Осталось только что б кто-то написал :)



5 wmz на пиво хватит?

Давай я напишу, если надо еще.

dino_spomoni:
Чем можно это сделать? Пробовал найдеными PHP скриптами - конечно же не хватает памяти. Спасибо.

Можно сделать при помощи PHP скрипта. Просто нужно его написать правильно. Одна проблема, он будет работать долго и алгоритм "хитрый" нужен. Тут есть над чем подумать минут 20-30 :) Один из вариантов (наверное самых НЕоптимальных) - это: открыть файл > прочитать 100 строк в массив > очистить эти 100 строк от совпадений > читать весь файлы кусками (выбрать лучший вариант чтения: по 1 строке, по 100 строк и т.д.) и проверять на совпадения > удалять совпадения > записать строки без совпадений во временный файл > заменить файл из которого читали временным >> прочитать в массив следующий 100 строк и т.д.

WebProgrammer добавил 30.11.2008 в 22:05

Ну можно еще сюда сходить http://www.rusdocs.com/text-duplicate-killer-utilita-dlya-udaleniya-iz-spiska-povtoryayushhixsya-strok

les100:
Советую начать с конвертора в обе стороны asd4.
Его и продавать. ☝

На этом можно и остановиться.

Я не вижу смысла делать конвертер. В AllSubmitter уже есть возможность импортирования (и экспортирования) asd4.

LEOnidUKG:
Тут другой вопрос.... а есть ли сколько сайтов, РАБОЧИХ, для этой утопической "Громадной" базы?

Да.

Ловец снов:
Смысл конвертировать?

Под разные программы.

12
Всего: 16