хтмл нерегулярный - он убирается напрочь, остаются название менюшек и прочий мусор, примешанный к тексту
выход пока нашел один - использование шинглов и стоп-слов при сравнении 2х страниц одного и того же сайта
c каких пор Битрикс из платных самый безопасный ?
какая монетизация с закрытой сетки ?
если парсишь сайт - то яваскрипт вообще не нужен - пользуешься curl функциями пхп и посылаешь сайту информацию о себе, в тч и кукисы, которые сайт тебе ставит
а яваскрипт нужен, если пытаешься кого-то поломать
об индексах там должно быть подробно расписано
вообще, имхо, я бы делил такую таблицу из 10млн на 25 мелких через партишены и далее экспериментировал - перед разносом на харды
если все упирается в харды - советую разнесты бд на разные винты простой операцией partition
смотрите подробнее здесь http://dev.mysql.com/tech-resources/articles/mysql_5.1_partitioning.html
суть фичи такова, что вы можете разделить таблицу на несколько частей (незаметно для себя), которые могут лежать на разных хардах
делить можно по первичному ключу, по дате или по какому-то выражению
таким образом, можно повысить производительность
сайт себя окупил ?
а как насчет безопасности скрипта?
спасибо
подскажите, пож-та, несколько уважаемых статей по теме
10 млн мускуль выдержит
главное, чтобы индексы лежали в памяти, то есть оперативы было достаточно