DeveloperRu

DeveloperRu
Рейтинг
72
Регистрация
27.02.2009
wdsg:
Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.

хтмл нерегулярный - он убирается напрочь, остаются название менюшек и прочий мусор, примешанный к тексту

выход пока нашел один - использование шинглов и стоп-слов при сравнении 2х страниц одного и того же сайта

c каких пор Битрикс из платных самый безопасный ?

_Владимир_:
Вы на сапе покупаете ссылки с каталогов ???

P.S.: Вот сетку закрытую замутить можно.

какая монетизация с закрытой сетки ?

если парсишь сайт - то яваскрипт вообще не нужен - пользуешься curl функциями пхп и посылаешь сайту информацию о себе, в тч и кукисы, которые сайт тебе ставит

а яваскрипт нужен, если пытаешься кого-то поломать

bimcom:
Тоже идея (оставить на главном диске первую запись а остальное утянуть на доп. диск), но харды "справляются" (RAID загружает ЦП по полной) как появляется сильная дефрагментация (а она появляется через 10 минут работы) - производительность резко снижается (надеюсь от этого спасет вынос на отдельный диск - никакие другие процессы на пути файлов БД чтоб ничего не писали).
PS.
А что будет с индексами? - они тоже растянутся по дискам пропорционально? или останутся на исходном?

об индексах там должно быть подробно расписано

вообще, имхо, я бы делил такую таблицу из 10млн на 25 мелких через партишены и далее экспериментировал - перед разносом на харды

bimcom:
База используется не для коммерческого применения, а для личного опыта, а т.к. раньше с мюскулем работал - вот с помощью него и решил объщитать (раньше максимальные базы с которыми работал ограничивались 50тыс. записями - так что граблей никаких не встречал)
такчто жду подсказки.
PS.
Самое тупое решение которое видится - поставить для этой БД отдельный MySQL сервачек, который будет крутиться на доп. HDD и на отличном порту от основного сервера, но решение кажется не очень красивым.

если все упирается в харды - советую разнесты бд на разные винты простой операцией partition

смотрите подробнее здесь http://dev.mysql.com/tech-resources/articles/mysql_5.1_partitioning.html

суть фичи такова, что вы можете разделить таблицу на несколько частей (незаметно для себя), которые могут лежать на разных хардах

делить можно по первичному ключу, по дате или по какому-то выражению

таким образом, можно повысить производительность

iWeb:
Хм. В ап вылетел из индекса яндекса сайт.

сайт себя окупил ?

а как насчет безопасности скрипта?

спасибо

подскажите, пож-та, несколько уважаемых статей по теме

10 млн мускуль выдержит

главное, чтобы индексы лежали в памяти, то есть оперативы было достаточно

Всего: 504