kostich

Рейтинг
223
Регистрация
24.03.2004
Segey:
Вот самы йинтересный момент, что значит в педальном?

Отсутствует GUI. Что-то параметрами из консоли, а что-то в xml файлах с конфигами. Что бы кормить генерилку "regexp" надо отобрать сколько-то страниц визуально, а это уже "педали". Если сайт на типичном двигуне и в URL идёт перебор id, то это значительно проще, но это всё нужно контролировать. На выходе получается фактически PCRE, которое нужно чуток доработать руками... в новых парсерах получается кусок php кода с обработками... полный автомат может сделать и можно... ниасилил.

PCRE можно генерировать после каких-то обработок даже. Не обязательно кормить её html... можно кормить обичным текстом. Попробуй выкинуть из страницы все html тэги и ты поймешь о чем идёт речь. Сразу нарисуются эти "Главная Домой Поиск Почта Контакты"... один из обработчиков анализирует повторяющиеся фрагменты, а потом генерит что-то, с помощью чего можно проверить эту страницу на соответствие и потом из неё грабануть.

Есть детектор каких-то блоков... т.е. сначала из страницы автоматически выделяются блоки, а потом уже на каждый блок можно повесить что-то своё. Но конфиги все руками, т.к. если начинаю думать о GUI, то получается что-то совсем грандиозное.

Среди грязных выдиралок есть такие, которые работают по совершенно дибильным алгоритмам... самое главное это то, что они работают. К примеру, самая старая, которая писалась для мониторинга новостей. Она выкидывала все html тэги, а в тексте оставляла какие-то расстояние... ну т.е. там объём выкинутых тэгов и т.д... в промежутке получался текстовый файл, в котором по мимо текста была какая-то дополнительная инфа для обработки... далее тупо брался набор каких-то условий (расстояния между абзацами, длина абзацев, количество поряд идущих... etc) и по этим параметрам выгребалось всё, что отвечает этим условиям + то, что стоит рядом... самое удивительное, когда не надо выгребать чисто, а нужен только контент по теме, этот способ подходит на 100%... а если что-то цепляет лишнее, то нужно пару параметров подкорректировать.

Когда генерируешь рефераты, то можно брать только самые большие абзацы.... как вариант. Или 30% самых длинных абзацев... и т.д. и т.п...

У меня есть модуль, на базе нейронки, который берет всё, что считает нужным. Когда он обучался, то его кормили как хорошим контентом, так и плохим. Не буду озвучивать количество нейронов, но тормозило жутко. Длина слов, расстояния между словами, количество заглавных букв, количество дат, количество слов в кавычках, количество запятых, количество точек, количество предложений... и т.д. и т.п.... в него грузилось всё, что только можно выкусить.. в т.ч. и количество слов, которые не проходили проверку по спелчекеру. Потом что-то выкинулось, какие-то параметры, т.к. нейронка загнулась... выгребает оно более или менее, но не со всех страниц... вопрос в том, а для чего нужен контент.

Т.е. вот возможно качнуть кучу страниц, потом задать какой-то ключ, а потом выгрести что-то, что можно использовать для написания статьи и т.д... когда это писалось, то речи о передиралове не шло... это скорее был инструмент для каких-то копирайтеров.

Представь себе, что тебе нужно обработать сотню статей, которые ты потом в своей аналитике будет как-то цитировать.... на копипасты можно убить цельный день, так же как и на чтение. А тут у нас получается всё красиво... копипастим "реферат" в ms word, потом выкидываем лишнее и пишем коменты.

Как писал dema501

Virtuozzo когда она еще была без названия на beta.asplinux.ru

хыхы ;) оч. приятно ;)

Но тем не менее туда нельзя водрузить 15-20 дизайн студий с 40-50тью клиентами у каждой со всей их петрушкой и т.д. ;)))

а 100-150 сайтов всегда можно на сервер засунуть ;)

Как писал Хочу всё знать

Русоникс - сервера на "девятке", панелька удобная, есть возможность начать с дешевого тарифа за $12/мес.

а чёйта из "девятки" такой нимб? ... я мало верю в коммерческую целесообразность держать на "девятке" что либо, кроме маршрутизирующего и каналообразующего оборудования...

РусОникс к Вашему сведению стоит под Караваном ;)

Как писал dema501
(знаю как бывший разработчик). 15-20 VPS на железке отнюдь непредел...
Лично я для своих проектов поставил комп у провейдера в домашней сети. 20$ имею 1GB трафика.

как бывший работник чего? ... и 15-20ть каких?

Как писал Хочу всё знать

FTP хватит одного. Ресурсы и трафик пока не критичны. Для меня сейчас важнее выгодно пристроить домены. Все shared-тарифы при размещении более 10 доменов становяться дороже, чем начальный VPS, где эти домены не ограничены. Тот же Хостер.ру при размещении более 10 доменов просит $50/мес.

Выбери hoster.ru ;))) я там работал, зинаю(tm)

не без глюков, но ты туда позвони, договоришься...

Как писал whity
Понимаю, что с этической точки зрения задача некорректна, но хотелось бы узнать технические аспекты - как можно понизить свой сайт (не сайт конкурента)?

С чего я просто офигеваю, так это с "коммерческой" составляющей всей этой потехи... Не работайте за бесценок и потом не будете сожалеть о проделанной работе...

Как писал Хочу всё знать
kostich, из твоего сообщения я понял, что если не сильно нагружать сервер, то VPS можно брать. Похоже, это как раз то, что мне нужно. 15-20 сайтов с маленькой посещаемостью и без больших php-mysql наворотов выгоднее хостить на VPS, чем брать shared и доплачивать за поддержку каждого дополнительного домена.

Можешь что-нибудь посоветовать? Я сейчас выбираю между Русониксом, ISPserver, Караваном и Арбатеком.

этот VPS не выгоден, смотря что ты хочешь получить в итоге...

ты можешь взять shared к примеру у Хостер.ру и получить кучу доменов, но с одним FTP заходом, если ты дизайн студия и тебе клиентам логины отдавать не надо, т.е. ты комплексно всё ведёшь, то это удобоваримый вариант.

а VPS - это виртуальный выделенный сервер!, что само по себе подразумевает наличия какой-то квалификации по администрированию... на панели полагайся, а сам не плошай... иначе это всё в доилку на саппорт превратится...

из принципа вышеприведённые конторы не посоветую, да бы там непонятная схема оплаты трафика, сегодня она одна, завтра другая...

выбирай конторы, где ПОНЯТНАЯ схема оплаты за трафик, не зависимо от отношей и прочего, иначе выставляемые тебе счета превратяться в какую-то непонятную абонплату... хотя для маленькой посещаемости это без разницы... смотри в будующее иначе даже самый небольшой рост посещаемости может вылиться для тебя во все прелести переезда к другому HSP или в непропорциональное увеличения платы текущему...

иногда необдуманность технических решений может повлечь за собой модификацию всего php софта, что бы переехать в другое место...

самое правильное это использовать какой нибудь независимый хостинг DNS, тогда перескок к другому УЕБ хостинг провайдеру может занимать оч. короткое и прозрачное для посетителей время...

PS. Да бы не один хостинг провайдер в россии не даёт никаких гарантий качества и каких либо РАЗУМНЫХ компенсаций за простой, максимум что люди получали это 1 месяц бесплатного хостинга за какой нибудь косяк...

PPS. Выбирая хостинг для потенциально растущего ресурса задумайся о потенциальной аудитории, что это будет московский DIAL-UP, московские DSL, региональные провайдеры, какая часть россии и т.д. исходя из этого ты можешь всегда выбрать подходяще стоящуу конторку ( в плане каналов ) и мощность технических решений...

к чему это? ... да к тому что если к тебе будут на форум хостящийся на VPS ходить по 20ть дайлапщиков одновременно, то он у тебя из-за нехватки ресурсов будет и ложиться... да бы 20ть запущеных апачей с хорошим фаршем от PHP и не дай бог gdlib с текущей памятью всётаки чего-то жрут... поэтому если ты ориентируешься на dial-up и медленные конекты, то при сразу в shared или dedicated or colo, посольку там либо сам акселерацию настроишь либо у твоего HSP уже стоит акселератор... в Virtuozzo под FreeBSD (таких VPS уже мало кто предоставляет, поскольку они разработку под фрю заморозили) спасал ACCEPT_FILTER, но опять же не сильно... в Virtuozzo под линукс я х.з. чем там с DDOS и slow connection борютца....

вобщем как гриться "если ты в этом не киргиз" ..., то дай денег в shared хостинг и не уповай на красивые рекламные заманухи...

PS. Надо осознавать то, за что ты платишь деньги...

Как писал Maxil
Вы предпочитаете использовать возможности CSS вместо таблиц?
В чем причина "Вёрстка БЕЗ таблиц"?

Вы с каким-то скрытым смыслом у меня это спрашиваете...

1) я заказчик

2) я так хочу

rtfm вобщем, покури пункт @media в рекомендациях w3c к CSS и т.д. 🚬

Как писал Kurt
И так, как я понимаю, наиболее четко вырисовывается 29ое или 28ое мая.
По времени, вероятно, людей устроит 15 или 16 часов.

С местом пошел разлад.
Я бы, к примеру, тоже от пивной 01 не отказался, хорошее место, но оно действительно слабо подходит под такое мероприятие.

А что касается мест, то можно и нужно будет заранее зарезервировать, куда бы в итоге не решили пойти.

Если топать в 11-12 дня в субботу, то с местом проблемм нигде не будет, останется только выбрать и двинуть... ( пивная 01 тоже рулит )

PS. Третьяковка/Новокузнецкая -> самое удачное в плане доезда... вроде всем удобно ( и с Полянки тут пешком 5 мин чапать )

Как писал woffs


ага. "Центр" называется

это не тот "Центр", который на Тульской?

А вообще из хороших мест, не сказать что бы дешевых есть http://muller.ru/ и места где в любую погоду и на любой карман можно

классно поболтать, типа Шеш-Беш на Пятницкой или рядом же Корчма (ТарасБульба) ...

PS. Бильярд я оч люблю и в любом его проявлении, но если будет человек 5-10, то это не игра... столов возможно не хватит, кому-то не интересно курить рядом и т.д.

Всего: 2667