Петр Елагин

Петр Елагин
Рейтинг
197
Регистрация
21.03.2007
Должность
Голова
Roman77:
Nigma не побоюсь этого слова - Ру
начала с помощью волонтёров вычищать поиск от "плохих" сайтов, зарегистрированным пользователям за активный стук приз - телефон
Ручной отбор, тот о котором деликатно умалчивают Яндекс и Гугл вовсю афишируется Нигмой,
акцию назвали "Генеральная уборка"
http://www.nigma.ru/index_menu.php?action=click_menu&menu_element=gen_uborka

Скандалы, интриги, расследования

Скрипт напишу, я думаю пока не поймут что и как загнать половину конкуров в бан ))))) не так сложно ) ручной отбор )

rush4rk:
Нужен програмер, работы на пол часа.
Нужно написать скриптик на пхп, подробнее в аську 192-54-3-1-2

за пол часа сколько заплатите то ?

DeveloperRu:
начинать изучать язык необходимо с С++

объясню, почему: разницы в синтаксисе с паскалем немного, с пхп такой разницы еще меньше

зато С++ с самого начала приучает к аккуратности и объясняет, что переменная - это не абстрактная сущность, а ячейка в памяти, имеющая свой адрес и тп

то же самое касается и других моментов, свойственных современным языка - как классы, наследование и тп

Вы сайт то на с++ сделайте, потом 10 сайтов, а потом поуправляйте этим хозяйством)

Сделал органичение на ВСЁ количество ссылок. - оно ровно 30к.

т.е. если количество ссылок с сайта превышает 30к. я останавливаю процес сканирования, если вы считаете, что я не прав. отпишите.

Maximalist:
да, всё норм.

Сайт был не доступен при большом количестве потоков.

Operation timed out after 60000 milliseconds with 0 bytes received

______________________

Уменьшил потоки, получил вот что, на этой странице нет ссылок для парсинга.

xxxxxxxx портал

Сайт недоступен.

Пожалуйста, сообщите об этом Администратору

Невозможно подключиться к серверу базы данных

Отпишите мне . я поставлю для вас специальный режим.

EugeneVC:
Но если собрался в SEO - то бери php.

Это вы так зря, пхп легок для усваения, но когда начинается что-то крупное, пхп не справляется с задачами, которые на него хотят возложить, лучше сразу изучать, то, что можно использовать в разных сферах, а не только показ html страничек ( да простят меня любители пхп, но опыт работы на пхп более 5 лет дает свое)

AlienZzzz добавил 20.06.2009 в 10:55

Николай В.:
+1. Языки куда красивее PHP, веб-фреймворки очень хороши.

Согласен на все 100. и пхп не потоковый.

~..:::Bo$$:::..~:
Я бы хотел изучить язык програмирования. С какого языка вы бы посоветовали начать, если я еще не один язык програмирования не знаю? Если не трудно, то можно сразу ссылочку на подходящий учебник? Заранее благодарю!

Начни с хорошего: Python( http://ru.wikipedia.org/wiki/Python ), Ruby ( http://ru.wikipedia.org/wiki/Ruby)

AlienZzzz добавил 20.06.2009 в 10:50

shareyourtrade.com:
Советую начать с C#. Это очень простой язык в освоении и в будущем очень пригодится для разработки сайтов под ASP.NET либо разработки Windows-приложений. По сравнению с Delphi или C++ он преобладает потому, что позволяет сосредоточиться именно на логике приложения, а не на указателях, и.т.д.

изучение шарпа - это кабала микрософта. далее нет выхода ) будите сидеть только на виндовозе и не ощутите всю прелесть потоковой Фуги ))

Есть и Мы еще), ввсе что написали есть . отпиши в личку ) если заинтересовались.

Робот прикрутил, пользуйтесь.

Суть процесса такая -

Я собираю все Disallow: по файлу роботс, и отбрасываю пустые строчки, после этого , если у меня встречается ссылка со вхождением по Disallow, я ее не добавляю и не захожу по ней.

____

Задержу брать могу, но пока не сунул, так как нужно подумать куда ее сувать (!)

___

Вопрос в Зал, никто не против будет если я количество потоков буду устанавливать по количеству добавляемых сайтов , ну например :

10 сайтов = это 3 потоков

50 сайтов = это 10 потоков

500 сайтов = это 50 потоков

1000 сайтов = это 70 потоков

3000 сайтов = это 100 потоков

5000 сайтов и выше = это 300 потоков

_____

при условии, Если не стоит спец установок для пользователя.

сейчас стоит 30 потоков по умолчанию и у меня получается простой, когда добавляют по 10к сайтов, хапать по 30 сайтов очень накладно( инициализация процеса - как оказалось по профайлу очень тяжеловестна )

2! - ограничение захода нашего робота до УВ2 (второго уровня вложенности) страниц

3! - ограничение захода нашего робота до УВ3 (третьего уровня вложенности) страниц

____

Добавлено, в принципе можно любой уровень указывать, по умолчанию пропарсит все страницы, если будет число, то по сути это количество моих итераций :

2- от морды на 1

3- от морды на 2

ну и так далее.

П.С. прикручиваю роботс )

Всего: 1582