К сожалению вынужден не согласится, по крайней мере в модуле “пакетное определение показателей” через небольшой промежуток проверенных сайтов, происходит дублирование (неверное определение категории).
Я не знаю как в язле реализован способ получения рубрики ЯК (вероятно через бар?), но думаю что язл возможно починить, если собирать рубрику через скачивания обычной страницы ЯК (пример http://yaca.yandex.ru/yca/cat/Computers/Internet/Search_Engines/).
Такой способ наверняка потребляет много трафика (20-50кб на один сайт), зато действует отлично! Уверен в этом т.к. я свом парсером выкачиваю ЯК и все данные тиц и рубрики всегда верны.
Можно реализовать такой способ получения тиц/рубрики в качестве опции, думаю Москва и Петербург на анлимитах, нам точность будет важнее, нежели трафика анлимита..
PS: Если мой php парсер ЯК пригодится создателям язла, с удовольствием вышлю
nickspring, провел скоростные замеры модуля “пакетное определение показателей” и хочется предложить доработать его до общих стандартов язла.
Конкретизирую:
Настройки сети – таймаут 20с, макс. размер 300кб, 10 потоков через прокси (10 проксей, установленных на моем сервере, то есть работают без сбоев тормозов и других гадостей, свойственных бесплатным (ворованным/нелегальным) прокси серверам), интернет канал 2мб.
При таких настройках (10 потоков), за час собрана информация примерно о 250 сайтах.
Если проверять в один поток, то за тот же час примерно те же 250 сайтов.
В один поток и без проксей и опять же все в районе цифры 250.
(замерял с 19 00 до 22 00 по москве)
Делаю вывод, что скорее всего данный модуль не корректно использует многопоточность. Вероятно тоже самое происходит и с другими модулями язла.
Очень хочется что бы многопоточность в модулях работала так же, как и при анализе сайтов.
Качественные прокси и многопоточность экономят колоссальное количество времени, язл долен это иметь в своих модулях :)
Zizizi, полистай ветку, уже обсуждалось, исправить не рационально (или не возможно)
nickspring, http://www.yazzle.ru/ в данный момент не работает.
Беру любой текст, например новости с яндакса, добавляю <b></b>, вставляю в окошко под html код:
В отчете из не нормальных вещей:
В теге <b> - одно слово, а не два. (напротив одного слова стоит единичка, остальные слова имеют нолик в столбце <b>)
цыфра 1 - по данным отчета отсутствует в теге <body>. (в соответствующей колонке стоит нолик)
версия программы - 3.0.2 (2380)
Когда ожидается данное усовершенствование?
nickspring, В модуле “анализ текста страницы” закралась ошибка. В частности на подсчете h, b, title замечаю, что счетчик врет. Возможно еще где то есть ошибки, не проверял..
Пример: беру свежеенаписанный текст без тегов, выделяю два слова в <b></b>, а счетчик пишет, что в теге b только одно слово.
Semonitor, вопрос у меня..
Возможно, ли в программе задать свои собственный прокси сервера, а не те, которые общедоступные из вашего списка?
Если возможно, то куда и как вводить (какой формат для проксей без авторизации и с вводом логин/пасса) или где об этом почитать.
shop-script.ru по моему мнению оптимален. Он функционален, не дорог и открыт код.
Кроме того, имеется приличная скидка для тех, кто уже покупал движок.
Очень странно что данная вещь не реализована т.к. это логичный способ уменьшить шанс бана ip и при этом не тратить время на “пустые” задержки.
Так же меня расстраивает что в гугле и рамблере программа берет по 10 и 15 позиций, когда как функционал поисковиков позволяет парсить 100 позиций на одну страницу.
Не знаю как поисковики отнесутся к запросам страниц, имеющих 100 позиций, но чисто по логике, лучше сделать 1 запрос к гуглу и получить 100 позиций, чем 10 запросов и получить те же 100 позиций.
Хотелось бы реализации этих вещей, т.к. они уменьшат шанс получить бан/капчу.
Медведев на недавнем РИФе утверждал, что китайской модели интернета у нас не будет. Верить или нет, не знаю, но думаю что врать целевой аудитории не в его интересах.
Да, о серверах.
И как рас таки волнует проблемы с железом т.к. в России, в течение дня можно решить проблему (если сервер свой).
А вот оперативность немецких дц, у которых очереди на аренду по неделе-две, немного напрягает т.к. за 3-4 дня простоя, сайты могут и на месяц из поиска вылететь и это проблема.