Taboo

Рейтинг
10
Регистрация
14.12.2007
nickolas:
сейчас нормально не дублируюется категория яндекс.каталога у всех сайтов

К сожалению вынужден не согласится, по крайней мере в модуле “пакетное определение показателей” через небольшой промежуток проверенных сайтов, происходит дублирование (неверное определение категории).

Я не знаю как в язле реализован способ получения рубрики ЯК (вероятно через бар?), но думаю что язл возможно починить, если собирать рубрику через скачивания обычной страницы ЯК (пример http://yaca.yandex.ru/yca/cat/Computers/Internet/Search_Engines/).

Такой способ наверняка потребляет много трафика (20-50кб на один сайт), зато действует отлично! Уверен в этом т.к. я свом парсером выкачиваю ЯК и все данные тиц и рубрики всегда верны.

Можно реализовать такой способ получения тиц/рубрики в качестве опции, думаю Москва и Петербург на анлимитах, нам точность будет важнее, нежели трафика анлимита..

PS: Если мой php парсер ЯК пригодится создателям язла, с удовольствием вышлю

nickspring, провел скоростные замеры модуля “пакетное определение показателей” и хочется предложить доработать его до общих стандартов язла.

Конкретизирую:

Настройки сети – таймаут 20с, макс. размер 300кб, 10 потоков через прокси (10 проксей, установленных на моем сервере, то есть работают без сбоев тормозов и других гадостей, свойственных бесплатным (ворованным/нелегальным) прокси серверам), интернет канал 2мб.

При таких настройках (10 потоков), за час собрана информация примерно о 250 сайтах.

Если проверять в один поток, то за тот же час примерно те же 250 сайтов.

В один поток и без проксей и опять же все в районе цифры 250.

(замерял с 19 00 до 22 00 по москве)

Делаю вывод, что скорее всего данный модуль не корректно использует многопоточность. Вероятно тоже самое происходит и с другими модулями язла.

Очень хочется что бы многопоточность в модулях работала так же, как и при анализе сайтов.

Качественные прокси и многопоточность экономят колоссальное количество времени, язл долен это иметь в своих модулях :)

Zizizi, полистай ветку, уже обсуждалось, исправить не рационально (или не возможно)

nickspring, http://www.yazzle.ru/ в данный момент не работает.

Беру любой текст, например новости с яндакса, добавляю <b></b>, вставляю в окошко под html код:

1.
Автобус взорвался в пригороде столицы Шри-Ланки, погибли три человека
2.
Американский корабль обстрелял иранский патрульный катер <b>новость часа</b>
3.
Китай возобновит переговоры с Далай-ламой
4.
«Справедливая Россия» на партийном съезде отказалась от красного флага
5.
Овечкин сыграет за российскую сборную на чемпионате мира в Канаде

В отчете из не нормальных вещей:

В теге <b> - одно слово, а не два. (напротив одного слова стоит единичка, остальные слова имеют нолик в столбце <b>)

цыфра 1 - по данным отчета отсутствует в теге <body>. (в соответствующей колонке стоит нолик)

версия программы - 3.0.2 (2380)

Semonitor:
Но главное состоит в том, что поисковики сейчас "поумнели" и прокси не спасают. В новой версии будет возможност задавать паузы между группами слов, что должно помочь решить проблему с проверкой большого числа слов

Когда ожидается данное усовершенствование?

nickspring, В модуле “анализ текста страницы” закралась ошибка. В частности на подсчете h, b, title замечаю, что счетчик врет. Возможно еще где то есть ошибки, не проверял..

Пример: беру свежеенаписанный текст без тегов, выделяю два слова в <b></b>, а счетчик пишет, что в теге b только одно слово.

Semonitor, вопрос у меня..

Возможно, ли в программе задать свои собственный прокси сервера, а не те, которые общедоступные из вашего списка?

Если возможно, то куда и как вводить (какой формат для проксей без авторизации и с вводом логин/пасса) или где об этом почитать.

shop-script.ru по моему мнению оптимален. Он функционален, не дорог и открыт код.

Кроме того, имеется приличная скидка для тех, кто уже покупал движок.

superpalych:
4. Модуль должен уметь параллельно (одновременно) работать с разными ПС, что снизит вероятность бана IP адреса.

Очень странно что данная вещь не реализована т.к. это логичный способ уменьшить шанс бана ip и при этом не тратить время на “пустые” задержки.

Так же меня расстраивает что в гугле и рамблере программа берет по 10 и 15 позиций, когда как функционал поисковиков позволяет парсить 100 позиций на одну страницу.

Не знаю как поисковики отнесутся к запросам страниц, имеющих 100 позиций, но чисто по логике, лучше сделать 1 запрос к гуглу и получить 100 позиций, чем 10 запросов и получить те же 100 позиций.

Хотелось бы реализации этих вещей, т.к. они уменьшат шанс получить бан/капчу.

rustelekom:
а вот насчет их "ограничения" в том или ином виде - очень даже может быть. Во всяком случае власть предержащие наверное очень бы этого хотели - получить возможность блокировать тот или иной ресурс.

Медведев на недавнем РИФе утверждал, что китайской модели интернета у нас не будет. Верить или нет, не знаю, но думаю что врать целевой аудитории не в его интересах.

rustelekom:
вы о серверах?

Да, о серверах.

И как рас таки волнует проблемы с железом т.к. в России, в течение дня можно решить проблему (если сервер свой).

А вот оперативность немецких дц, у которых очереди на аренду по неделе-две, немного напрягает т.к. за 3-4 дня простоя, сайты могут и на месяц из поиска вылететь и это проблема.

Всего: 44