SeWork

SeWork
Рейтинг
133
Регистрация
14.10.2007

Вот если бы можно было деньги с Адсенс выводить ЯДами, тогда тругое дело 🚬, а так, что кредиткой, что ЯДами, одинаково удобно пополнять.

ничего, его нет, в метатегах тоже

Как минимум хотелось бы видеть, какой именно режим запросов используется в данный момент. Хотя бы небольшую пометку в статусной строке.

Сделаем, только было бы хорошо если бы вы расписали зачем вам эти данные.

Распознавать в смысле "вводить" не надо, просто определить, что попали на страницу с капчей и остановить парсинг с выдачей соответствующего сообщения, не более того.

добавим отдельной опцией 🚬

только еще уточняющий вопрос, остановка парсинга всех параметров, или остановка чекера позиций в Яндексе.

P.S. При таймауте 15-21 сек удачно напрямую парсил с Яндекса более 2 тыс. запросов.

Malcolm:
У меня тоже пожелание - научить программу распознавать капчу Яндекса и останавливаться хотя бы. А то как-то поставил низкий таймаут и обнаружил это только когда бан IP получил.

С автоматической регистрацией IP в XML.Яндекс здорово придумали, очень удобно. Только хотелось бы какое-нибудь уведомление в случае если регистрация IP не удалась (адрес уже используется, например, или пароль не правильный) и в тот момент, когда лимит запросов окончен и программа переключается на прямые запросы к выдаче.

1. Распознавать капчу - это не выход, при бане IP, Яндекс будет под каждый запрос подсовывать капчу, пока полностью не заблокирует выш IP, с меткой "Вы робот" Поскольку автоматическое распознавание не возможно, придется прибегнуть к услугам сервиса Антикапча. 1 тысяча капч обойдется в 1$. Но так как я уже написал выше, Яндекс не будет постоянно подсовывать вам капчу, через 10-20 запросов вместо капчи будет метка "Вы робот".

2.Насчет остановки, то есть кнопка "Стоп", результаты при этом не теряются. (если я правильно понял вашу мысль, или может быть вы про паузу говорили?)

3. Уведомление при неудачно регистрации IP можно, только зачем, программа сама автоматические перейдет на прямые запросы к выдаче, если:

а)неудачная регистрация IP

б)не правильный пароль или логин

в)лимит запросов XML исчерпан

ТС респект. Будут ли новые версии и что планируется добавить?

Пока не разглашаем что именно будет добавлено, но две новых функции уже в разработке.

Алилуя!
16 минут работы Text Replacer, выполнила замену кода в 37 000 файлах.

а по другому и быть не могло, я делал замены не только в более чем 100к файлах, но некоторые были от 10мб, до гига :)

Время конечно не засекал, обычно такие процессы ставлю на ночь, но если надо днем, то запускаю и ставлю приоритет в диспетчере задач -> "Низкий". Тогда можно комфортно работать и в других приложениях, а не ждать смотря на статусную строку пока весь компьютер висит.

rypy:
А чем Notepad++ не устраивает?

ну как бы для 40 тысяч страниц, человеку весьма накладно, через блокнот править 🚬

@Text Replacer

http://www.infortech.ru/products/others/tr/download.html#screen

Работает очень быстро.

Есть еще Text Crawler, он поддерживает замену по регуляркам.

Скрипт не предназначен для работы с морфологией, обработка текстов, синонимизации, граббера, создания сайтов, и т.д. и т.п. у него есть свои функции, и направление в развитии совершенно другое.

При таких раскладах, даже с 50 RSS-лентами уже понадобился бы сервер. Поэтому мы сделали всё, абсолютно все, чтобы скрипт нормально функционировал даже на виртуальном хостинге! Примитивизм - это если б это был не скрипт сабмита новостей в социальные закладки, а CMS, дороген, или портатор.

ИМХО достойные теги: курс, курсы, USD, валюты, торги.

Да, их составили вы, составил бы я, или любой другой думающий человек, но этого не сделает компьютер, так же как не напишет стихи или книжку, не стоит плавать в иллюзиях. На данном этапе технического прогресса это невозможно.

Дальнейшие дискуссии считаю бессмысленными, так как тема совсем не об этом. Если хотите, можно продолжить в ICQ 🚬

SeWork, ваш способ несколько хуже. У sokol_jack слова меняют падеж, что значительно улучшает восприятие. А вообще, оба метода не очень хороши - люди такие тэги не пишут

Теги, которые не отражают суть новости, будь они в главном падеже или другом, это как мертвому припарка. В данном случае стояла конкретная задача, максимальное количество внешних ссылок на ресурсы пользователей, с более-менее вменяемыми тегами, эта задача выполнена. Программист за 3-4 дня может прикрутить и морфологический анализ и другие функции, только вы и сами понимаете что они в данном случае вовсе не нужны ;)

sokol_jack:
Вобщем, все банально + random 😮
Да, если не сложно.

А зачем нагружать сервер если есть простое и удобное решение? А банальное решение, это взять первые слова из текста, и засабмитить их в теги! Может слышали про гениальную простоту :)

Текст1

Как мы уже говорили в пятницу, Англия переходит на новый план спасения банков и стимулирования кредитной активности. Новейшие меры предполагают страхование банковских рисков по займам на фоне увеличение доли государственного присутствия в банковском

Сгенерированные теги:

государственного, присутствия, увеличение, займам, рисков, банковском, секторе, потребительского, кредитования

Текст2:

В пятницу на южноамериканской сессии курс USD США торговался разнонаправлено против главных валют. Сначала торгов рост южноамериканских фондовых индексов посодействовал курсам главных валют подняться против USD.

Теги:

против, главных, фондовых, индексов, посодействовал, подняться, валют, курсам, южноамериканских

Как видите теги генерируются ничуть не хуже чем у вас 🚬

Ссылку на страницу аккаунта отправил в ПМ!

P.S. Да и не думаю что при наличии в скрипте 100 RSS-лент для сабмита, пользователь захочет нагружать свой хостинг, или ВДС сложнейшей (никому не нужной в данном случае) генерацией тегов, по стоп словам, количеством символов, вычисление падежа, во избежание повтора и прочее и прочие параметры.

Для сравнения прогнал те же тексты через ваше генератор.

Для Текста1 сгенерировалось всего 2 тега, хотя я указал 10

банковский, новый

Для Текста2 сгенерировало 4 тега

южноамериканская, главные, курс, валюты
sokol_jack:
О, вот это интересно особо. Где поглядеть можно?
Или все банально - первое предложение - заголовок, первые 300 символов - описание, самые частые слова - тегами будут?

Нет, почему первое предложение? В RSS ленте есть свой заголовок новости, вот он и вставляется в поле "Заголовок"; описание первые 200-300 символов; теги генерируются из текста, но не самые частые слова, так как их из короткой новости просто напросто не определить, они выбираются случайно.

Вам ссылку на аккаунт в социальных закладках дать?

Всего: 1173