Serg_CS

Рейтинг
57
Регистрация
11.02.2013
afonik:
Да, обновилась. Но так и не может завершить сбор ссылок, мигает "Останов..." и все.

Доброго времени суток.

Странно, что вы пишете сразу на форум, даже не обратившись в техподдержку.

Подобная проблема не воспроизводится в нашем окружении, поэтому исправлять на данный момент просто нечего. Но если у вас она возникает регулярно, имеет смысл все же обратиться в поддержку и предоставить необходимую информацию для диагностики проблемы (какую именно, напишем в письме).

Есть неплохая библиотека на java - boilerpipe называется. Вот пример того, что получается на выходе

RiDDi:

плагины - главная и основная проблема

то, об чем вы говорите я за пол часа напишу
а вот с флешем и прочими внешними приложениями придется как следует подумать..

Это вообще не проблема. QtWebKit давно поддерживает любые NPAPI-плагины - все, что нужно сделать, это включить их:

view->settings()->setAttribute(QWebSettings::PluginsEnabled, true);

и указать путь в переменной окружения QTWEBKIT_PLUGIN_PATH (например, C:\Windows\System32\Macromed\Flash)

----

На примере сайта wechoosethemoon.org:

Результат до: http://s006.radikal.ru/i213/1510/61/43250c419439.png

Результат после: http://s020.radikal.ru/i717/1510/99/f089f6f66ca2.png

Ну и поскольку Phantom.JS сделан на базе qtwebkit'а, единственная причина, почему там нет из коробки поддержки flash - такое не требовалось никому из разработчиков. Но это тривиальный патч

Ленивое Z, ваш пример тривиально детектится, например так:

http://dpaste.com/3QT1AQ4


Link 'Ссылка 1' is hidden
Link 'Ссылка 2' is hidden
Link 'Ссылка 3' is visible

Не смог удержаться от участия в этом замечательном споре 🍿

Key Analytics:

точность сбора в Key Analytics = 100%

Вы сумели добиться точных ответов от системы, в которой этой самой точностью пожертвовали в угоду доступности? В таком случае вы совершили революцию в IT и претендуете на премию. Как минимум, на Шнобелевскую.

Key Analytics:
Цель любого сборщика - показать точно такие же позиции, что будут видеть пользователи, набирающие определенный запрос.

Если это - цель, то она сбором выдачи в "лоб" не достижима, вне зависимости от способа парсинга: через веб-морду или через yandex.xml

Реальные пользователи увидят совсем другие позиции, просто потому, что персонализация для них включена по дефолту (а многие даже и не догадываются о её существовании).

aeromouse:
загнулся Яззл похоже, информация о лицензиях на англицком сайте вообще не обновляется

o rlmente? Тот факт, что информация обновляется на _русскоязычном_ сайте программы, вас не смущает? Английская версия программы не развивается с 2008 года.

aeromouse:
2 лицензии на 1 комп

Вы путаете количество лицензий с количеством активаций за определенный промежуток времени. Если у вас есть хоть какие-то познания в английском то, полагаю, фраза "These computers are not used simultaneously" все сразу же прояснит и акцент на то, для каких целей выдавалось две активации на одну лицензию, вы сумеете разглядеть.

Кстати, приведенный на вашем скрине FAQ не менялся с момента создания сайта www.yazzle.info - любители лазить в веб-архив могут в этом лично убедиться ☝

aeromouse:
там до сих пор 2 лицензии на 1 комп можно купить

И в этом вы тоже ошибаетесь. Купить английскую версию программы нельзя, и уже очень давно. Рекомендую перепроверять информацию, прежде чем делать такие сенсационные заявления.

aeromouse:
Или это только RU юзеров они киданули?

И снова ошибаетесь. Количество пользователей, которых мы "кинули", объективно равно НУЛЮ, вне зависимости от языка, на котором они говорят. Субъективно - каждый думает в меру своей испорченности.

suraev, добавили в режим оптимизатора новый параметр - "Дополнительные тематики". Для использования обновите программу.

gesNake:
Почему то по этим колонкам не получается сделать задуманное, он выбирает все дубли, т.е. 3 из 3. Нужно, чтобы он оставлял одну и 2 помечал...:)

Добавили в окно настроек, на вкладку "Другое", флаг "Пропускать первую не уникальную запись" - включите его и примените фильтр "Текст ссылки не уникален".

gesNake:
Имеются дубли ссылок с одного донора, т.е. были закуплены несколько ссылок с одинаковым анкором и размещены на одной странице донора. Таких ссылок очень много, вручную не вариант, возможно ли удалить такие дубли?

Обновитесь до сегодняшней сборки SAPE Master - изменили работу фильтра "уникально" по колонке "Текст ссылки" - можно выгрузить все ссылки в статусе ОК, а затем использовать поочередно фильтры "Донор не содержит" и "Текст ссылки уникален". В результате, у вас будет список ссылок с повторяющимися анкорами, с которыми можно проделать дальнейшие действия (например, снять или изменить тексты).

suraev:
Есть проблема с проверкой "Точной тематики" (тематика по Бару). У многих сайтов не определяется, повторную перепроверку делал.

Примеры отправляю в личку Serg_CS

Добрый день.

Если хотите брать тематику из Яндекс.Бара - используйте параметр "Тематика донора".

"Точная тематика" работает по-другому (см. пояснения в ЛС на одном из ваших примеров).

Всего: 132