"Найден по ссылке..." - как найти уникальные?

123
upyrj
На сайте с 17.09.2005
Offline
140
#11

burunduk, все верно. Но перечитайте исходный вопрос. 8)

latin, все равно плохо (нашлось, а не должно было; так что отрицание криво сработало).

А вот так уже лучше:

anchor#link="www.ya.ru"[!(ru -систему)] << url="klenru.narod.ru*"

anchor#link="www.ya.ru"[!(ru -Yandex)] << url="klenru.narod.ru*"

Можно покрутить повнимательнее, но нет времени. 8(

Тем более что все равно вариант не идеальный (см. предыдущую реплику burunduk'а).

Денис Иванов Важно: обменом валют я не занимаюсь.
CW
На сайте с 18.07.2007
Offline
0
#12

Большое спасибо всем, кто откликнулся. Жаль только, что все равно не смог достичь того результата, которого хотелось бы. Наверно это невозможно. А думаете реально проверить все выдаваемые сайты при помощи php? Просто их же будет очень много и каждую загружать, а потом анализировать, еще и в самом Яндексе надо анализировать страницу, чтобы можно было перейти допустим с 10 выдаваемой страницы на следующие 10 ... по мне дык жуть) Может кто может подсказать более действенный алгоритм решения данной задачи? Плиз, помогите, кто может...

upyrj
На сайте с 17.09.2005
Offline
140
#13

casperW, а нельзя просто выкачать все анкоры программкой Yazzle, а дальше уже мутить с анкорами все, что душе угодно?

Если нужно все автоматизировать, то натуральную выдачу можно хватать по 50 (&numdoc=50), а можно вообще сразу всю выкачивать из Яндекс.XML.

Дальше придется либо парсить сами документы, либо, что перспективнее, обрабатывать их сохраненные копии (кажется, это доступно только при парсинге натуральной выдаче).

При парсинге натуральной выдачи имейте в виду, что Яндекс может забанить IP сервера, если вы его сильно нагрузите.

Я тут недавно делал такую штуку. Алгоритм:

I. Cобираем урлы кешей.

1. Скачиваем страницу натуральной выдачи Яндекса.

2. Выдираем из нее ссылки на «сохраненные копии», складываем в кучку.

3. Выдираем из нее ссылку с текстом «следующая». Если нет такой — останавливаемся.

4. Пауза 1-3 секунды и повторяем с URL из пункта 3.

II. Парсим кеши.

1. Скачиваем «сохраненную копию».

2. Выковыриваем из нее ссылки на нужный адрес, складываем в кучку.

3. Пауза 1-3 секунды и повторяем со следующей «сохраненной копией».

CW
На сайте с 18.07.2007
Offline
0
#14

Я есть плохо тебя понимать. Что значит парсинге натуральной выдачи...? Мне сказали, что на пхп такое делать просто глупо) Сказали лучше сделать допустим на Delphi. Если твой способ ты считаешь лучше подходит, то не мог бы ты мне популярно объяснить как его реализовать? Заранее огромное спасибо!

upyrj
На сайте с 17.09.2005
Offline
140
#15

Какая разница, на каком языке делать? Я сделал на PHP, когда понадобилось, — других языков не знаю совсем.

Натуральная выдача — это то, что мы видим в браузере. XML-выдача — это то, чего не видим, но можем добыть программно с помощью Яндекс.XML.

Парсинг — это выковыривание той или иной информации из документа.

Алгоритм я привел, конкретный код приводить не буду, так как (1) долго, (2) я о нем невысокого мнения, и неправильно будет учиться на кривых примерах.

CW
На сайте с 18.07.2007
Offline
0
#16

А это случайно не ты написал скрипт на JavaScript для проверки непота, уникальности и индексированности в Яндексе? Просто ща сижу разбираюсь с этим исходником, думаю может он мне поможет или я смогу его подделать под себя...JavaScript сам я вообще не знаю, опираюсь на интуицию и опыт в программировании на других языках:)

[Удален]
#17

casperW, VBA знаешь?

если да то из assecc достаточно просто парсить Яшу

CW
На сайте с 18.07.2007
Offline
0
#18

Нет, к сожалению не знаю:(. Буду искать другие пути...

S
На сайте с 13.07.2007
Offline
56
#19
burunduk:
casperW, VBA знаешь?
если да то из assecc достаточно просто парсить Яшу

Дааа? Интересно. Раскажите - как?

Только вопрос до этого - вы с чем сравниваете "просто/непросто"?

[Удален]
#20
solnikolay:
Дааа? Интересно. Раскажите - как?
Только вопрос до этого - вы с чем сравниваете "просто/непросто"?

просто если знаешь язык :)

я например PHP не знаю и естественно мне проще на VBA

алгоритм приводил upyrj

единственное ограничение винда и офис нужны лицензионные (на крякнутых возникают проблемы с использованием стандартных dll и ocx, можно конечно написать всё самому, но это время)

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий