Попробуйте сделать на пхп, когда понадобилось - Яндекс

140

upyrj

18 июля 2007, 16:55

#11

burunduk, все верно. Но перечитайте исходный вопрос. 8)

latin, все равно плохо (нашлось, а не должно было; так что отрицание криво сработало).

А вот так уже лучше:

anchor#link="www.ya.ru"[!(ru -систему)] << url="klenru.narod.ru*"

anchor#link="www.ya.ru"[!(ru -Yandex)] << url="klenru.narod.ru*"

Можно покрутить повнимательнее, но нет времени. 8(

Тем более что все равно вариант не идеальный (см. предыдущую реплику burunduk'а).

Денис Иванов Важно: обменом валют я не занимаюсь.

CW

0

casperW

19 июля 2007, 06:25

#12

Большое спасибо всем, кто откликнулся. Жаль только, что все равно не смог достичь того результата, которого хотелось бы. Наверно это невозможно. А думаете реально проверить все выдаваемые сайты при помощи php? Просто их же будет очень много и каждую загружать, а потом анализировать, еще и в самом Яндексе надо анализировать страницу, чтобы можно было перейти допустим с 10 выдаваемой страницы на следующие 10 ... по мне дык жуть) Может кто может подсказать более действенный алгоритм решения данной задачи? Плиз, помогите, кто может...

140

upyrj

19 июля 2007, 08:10

#13

casperW, а нельзя просто выкачать все анкоры программкой Yazzle, а дальше уже мутить с анкорами все, что душе угодно?

Если нужно все автоматизировать, то натуральную выдачу можно хватать по 50 (&numdoc=50), а можно вообще сразу всю выкачивать из Яндекс.XML.

Дальше придется либо парсить сами документы, либо, что перспективнее, обрабатывать их сохраненные копии (кажется, это доступно только при парсинге натуральной выдаче).

При парсинге натуральной выдачи имейте в виду, что Яндекс может забанить IP сервера, если вы его сильно нагрузите.

Я тут недавно делал такую штуку. Алгоритм:

I. Cобираем урлы кешей.

1. Скачиваем страницу натуральной выдачи Яндекса.

2. Выдираем из нее ссылки на «сохраненные копии», складываем в кучку.

3. Выдираем из нее ссылку с текстом «следующая». Если нет такой — останавливаемся.

4. Пауза 1-3 секунды и повторяем с URL из пункта 3.

II. Парсим кеши.

1. Скачиваем «сохраненную копию».

2. Выковыриваем из нее ссылки на нужный адрес, складываем в кучку.

3. Пауза 1-3 секунды и повторяем со следующей «сохраненной копией».

CW

0

casperW

19 июля 2007, 09:49

#14

Я есть плохо тебя понимать. Что значит парсинге натуральной выдачи...? Мне сказали, что на пхп такое делать просто глупо) Сказали лучше сделать допустим на Delphi. Если твой способ ты считаешь лучше подходит, то не мог бы ты мне популярно объяснить как его реализовать? Заранее огромное спасибо!

140

upyrj

19 июля 2007, 10:00

#15

Какая разница, на каком языке делать? Я сделал на PHP, когда понадобилось, — других языков не знаю совсем.

Натуральная выдача — это то, что мы видим в браузере. XML-выдача — это то, чего не видим, но можем добыть программно с помощью Яндекс.XML.

Парсинг — это выковыривание той или иной информации из документа.

Алгоритм я привел, конкретный код приводить не буду, так как (1) долго, (2) я о нем невысокого мнения, и неправильно будет учиться на кривых примерах.

CW

0

casperW

19 июля 2007, 10:39

#16

А это случайно не ты написал скрипт на JavaScript для проверки непота, уникальности и индексированности в Яндексе? Просто ща сижу разбираюсь с этим исходником, думаю может он мне поможет или я смогу его подделать под себя...JavaScript сам я вообще не знаю, опираюсь на интуицию и опыт в программировании на других языках:)

[Удален]

19 июля 2007, 10:46

#17

casperW, VBA знаешь?

если да то из assecc достаточно просто парсить Яшу

CW

0

casperW

19 июля 2007, 10:52

#18

Нет, к сожалению не знаю:(. Буду искать другие пути...

S

56

solnikolay

19 июля 2007, 10:57

#19

burunduk:
casperW, VBA знаешь?
если да то из assecc достаточно просто парсить Яшу

Дааа? Интересно. Раскажите - как?

Только вопрос до этого - вы с чем сравниваете "просто/непросто"?

[Удален]

19 июля 2007, 11:05

#20

solnikolay:
Дааа? Интересно. Раскажите - как?
Только вопрос до этого - вы с чем сравниваете "просто/непросто"?

просто если знаешь язык :)

я например PHP не знаю и естественно мне проще на VBA

алгоритм приводил upyrj

единственное ограничение винда и офис нужны лицензионные (на крякнутых возникают проблемы с использованием стандартных dll и ocx, можно конечно написать всё самому, но это время)

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

"Найден по ссылке..." - как найти уникальные?