Chewi

Рейтинг
43
Регистрация
22.04.2005
Californiy:
Вы че - шутите? Да я вам за 10 баксов + спасибо, продвину! Какие 200 баксов?

Вы ему еще сами приплатите немного - тогда точно согласится! 😂

Margo:
то есть не попадались быстророботовские?.... вы анкоры с донора берете по сохраненной копии ? смотрите чтобы она была не быстророботовская?....а ведь еще при поиске уникальных ссылок при просмотре остальных сайтов, которые могут содержать активную ссылку на изучаемый акцептор тоже нужно по идее смотреть по сохраненным копиям? так?

Анкоры берем с сохраненной (и вот здесь быстроробота еще не попадалось), а что касается второй части, то такого не делали (хотя по идее надо :)). По идее надо не только смотреть, быстророботная она или нет, а если быстророботная, то брать для этого документа сохраненную копию версии не от быстроробота и смотреть, есть ли в ней проверяемая ссылка или нет. И вот если в обычной версии документа ссылки нет, а в быстророботной есть, то, по идее, в анкор-файл акцептора эта ссылка еще не попала, и поэтому при проверке уникальности ее учитывать не нужно.

K. Ermakov:
А дело там не в том, что после двоеточия слово с большой буквы идёт?
UPD. Нашёлся пример, когда двоеточие не делит текст на пассажи; после него идёт слово с маленькой буквы.

Именно в том. Я привел пример того, как двоеточие может делить текст на пассажи. Если слово после двоеточия начинается с маленькой буквы, то в этом случае вроде бы двоеточие текст на пассажи не делит.

юни:
Chewi, полный метод озвучим? :)

Да он, собственно, уже был озвучен неоднократно в этом топике.

Из того, что не озвучено - нужно учитывать, как Яндекс индексирует, какие-то нюансы (например то, что я написал в предыдущем посте). Я отнюдь не уверен, что мы все эти нюансы учли, и учли правильно :) Поэтому и предлагаю желающим потестировать и сравнить со своими результатами.

Margo:
в этом пункте, Ваш скрипт ищет тоже по сохраненным копиям, и отделяет ли их от быстророботовских?

Ищет по сохраненным копиям. Отделяет. Точнее, должен отделять, но пока таких не попадалось (мы пока протестировали не много сайтов). Если у Вас есть пример такого сайта, пришлите плз.

Доделали наконец скрипт. Заняло больше времени, чем предполагалось, так как решили предусмотреть также различные нюансы типа проиндексированности ссылки только быстророботом, наличие в тексте ссылки спецсимволов, которые надо удалять при подаче запроса к Я и т.д.

Предлагаю всем желающим сравнить результат работы скриптов. Присылайте в личку выборки сайтов, указывая результат проверки вашим скриптом. Буду возвращать результат проверки своим.

upyrj:
Надоело гадать на кофейной гуще.
Вот, тестовая страница, ждем индексации:
http://ivanov.in/separators/

Если что не учел, напишите, плиз.

Отлично! :)

Ждем индексации страницы!

euhenio:
Если считать, что в тексте и в анкорах одинаково - тогда двоеточие и точка с запятой не будут делить фразу на предложения

Вот пример.

Документ:

http://www.yandex.ru/yandsearch?text=%EE%E2%EE%F9%E8+%3C%3C+url%3D%22www.content.net.ua%2Fauction%2Ffree%2Fprod_details.php%3Fpr_id%3D2828%22

Так находится:

http://www.yandex.ru/yandsearch?text=%28%EE%E2%EE%F9%E8+%26%26+%EA%E0%F0%F2%EE%F8%EA%E0%29+%3C%3C+url%3D%22www.content.net.ua%2Fauction%2Ffree%2Fprod_details.php%3Fpr_id%3D2828%22

А так нет:

http://www.yandex.ru/yandsearch?text=%28%EE%E2%EE%F9%E8+%26+%EA%E0%F0%F2%EE%F8%EA%E0%29+%3C%3C+url%3D%22www.content.net.ua%2Fauction%2Ffree%2Fprod_details.php%3Fpr_id%3D2828%22

euhenio:
-вроде как бы и не является предложением.

Но, например. Насчет тире.

Запрос "Керамогранит оптом широкий ассортимент и гарантия caesar" - работают обе половины ссылки до тире и после (Керамогранит оптом - широкий ассортимент и гарантия caesar), ссылаемый сайт находится по тексту ссылок.

Откуда сделан вывод про тире, например? Запросы в студию :)
Остальное лень проверять.

Гм, похоже, я ошибся.

Мне казалось, что, например, по запросу http://www.yandex.ru/yandsearch?text=%28%F1%EE%EB%ED%F6%E5+%26+%FD%F2%EE%29+%3C%3C+url%3D%22imperz.ru%2Fh6.shtml%22 (когда следующее после тире слово начинается с заглавной буквы) документ не находился. Видимо, моск вскипел вчера к концу рабочего дня :)

Внесу поправку в свой пост выше.

Нашел несколько аналогичных примеров в текстах (не в текстах ссылок), когда первое предложение состоит из одного слова. Результат всегда одинаков - документ находится по запросу "слово_из_первого_однословного_пассажа && слово_из_второго_пассажа" и не находится по запросу "слово_из_первого_однословного_пассажа & слово_из_второго_пассажа".

Что касается текстов ссылок, то сходу таких примеров, где в тексте ссылки были бы два пассажа причем первый из них - однословный, найти не удалось.

Также интересно, что по некоторым запросам, которые видно, что есть в анкор-листе, сайт не находится:

http://www.yandex.ru/yandsearch?text=%28%F0%E0%E7%E2%E5%E4%E5%ED%E8%E5%29+%3C%3C+url%3D%22forum.searchengines.ru%22

euhenio:
Вот вы любители называть "предложение" словом "пассаж".
Как в тексте будут найдены пассажи, зависит от переколдовки запроса (контекстных ограничений), которая бывает разной джля разных запросов

-а не связан ли он случайно с необычной переколдовкой запроса? :)

А как назвать предложением вот такой пассаж:

"Предложение1.Предложение2" (без пробелов)

? :)

Заранее сорри за офтоп

upyrj:
А он и так в студии: надо только покопаться в беках. 8)
И то правда. Но он такой же, как двоеточие. 8)
Проверьте, если не лень. Я не проверял. 8)

Блин, я пропустил эту тему. Жалко, беки уже исчезают.

Но Вы уверены, что учлись именно вторые пассажи? Я вот сейчас вижу, что в анкор-листе акцептора есть пассаж "Рецепты курицы с доставкой" и действительно вижу в индексе ссылку с текстом "Отапливаемый курятник. Рецепты курицы с доставкой". Но это же не означает, что в индексе нет ссылки на того же акцептора с текстом "Рецепты курицы с доставкой" (у меня нет сейчас технической возможности это проверить).

Всего: 129