bloggik

Рейтинг
2
Регистрация
21.09.2005

жаль, что ICQ ты недолюбливаешь, много вопросов можно было б потолочь...

в этой сфере довольно мало людей, с кем можно о чем-то поспорить...

или же новички, которые убеждены что они что-то знают, а на самом деле не знают

или же профи, которым не надо оно , это обсуждение =)

сорри за резкость

просто неожидал от тебя такое услышать

greenwood:
link: после двоеточия пробел перед урлом попробуй

не ожидал от тебя такую глупость услышать

пробел = И\ИЛИ

по этому запросу мы найдем страницы содеожащие слово "link" и урл после пробела или одно из двух слов, отделенных пробелом...

вообще не первый раз слышу подобное про пробел, кто эту чушь пустил ?

Artich:
можно через парсер, который бы запрашивал нужный keyword, а потом запрашивал для каждого сайта из серпа число проиндексированных страниц, и оставлял только нужные.. :)

да про это я и сам догадался =)

Artich:

кстати, зачем все это, если не секрет?

люблю эксперименты :)

Lor:
Распознает по названию файла, директории, альту, тексту линка, окружающему тексту и пр.
Для удаления идеинтичных можно использовать размер файла - хоть на 2 бита, но разные картинки будут отличаться.

При желании можно пробовать сличать картинки. Есть такие технологии. Несколько лет назад писали, что Гугль купил у каких-то разработчиков технологию распознования картинок. Задача сложная, но решаемая с определенной вероятностью. Были бы компьютерные ресурсы.

По-моему все же делается упор на окружение...

1) попробуйте вбить в поск киворд - вылезают на первой же странице картинки с именем типа 223434.jpg, без альтов и прочих заморочек

2) про распознавание это на мой взгляд пока слишком уж=) ну каждую картинку инета распознавать, сверять с базой...это космические ресурсы надо иметь

3) пересмотрел вот картинок из базы, на мой взгляд происходит это примерно так...

берем текст с кивордом и смотрим его близкое окружение картинками...ну к примеру текст <tr><td>text</td></tr>

а картинка в следующей ...вот она и нужна...опять же , куча вопросов возникает почему именно она...

хотя если сложить все перечисленные факторы, то наверное все сходится...

content type > jpg, gif, tiff ....

и что с того, ну увидел он жпег к примеру, и как это повлияет на дальнейшие действия ?

-=Илья=- Да, теория об отборе по размеру не идет...

Еще, по-моему, смотрит альты на предмет идентичности

альты тоже непричем, то есть то, что обращается на них внимание, понятно, но в базе большинство картинок вообще без этих альтов

были мысли по размеру...то есть к примеру обращать внимание на картинки больше 200 пикселов , а сто контент тайп ?