Поиск по типу файла - как работают сервисы? - Поисковые технологии - Практические вопросы оптимизации

126

Андрей Перфильев

16 декабря 2008, 20:19

2509

Вот интересно стало, как работают такие сервисы как filesearch.ru, tagoo.ru, mp3000.net и подобные?

Неужели сами по страничкам лазиют? Или всё же пользуются ПС?

Расскажите пожалуйста!

104

Skaizer

16 декабря 2008, 20:43

#1

Я уверен, что используют ПС, а именно проиндексированные страницы сайта, далее парсят на наличие ссылок на файлы с определенным расширением и заносят в каком-то своем виде эту информацию в базу.

Конечно робота поискового можно и самому написать, но наверное это на любителя :)

Размножение статей, уник до 100%, от 11$/1000 символов. Статьи индексируются Яндексом. (/ru/forum/439355)

126

Андрей Перфильев

16 декабря 2008, 20:50

#2

Вот поподробнее хотелось бы узнать, т.к. интерес не праздный, нужно написать подобный сервис для внутренних нужд сайта.

Если ткнёте носом, где поискать, буду признателен:)

104

Skaizer

16 декабря 2008, 22:41

#3

Вот ссылочка была, как парсить выдачу поисковиков http://parsing-and-i.blogspot.com/2008/10/i.html, реализовано на делфях, но думаю труда не составить портировать под свой язык.

Это к теме использования поисковых систем.

Конкретно в вашем случае не могу ничего точнее сказать, так как незнаком с алгоритмами работы приведенных вами в пример сервисов :(

182

Ufaweb

18 декабря 2008, 03:41

#4

a1.:
Вот интересно стало, как работают такие сервисы как filesearch.ru, tagoo.ru, mp3000.net и подобные?

http://google.ru/search?q=%22windows%22+filetype%3Azip

126

Андрей Перфильев

18 декабря 2008, 04:07

#5

Ufaweb, эт понятно.

Но как, например, найти трек dj tiesto - flight 643. Просто проиндексировать вручную все найденные файлы, считав тэги?

126

Андрей Перфильев

22 декабря 2008, 07:00

#6

есть ещё идеи?

[Удален]

26 декабря 2008, 04:45

#7

a1.:
Вот интересно стало, как работают такие сервисы как filesearch.ru, tagoo.ru, mp3000.net и подобные?
Неужели сами по страничкам лазиют? Или всё же пользуются ПС?
Расскажите пожалуйста!

Язык запросов яндекса смотрели? http://help.yandex.ru/search/?id=481939

Есть оператор MIME.

Например, при запросе в яндексе парсинг<<mime="DOC" получите только вордовские документы в результатах поиска.

Так же для других типов файлов - HTML,PDF,DOC,PPT,XLS,RTF,SWF

Можно еще указать язык, дату, тематику - короче, учим язык запросов.

Как же организовывать сбор данных и выдавать результаты поиска дело абсолютно интимное.

126

Андрей Перфильев

26 декабря 2008, 06:18

#8

serg-deev, спасибо, буду посмотреть

TT

50

TNT

31 декабря 2008, 23:20

#9

парсить пски конечно хорошо, но в том случае пока у вас меньше 100 запросов в минуту, в противном случае забанят вас по IP .. так что лучше кравлёра своего писать

выкуп любых видов RU-трафа. дорого. icq: 175-947-125.

BD

35

B3CH3D

10 марта 2009, 15:00

#10

TNT:
парсить пски конечно хорошо, но в том случае пока у вас меньше 100 запросов в минуту, в противном случае забанят вас по IP .. так что лучше кравлёра своего писать

Можно все сниппетыы из серпа в свою базу напарсить и вуаля..

Аудит безопасности сайтов (http://ahack.ru)

Что делать, если ваша email-рассылка попала в спам

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Поиск по типу файла - как работают сервисы?