Расширенный парсер Я.Каталога

12
SJ
На сайте с 16.03.2008
Offline
78
1211

Пишу тут для себя парсер Я.Каталога.

В чем основная идея и отличие от существующих?

Я собираю не только urlы, но все что мне интересно (Название, Description, тИЦ...). Данные обновляются после апов тИЦ или вручную. Поскольку храним историю, можем анализировать изменения в интересующей нас категории: кто из новых появился, как сдвинулись сайты, кто активно лезет на первую страницу (и стоит поглядеть на его методы лазанья) и т.д.

Такие вот вопросы есть:

- что бы лично вы хотели видеть в таком сервисе?

- необходимо ли сохранять "Регион", все подразделы где еще есть сайт, адрес для тех, у кого он прописан? Зачем?

- просто ваши мысли :)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Алексей Барыкин
На сайте с 04.02.2008
Offline
272
#1
sokol_jack:
Пишу тут для себя парсер Я.Каталога.

В чем основная идея и отличие от существующих?
Я собираю не только urlы, но все что мне интересно (Название, Description, тИЦ...). Данные обновляются после апов тИЦ или вручную. Поскольку храним историю, можем анализировать изменения в интересующей нас категории: кто из новых появился, как сдвинулись сайты, кто активно лезет на первую страницу (и стоит поглядеть на его методы лазанья) и т.д.

Такие вот вопросы есть:
- что бы лично вы хотели видеть в таком сервисе?
- необходимо ли сохранять "Регион", все подразделы где еще есть сайт, адрес для тех, у кого он прописан? Зачем?
- просто ваши мысли :)

Экспорт в файл (txt, xls).

У себя сделать - руки не доходят.

SJ
На сайте с 16.03.2008
Offline
78
#2
Алексей Барыкин:
Экспорт в файл (txt, xls).
У себя сделать - руки не доходят.

Ага, это и сам в планах добавил. Не сложно, сделаю.

Так, поглядел на твой парсер - блин, ты теперь и в базе хранишь? ;)

Только вот тИЦ не собирается, регион и т.д, так?

Да и вторая страница у меня в категории не открылась чего-то...

http://barykin.com/yca/tungrp/cat/Science/Secondary_Education/Pre-School/1.html

Алексей Барыкин
На сайте с 04.02.2008
Offline
272
#3
sokol_jack:
Ага, это и сам в планах добавил. Не сложно, сделаю.
Так, поглядел на твой парсер - блин, ты теперь и в базе хранишь? ;)
Только вот тИЦ не собирается, регион и т.д, так?

Тицы и т.д. не собираю. Мне парсинг урлов нужен был для сапы.

В базу кидаю, чтобы яндекс часто не дёргать.

Да и вторая страница у меня в категории не открылась чего-то...
http://barykin.com/yca/tungrp/cat/Science/Secondary_Education/Pre-School/1.html

Поправил. :D

SJ
На сайте с 16.03.2008
Offline
78
#4
Алексей Барыкин:
Тицы и т.д. не собираю. Мне парсинг урлов нужен был для сапы.
В базу кидаю, чтобы яндекс часто не дёргать.

Ну, как и раньше - парсинг урлов, просто теперь еще и в базу-кеш складываешь, так?

Алексей Барыкин
На сайте с 04.02.2008
Offline
272
#5
sokol_jack:
Ну, как и раньше - парсинг урлов, просто теперь еще и в базу-кеш складываешь, так?

Ага. И кеш изредка обновляется.

Евгений Иванов
На сайте с 26.07.2006
Offline
272
#6

sokol_jack, нужен сбор мыл с сайтов и забивание в базу по категориям :)

Wap.Click / Вап.Клик / Я - рядом!
Илья
На сайте с 22.08.2006
Offline
127
#7

Солидарен с думаю. Было бы неплохо. :)

Варюсь в теме с 2005 года :-)
SJ
На сайте с 16.03.2008
Offline
78
#8
думаю:
sokol_jack, нужен сбор мыл с сайтов и забивание в базу по категориям :)

Э... не понял.

Парсим каталог, и на каждый сайт залазим и выгребаем все мылы, что там найдем?

Ну, это во-первых стоит делать отдельно - список всех урлов по категориям получить не проблема уже сейчас.

А во-вторых - как-то слово "спам" вспомнилось...

Зачем мне например мылы с сайтов по категориям? 🙄

Юрий
На сайте с 04.01.2004
Offline
126
#9

Либо лезем в whois каждого домена (ну кроме фрихостовых) и тащим мыл оттуда.

Интернет - маркетолог ( http://www.webfanatic.ru ) DigitalFixer.ru ( https://digitalfixer.ru )
Евгений Иванов
На сайте с 26.07.2006
Offline
272
#10

sokol_jack, ещё не плохо бы было если бы скрипт автоматом смотрел сайты и искал допустим или страницы где 10 внешних или страницы с названием catalog.php /catalog/ /linl/ то есть анализировал есть ли каталог с на сайте, и тоже по категориям базу для тематического обмена ссылками только с сайтами из Яка

ПС не спам, а предложение по обмену ссылками

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий