Solomono - все ссылки на сайты конкурентов

Solomono
На сайте с 22.02.2010
Offline
51
#61
юни:
Solomono, при каких условиях выдаётся страница http://solomono.ru/error.htm?aspxerrorpath=/default.aspx?

Не могу проверить несколько доменов.

в данном случае - ошибка в коде.

спасибо за сообщение. сейчас все должно работать.

юни
На сайте с 01.11.2005
Offline
924
#62

Solomono, список ссылок действительно неполон.

Вы можете рассказать про техническую часть, сколько серверов используется, сколько потоков, алгоритм обхода сайтов и пр.?

Если не секрет, конечно.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Solomono
На сайте с 22.02.2010
Offline
51
#63
юни:
Solomono, список ссылок действительно неполон.

Вы можете рассказать про техническую часть, сколько серверов используется, сколько потоков, алгоритм обхода сайтов и пр.?

Если не секрет, конечно.

Проект - коммерческий, поэтому, к сожалению, информацию о технической части я дать не могу. Я только могу отметить, что, как вы правильно заметили ранее, объем базы данных пока не вышел на рабочий уровень, но это вопрос времени.

Белый Ум
На сайте с 27.04.2009
Offline
251
#64

шикарный проект

как идет развитие?

Белый Ум добавил 21.09.2010 в 23:40

буду рад если ответите - я тоже писал пауков, очень интересует вопрос - а как анализируются динамические страницы?

Skype: shum_beliy
SJ
На сайте с 16.03.2008
Offline
78
#65
Белый Ум:
очень интересует вопрос - а как анализируются динамические страницы?

А что с точки зрения паука - "динамическая страница"?

Есть необработанные линки - заходим, вытаскиваем все ссылки, сохраняем что и где, добавляем в необработанные, начинаем с самого начала.

Есть ссылка на страницу - зайдем. Нету - не зайдем...

Все просто и логично.

Граф ссылок для среднего по размеру сайта у меня получался где-то 1.5-2 мегабайта. Но это я наверное много хранил лишнего. Основная проблема - это скорость записи в БД при работающих 20 потоках паука... Тут только кеширование в памяти + периодический сброс на диск помогает.

ПыСы. На ASP.NET public часть, а БД - MS SQL? Там замечательные partitioned tables и indexes есть, если что ;)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Alex Klo
На сайте с 15.06.2006
Offline
304
#66

заметил присутствие в списке страниц, на которых уже давно (минимум 2-3 месяца) нет ссылок.

(перед выдачей чего ж не проверить?)

Проверка и мониторинг позиций сайта ( http://www.topvisor.ru/?inv=1520 ) Продвигаю сайты http://climat-nw.ru/conditioner-installation/ http://www.aircom-spb.ru/service/montaj/
SJ
На сайте с 16.03.2008
Offline
78
#67
Alex Klo:
заметил присутствие в списке страниц, на которых уже давно (минимум 2-3 месяца) нет ссылок.

Значит, туда паук заходит редко...

(перед выдачей чего ж не проверить?)

Э... Проверять весь список обраток на наличие обраток прямо перед выдачей результата?!

10к обраток - значит 10к страничек достать (с чужих медленных серверов!), вытащить нашу ссылку - и все это за 1-2 секунды :p

Solomono
На сайте с 22.02.2010
Offline
51
#68
Белый Ум:
шикарный проект
как идет развитие?

Белый Ум добавил 21.09.2010 в 23:40
буду рад если ответите - я тоже писал пауков, очень интересует вопрос - а как анализируются динамические страницы?

спасибо за отзыв! развитие идет своим чередом. сейчас основная работы это отладка паука и анализа страниц, поскольку были проблемы с качеством и поступили хорошие резонные замечания от пользователей и коллег.

одно из таких замечаний, видимо, как раз поступило от вас. хотя я пока не уловил, в чем может быть проблема.

все Url вида http://www.asd.ru/asd/?asd=111d&ddd=222 до 256 знаков - отдельные страницы. различий между статическими и динамическими страницами не делается.

Solomono добавил 22.09.2010 в 21:14

Alex Klo:
заметил присутствие в списке страниц, на которых уже давно (минимум 2-3 месяца) нет ссылок.
(перед выдачей чего ж не проверить?)

добрый вечер. как правильно заметил sokol_jack перепроверка "на лету" в любом случае будет занимать время. вы задали очень хороший вопрос, поскольку такая проверка действительно нужна,

но технически проще (и разумнее) обеспечить хорошую актуальность базы данных для всех доменов, чтобы % несовпадений на данный момент был несущественным. над чем и работаем.

Solomono добавил 22.09.2010 в 21:22

sokol_jack:
А что с точки зрения паука - "динамическая страница"?
Есть необработанные линки - заходим, вытаскиваем все ссылки, сохраняем что и где, добавляем в необработанные, начинаем с самого начала.

Есть ссылка на страницу - зайдем. Нету - не зайдем...
Все просто и логично.

Граф ссылок для среднего по размеру сайта у меня получался где-то 1.5-2 мегабайта. Но это я наверное много хранил лишнего. Основная проблема - это скорость записи в БД при работающих 20 потоках паука... Тут только кеширование в памяти + периодический сброс на диск помогает.

ПыСы. На ASP.NET public часть, а БД - MS SQL? Там замечательные partitioned tables и indexes есть, если что ;)

мы с вами очень схожи в методах и оценке :)

Solomono добавил 22.09.2010 в 21:33

Также рад сообщить, что теперь данные с solomono.ru вы можете увидеть в RDS Bar — плагине для быстрого анализа показателей сайта.

Сейчас бар (помимо всего прочего) показывает кол-во ссылок in/out (по уровням вложенности), количество уникальных доменов in/out, анкоры первых 100 ссылок на / с сайта.

Ссылка на RDS Bar: http://www.recipdonor.com/bar

Надеюсь наша кооперация с этим замечательным сервисом в таком виде будет очень полезной для пользователей.

BasterYC
На сайте с 30.10.2007
Offline
148
#69

мне понравилось

желаю дальнейшего развития ;)

J
На сайте с 12.08.2010
Offline
1
#70

Пользуюсь Вашим сервисом вместе с RDS баром. Доволен) Подскажите, когда Solomono пишет "склеен", что имеется виду?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий