Комментарии - response - Профиль вебмастера - Форум об интернет-маркетинге

23 мая 2007, 18:38

ой, посмотрел тут свои темы, оказывается прошляпил обсуждение )

Мустафа, там тулза берет контент непосредственно с урла из топа, не из снипа.

Я потом подописывал, сейчас можно сканить серп шагами по писят сайтов (в опциях задаешь Nx50), генериццо все правильно, без багов, как в выложенной версии.

Берется урл, из него тащатся все _предложения_, потом разбиваются на имеющие кей и не имеющие.

В опциях генерилки задаем, юзать допустим по два предложения без кея на каждое с кеем. Предложения берутся рандомом, учитывая вхождение каждого предложения.

На выходе получаем либо плэйнтекст, либо xml, который потом можно в дор свой загонять.

Проблема на самом деле в контенте. Предложениями брать - значит отбросить добрую часть контента, которого во многих нишах в рунете толком-то и нет. По коттеджам ничешно вполне выходит, но какой-нитбудь там адалт вообще отдыхает.

Если брать не предложениями, то выходит стремнее намного.

чем сейчас работают с винтами?

23 мая 2007, 18:29

спасибо за линки.

свой мини-поисковичок

23 мая 2007, 18:08

Stalker-g2:
2 сервера на колокейшн есть =)

дык и че, исходящий анлим плюс без соотношений? такое разве бывает? :)

свой мини-поисковичок

23 мая 2007, 15:52

neznaika:
А чем плохи провайдерские 100?

исходящий трафик дорого.. это ж дедик надо брать по-любому.

в общем думал тут, думал, и решил что вещь хотя и хорошая, но лучше попозже. При условии, что поисковик не будет сохранять контент, хотелось бы максимально эффективно скаченное содержимое страниц распарсивать, а я пока не определился с кругом того, что было бы очень неплохо вынимать из страниц.

Программа генератор контента - белые доры

23 мая 2007, 08:53

Виктор Шевчук:
Использую такую схему - есть два продукта - один собирает ключевые слова по статистике Liveinternet к примеру, второй собирает с сайтов подобной тематики тайтлы.

угу, хороший вариант. я щас собираю непосредственно предложения из контента топовых сайтов по кею (где-то здесь даже самый первый вариант софтины выкладывал). Но это хорошо роботает только в сильных белосеошных тематиках 🙄

Надо тоже попробовать титлы онли ☝

Чем восстановить данные с винта?

22 мая 2007, 21:18

Easy Recovery спасала, теперь всегда ее ставлю вместе с системой.

Кактус сошел с ума. Что делать?

22 мая 2007, 21:15

тоже с одним деревом сроднились, пока вез - с одной из монстер ) вез причем уже взрослую особь - ох натерпелись мы с ней )

И тоже, кстати, как тепло долбануло, за неделю огромный отросток выдал. только потом что-то остановилось, и на листиг никак не разродится :-/

в общем, зачод ботанегам! ;)

Оптимизаторы, в который раз, сила

22 мая 2007, 10:13

левая похожа на галицинскую модель :)

свой мини-поисковичок

21 мая 2007, 09:27

dlyanachalas:
Осталось решить, как понять, что Яндекс спрятал, а что просто не смог проиндексировать (ещё не пришёл робот, html криво написан робот его не понял и т.п.)

если html криво написан, то наш робот его тоже не разберет. Если робот не пришел, значит придет позже. Это хорошо, что ваш оптимизм позволяет вам думать, что яндекс будет гнаться за нами, а не мы за ним )

свой мини-поисковичок

21 мая 2007, 08:19

гм. да не поисковик для дорвейщиков или оптимизаторов, и не индексация яндекса )

индексация всего того, что проиндексировал яндекс (ну, конечно не сохраняя, либо сохраняя минимум контента).

На выходе имеем честные, без купюр, мапы бэклинков, и карты сайтов, чтобы впоследствии безпрепятственно, за минимальное время делать любое количество inurl в любом необходимом виде. Отчасти такой, эээ.. социальный контроль поисковиков )

Короче это я все к тому, что отделавшись от поисковика, и задаваемых им ограничений, получаем многое. Вопрос исключительно в том, как обеспечить приемлимые вычислительные мощности и грамотно ограничить кол-во индексируемых сайтов (урлов). И если скорость проца, грубо говоря, для обработки этого всего могу обеспечить я сам, то с каналом напряги, ибо с моим мегабитом одна итерация полного обновления индекса (ориентировочно -- количество страниц, проиндексированных яндексом) займет пару лет.

Что делать, если ваша email-рассылка попала в спам

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

response