yourich

yourich
Рейтинг
38
Регистрация
21.06.2003
walker:


формально - сниппет в SERP - тоже "контестно-зависимая аннотация", но главные задачи при формировании сниппета другая - наличие соответствия запросу и быстрота формирования

проще всего достигается нахождением первого максимального пересечения запроса и текста (обычно заранее разбитого на фиксированные - часто одинаковые - куски)

Согласен, я достаточно условно свел эти два понятия в одну группу. Для меня важнее именно выделение смысла, а не снипет.

В принципе, прогнав текст через TF*IDF - я получу нарезку наиболее важных слов/словосочетаний документа. Это будет быстро и качественно (применимо к условиям моей задачи). Т.е. мне нужно на входе - текст, на выходе - выжимка.

В соседнем топике нашел список опенсорс движков http://www.searchtools.com/tools/tools-opensource.html - может кто-то разбирался с ними и скажет - можно ли их использовать для решения этой задачи ? Или может быть есть готовый инструмент для этого, т.к. хотя вроде всё просто, но не хочется "изобретать велосипед" .

yourich:
Как то видел в этом разделе топик по системам автореферирования , сейчас его нет, а тема актуальна - поделитесь пожалуйста ссылками .

Вот например http://www.dialog-21.ru/Archive/2004/Stupin.htm .

PS: уточню - интересует получение автореферата из большого документа. в частном случае - снипет, а в более широком смысле - получение краткой смысловой выжимки документа.

Топики выделенные iseg - собрали малое число ответов-просмотров. Вероятно эти темы неинтересны той аудитории, которая заходит в данный раздел форума.

Раньше раздел посещало меньше людей, но разместив топик подобный автореферированию я получил бы ответ, сейчас - нет.

Всё меняется.

FreeMarket:
yourich, возможно с хостингом проблемы?
страницы то колеблются ...
либо контент ворованый или у вас его своровали.

С хостингом все хорошо.

Сейчас читаю /ru/forum/123668 , видимо я попал под раздачу как "агрегатор" :(

Kost:
Так сколько страниц на сайте, вы их считали? ;)

Сайт обновляемый. Точное число страниц я не знаю. 100 тысяч написал поскольку в индексе рамблера именно столько.

reger:
yourich, добавьте сайт http://webmaster.yandex.ru/
напишите Платону
купите ссылку с морды крупного посещаемого сайта

Ссылки есть и много. Сайт добавлял. В /ru/forum/129786 привел статистику индексации сайта. Видно что сайт индексируется, но странным образом - страницы "исчезают" через время.

kagux:
Покажите сайт

Если беретесь - могу скинуть в личку.

Чтобы не дробить обсуждение прошу писать в топике /ru/forum/129786

Sveta Prokopeva:
У меня похожая ситуация. Раньше было около 20к в индексе, затем уменьшилось до четыреста.
Прокачивайте внутренние, мне помогает :)

Вот статистика за последние дни по индексируемости сайта (дата и число страниц):

03-27 4

03-26 4

03-25 7

03-24 28

03-23 7

03-22 7

03-21 7

03-20 7

03-19 19

03-18 7

03-17 13

Видно что сайт индексируется, но потом страницы "уходят".

Ссылки на сайт есть и достаточно много. Правда последние года два новых ссылок сам не ставил. Только "натуральные".

А "прокачивание внутренних ссылок" можно как-то посмотреть ? У меня есть внутренние страницы на которые стоят ссылки, но их нет среди проиндексированных.

В Рамблер и Google - все ок.

Вот текст robots.txt


User-agent: baiduspider
Disallow: /

User-agent: slurp
Disallow: /cgi-bin/
Crawl-delay: 30

User-agent: yandex
Disallow: /cgi-bin/
Host: www.site.ru

User-agent: *
Disallow: /cgi-bin/

e-customer: На Яндексе записано что e-customer только для партнеров с Украины. У меня в интерфейсе выбора ЦОП было только три варианта: spylog, bets-hosting и mixmarket.

ya-partner: спасибо. я вам в личку отослал вопрос.

Всего: 43