Согласен, я достаточно условно свел эти два понятия в одну группу. Для меня важнее именно выделение смысла, а не снипет.
В принципе, прогнав текст через TF*IDF - я получу нарезку наиболее важных слов/словосочетаний документа. Это будет быстро и качественно (применимо к условиям моей задачи). Т.е. мне нужно на входе - текст, на выходе - выжимка.
В соседнем топике нашел список опенсорс движков http://www.searchtools.com/tools/tools-opensource.html - может кто-то разбирался с ними и скажет - можно ли их использовать для решения этой задачи ? Или может быть есть готовый инструмент для этого, т.к. хотя вроде всё просто, но не хочется "изобретать велосипед" .
PS: уточню - интересует получение автореферата из большого документа. в частном случае - снипет, а в более широком смысле - получение краткой смысловой выжимки документа.
Топики выделенные iseg - собрали малое число ответов-просмотров. Вероятно эти темы неинтересны той аудитории, которая заходит в данный раздел форума.
Раньше раздел посещало меньше людей, но разместив топик подобный автореферированию я получил бы ответ, сейчас - нет.
Всё меняется.
С хостингом все хорошо.
Сейчас читаю /ru/forum/123668 , видимо я попал под раздачу как "агрегатор" :(
Сайт обновляемый. Точное число страниц я не знаю. 100 тысяч написал поскольку в индексе рамблера именно столько.
Ссылки есть и много. Сайт добавлял. В /ru/forum/129786 привел статистику индексации сайта. Видно что сайт индексируется, но странным образом - страницы "исчезают" через время.
Если беретесь - могу скинуть в личку.
Чтобы не дробить обсуждение прошу писать в топике /ru/forum/129786
Вот статистика за последние дни по индексируемости сайта (дата и число страниц):
03-27 4
03-26 4
03-25 7
03-24 28
03-23 7
03-22 7
03-21 7
03-20 7
03-19 19
03-18 7
03-17 13
Видно что сайт индексируется, но потом страницы "уходят".
Ссылки на сайт есть и достаточно много. Правда последние года два новых ссылок сам не ставил. Только "натуральные".
А "прокачивание внутренних ссылок" можно как-то посмотреть ? У меня есть внутренние страницы на которые стоят ссылки, но их нет среди проиндексированных.
Буду вечером.
В Рамблер и Google - все ок.
Вот текст robots.txt
e-customer: На Яндексе записано что e-customer только для партнеров с Украины. У меня в интерфейсе выбора ЦОП было только три варианта: spylog, bets-hosting и mixmarket.
ya-partner: спасибо. я вам в личку отослал вопрос.