Парсинг СЯ с текста сайта

Soniqq
На сайте с 26.07.2010
Offline
96
337

В общем, обстановка такая:

Есть сайт со множеством неоптимизированных страниц.

Задача у меня такая:

- Пробежаться по всем текстам всех страниц

- Вытащить все слова, начинающиеся с большой буквы (фильтр: минус слова, идущие после точки и пробела, т.е. новые предложения в тексте)

- Вытащить фразы с двумя и более словами подряд, начинающиеся с большой буквы (Имя Фамилия)

Кто-то сталкивался с такой задачей? Или может быть, плагин есть какой-то (сомневаюсь сильно).

CMS Drupal 6

Яндекс.Директ и Google.Adwords для сферы услуг и оптовых продаж (/ru/forum/1000733)
wwwwww
На сайте с 29.04.2011
Offline
195
#1

Сделать Html копию на локальном диске

cmd

findstr + regexp

Видишь? Свободная подпись.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий