Анализатор позиции сайтов http://topping.com.ua/position
Статистику могу подправить. Как его теперь обозвать - ex-List?
Ага, оно-то не составит:
$html=~s/<(\S+(\s+\S+)?).*?(>.+< )?(\/$1)/<$1$3$4/g;
$html=~s/<(h\d+)>(.*?)>(.+)?<(.*)?>(<\/$1)/<$1>$3$5/g;
Только будет ли работать во всех случаях?
2DM: а зачем, если не секрет, это нужно?
Оказывается, еще с 10 апреля. http://internet.ru/article/lentanews/2002/04/10/7537.html
Я полагаю, наиболее оптимальный вариант самому сделать СУБД для работы индексами в инвертированных файлах (на Си или C++). При этом я, к примеру, для экономии ресурсов использую несколько типов индексов - временные и основные.
А реляционная база загнется уже на объеме в несколько сотен миллионов записей.
Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:
Гироскоп
ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?
Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html
Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.