видел здесь:
http_://elibrus.1gb.ru/books/sci/sin_dic.rar
http_://elibrus.1gb.ru/books/sci/rusorfo.zip
TXT, Windows - размер 2 Mb
Вариантов для реализации очень много, можно и так:
# выбираем все ссылки с анкорами со страницы
while ($html =~ s/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>([^<]+)//si) {
push @Ahtml, $2.": ".$1
}
# выводим полученные анкоры и ссылки, каждую пару - с новой строки
foreach (@Ahtml) {print $_ . "<br>";}
#!/usr/bin/perl
# Более подробно
print "Content-type: text/html\n\n";
# указываем путь к HTML-файлу
$file = "/путь к файлу/my_file.htm";
# читаем HTML-файл и пишем все в массив
open (FILE,"<$file"); @html=<FILE>; close(FILE);
# преобразуем массив строк HTML-страницы в строку
$html = join("",@html);
# выбираем все ссылки со страницы
@html = $html =~ m/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>/sig;
# выводим полученные ссылки, каждая - с новой строки
foreach (@html) {
print $_ . "<br>";
HELP XML-запросов к Яндексу здесь:
http_://help.yandex.ru/search/?id=481939
Вам необходимо использовать оператор
rhost="by*"
например, для поиска белорусских сайтов с "окнами" XML-запрос выглядит так:
окна << rhost="by*"
Попробуйте так:
Ни для кого не секрет, что поисковые системы (ПС), как и все СМИ в России, способны манипулировать интересами пользователей и влиять на них.
Вопросы всем участникам:
1. Какова степень влияния на ПС современных политтехнологий?
2. Когда и каким образом ПС начнут САМОСТОЯТЕЛЬНУЮ борьбу с пропагандой насилия, жестокости, порнографии, наркотиков в Рунете?
3. Сколько времени потребуется ПС и какие шаги для этого предпринимаются, чтобы изменить устоявшееся мнение пользователей, что "ИНТЕРНЕТ - ЭТО БОЛЬШАЯ ПОМОЙКА"?
С уважением, Игорь Имамутдинов
Недели за две до 1 апреля обычно появляются в СМИ подобные новости и сообщения.
Впрочем, и после "Дня дурака" они еще будут поступать в течение 2-4х недель, но в основном из зарубежных источников.
Если webalta.ru не открывается (как сегодня утром), пробуйте webalta.com ...
Вариант скрипта на Perl-е
http://www.tm-research.com/products/google-sitemap/sitemap-generator.html