Как проверить базу поисковика на наличие фразы?

463

Владимир-C

5 января 2010, 19:09

764

Нужно проверить наличие довольно большого набора фраз в поисковиках.

Дело в том, что на сайте планируется разместить тексты, содержащие старославянские и устаревшие выражения. И я хочу прежде проверить, что из этого известно поисковикам. Проверка вручную показала, что далеко не все есть в индексе Яндекса и даже не все в Гугле.

Я владею рнр, но, как я понял, поисковики не любят, когда их парсят через HTML. Однако Гугль предоставляет какой-то API сервис, который позволяет это делать на законных основаниях.

Подскажите описание этого API доступа (на русском) для создания рнр скрипта.

156

Навигатор

5 января 2010, 20:13

#1

два вопроса:

1. Что означает в вашем понимании "известно поисковикам"? Например "сеопультенок" тоже до некоторого времени не был известен, а щас Яндекс даже склонять умеет. Проиндексирует ваш сайт и тоже знать будет старославянский :)

2. А какая вам разница есть эти слова в базе или нет? Текст переписывать на сайте что ли будете ?

Шерегеш (http://gesh.info/) - зимний горнолыжный курорт

ВC

463

Владимир-C

5 января 2010, 20:29

#2

Вероятно, Вы согласитесь, что создавать сайт, испытывая сомнения в том, что он будет в индексе, а не в категории "язык не распознан", не очень то хочется. Поэтому я хочу написать скрипт и посмотреть, какой процент слов неизвестен поисковику.

Вот для этого мне и нужна эта информация.

================

Хотелось бы всё же сосредоточиться на теме топика.

Hetzner начал выгонять хостеров Упал доход Домен или поддомен для

156

Навигатор

5 января 2010, 20:52

#3

Заранее извиняюсь за очередной оффтоп (ну хоть тему апну).

Можете пару предложений на этом старославянском показать? Или в личку.

И, кстати, зачем сайту быть в индексе, если он состоит из слов которые никто не ищет в поисковике? Неужто ради сапы все ?

А вообще, рекомендую для подстраховки на главной странице примерно половину текста на современном языке написать, остальное на старославянском.

И по теме: в вашем понимании "есть в базе" - это когда вбиваешь фразу и поисковик показывает хотя бы один сайт где такая фраза есть? Или что-то другое ?

[Удален]

5 января 2010, 21:05

#4

Хотелось бы всё же сосредоточиться на теме топика.

Сорри, но я-таки немного отклонюсь ;). И продолжу предыдущего оратора.

ПС-ы, как известно разные, и то что известно Яндексу - может быть совершенно "неизвестно" Гуглю. Поэтому вопрос 2 от ув. Навигатора вполне закономерен и с этой стороны.

И потом, рискну предположить, что если на странице будет некий процент "чисто"-русского текста, а остальное - "неизвестного", ПСы всё-таки посчитают его как русский.

Да и ещё советую полистать В3.орг на предмет стандартизации и указаний языков контента. ИМХО, это решит многие ваши сомнения.

Ну а по теме топика. Pride наверное поможет.

ВC

463

Владимир-C

5 января 2010, 21:18

#5

Я проверял слова именно так: посылал одно слово в качестве запроса и смотрел выдачу. Если поисковик пишет: "Искомая комбинация слов нигде не встречается", то, как я понимаю, она не втречается в его базе. У Яндекса такое случается чаще, но и у Гугля встречается тоже.

Просматривая полученные мною для размещения тексты, я могу оценить процент сомнительных в плане известности слов на уровне 40-50 % для каждой страницы. Остальное обычный текст на нормальном русском языке.

Хочу сделать скрипт парсера Гугля и определить процент поточнее. Если в итоге получится больше 30%, то можно попросить авторов сделать классического текста побольше.

Это разумно, как полагаете?

[Удален]

5 января 2010, 21:38

#6

Это разумно, как полагаете?

Я полагаю, что это напрасная трата времени и сил.

Во первых вы получите только:

а) по Гуглу

б) только "находки" на других сайтах.

И не получите

в) полный "лексикон" ПС (хотя бы самых популярных)

В итоге - картина далеко неполная. А надо ли такая половичатость?

ВC

463

Владимир-C

5 января 2010, 21:54

#7

Боюсь, чтобы поисковик не спутал с тарабарщиной, иногда практикуемой в дорвеях.

Написал Платону с примерами слов, неизвестных системе, но сейчас праздники - он молчит, а дело-то стоит. Вот хотел решить вопрос так.

Контент большой - 18 тысяч "новых" слов.

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы