Уже несколько лет замечаю что бывают аффилиаты не на 100% как пример у Демиса, но находящиеся рядом по части запросов. Правда не 20% от запросов, скорее 1-2.
Либо фильтр ослабили либо баг просто, либо показывать нечего больше.
Есть пример с подтвержденными санкциями за текстовый переспам, но когда страница по основному запросу на 7 месте.
чистой с allsub нету, у меня там за минусом английских слов + стоп слова из яндекса и других баз стоп-слов и воды. Возможно эта сойдет, думаю она лучше чем там что по умолчанию стоит.
Можно в allsubmitter или screaming frog забить список robots.txt и там искать строки, запрещающие индексацию всего сайта. Правда без регулярки, не знаю, получится ли.
Мой номер тоже указали без моего ведома. Вообще чел из другого города.
Постоянные звонки в любое время - и в выхи и в 7 утра бывает. Твой ответ им не важен, тупо время убивают и заспамливают звонками. Иногда молчат в трубку.
Пример:
7.00.
-Вы знаете такого то? Пусть он срочно свяжется с нами
- хорошо, передам
7.15 с другого номера
-Опять: Вы знаете такого то? Пусть он срочно свяжется с нами
-Я же уже сказал что ок.
И опять звонки
и так до бесконечности.
Сначала Альфой представлялись, потом какими-то другими банками, сейчас вообще неразборчиво говорят "Здравствуйте ыаыэаы-банк...", Переспрашиваю - ыаыэаы-банк. Звонят и с мобильных и с городских, постоянно обновляют пул номеров - Черный список помогает на неделю-две максимум.
Козлы.
Антиколлектор помогает, но он подвешивает мой тел сильно, И как понял он все неизвестные звонки вообще блокирует.
На сайтах может нет статы(лобби затирает), но на профильных конференциях есть.
Более 17% смертей в России связано с табакокурением. Такие данные приводятся в приветствии главы Минздравсоцразвития РФ Татьяны Голиковой участникам V Российской конференции врачей по борьбе против табака в преддверии Всемирного дня без табака, отмечаемого 31 мая.
Академик Герасименко сообщил, что "в структуре смертности в России первое место занимают сердечно-сосудистые и онкологические заболевания, основным фактором возникновения которых в большинстве случаев является активное или пассивное курение".
"От причин, связанных с курением, в России каждый год умирает до полумиллиона человек" - отметил Герасименко. По его словам, Россия занимает третье место в мире - после Китая и США - по количеству производимой табачной продукции, а по потреблению - первое место.
По словам Борзовой, каждые 6 секунд от заболеваний, вызываемых табакокурением, умирает один житель планеты, за год - 5 млн человек. "В России от 400 до 500 тыс человек заканчивают жизнь раньше своего срока", - отметила она.
Первый зампредседателя думского комитета по охране здоровья Николай Герасименко отметил, что хроническая болезнь легких, основным фактором развития которой является курение табака, за последние 5 лет "поднялась в структуре смертности населения страны с 12 на 4 место".
Наверное потому что.
и
Проект у Сегаловича был - Ruscorpora. Там есть словарь на основе 200млн словоупотреблений (но не инета, а по литературе и публицистике). Скачал, почистил от дублей, так же лемматизировал термины по К50. Может кому пригодится:
https://www.dropbox.com/s/4o52a2rvjc4psp4/800%D0%BA%20%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%83%D0%BF%D0%BE%D1%82%D1%80%D0%B5%D0%B1%D0%BB%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BB%D0%B5%D0%BC%D0%BC%D1%8B.xlsx?dl=0
Частоты примерно 800.000 слов, 250.000 лемм.
Жаль с узкими терминами беда. Хотя если их нет - значит на слово как раз стоит обратить внимание, как узкоспециализированное и возможно по нашей теме.
И Чекушин с аналогичным таким сервисом подоспел.
На фразу "зенитные фонари" выдала 550 слов.
Дорогая, только опять же, зараза.
Свою акварель буду пилить, XML своих вроде достаточно.
Ну топ10 = 1 запрос, 10 результатов для анализа.
Если парсить, с каптчей через 10 запросов, получится что за 0.5-0.8$(!всего), можно получить топ по 10.000 запросам = 100.000 страниц для анализа. Мало в какой тематике столько годных запросов можно насчитать.
Обосновывая в акварели стоимость в 1$ за запрос-текст, тоже говорили что это дохрена затратная операция, поэтому дорого. Я что то не вкурю где :)
Или я что то не понял в теме...
burunduk, если щас уже не актуально анализировать выдачу для получения эталонных текстов, то какие методы можно использовать, если не тайна? :)
А в методе ТС же в основном не Google парсить надо а страницы, из выдачи.
Получается получить 100к страниц по 10к запросам для анализа стоит около 0.5 - 0.8$
И то, это очень даже дофига данных.
Среднее ядро у коммерческого сайта не 10к, а 100-200 запросов.
Если Яндекс "якобы" кривой, и наполнен дорами, можно комбинировать - брать пересечение сайтов по Я и G.
Из минусов правда вижу, как писали, нерелевантные тексты которые висят из-за прибитости трастом или %% спримеси, ошибок, спама.
Но очистить тексты в принципе не такая большая проблема. Автомат + ручками пробежаться.
В Акварели Чекушина столько анализ одного текста стоит 1$. Хотя она, работая по такому же алго как у ТС, не выдает исходных данных для написания текстов, а только оценивает уже введенные.
Какой теме? Фигачить не тупо прямые вхождения, а подбирать близкие по смыслу слова? В 2005г еще были статьи на эту тему, даже биржи LSI-копирайтинга. :) Я так понял, с тех времен поисковики не особо умеют(хотят) ее использовать, потому что очень большие затраты ресурсов на рассчет семантических связей.