Dos3, наверно меюшки, кеи, все подряд крошит ? )
sidorka, толк есть, под яшу, он копипаст любит. Подключение метки увеличивает время генерации, а насчет контролировать - я дублирую этот мкрос меткой сниппета, чтобы на случай пустого запоса на месте остался сниппет. По пустым заходам очень от кеев зависит, я чаще использую эту метку на товарке. Признаков довольно много. Сначала разбирается DOM-дерево, извлекаются элементы, похожие по тэгам на статьи, далее проверка очищенного контента без тэгов, если проходит - то ровняются тэги, удаляются стайлы из этих тэгов и в таком виде - с тэгами и форматированием, статья вставляется на дор.
По кею страницы (по которому сниппеты парсятся, картинки и проч.) заходит в выдачу гугла или яндкса, находит там линки, по ним проходит и достает с сайтов по этим линкам статьи. На нч не всегда отрабатывает, т.к бывают сайты либо без статей либо втречается такой же дор, и тогда может попасться либо коммент, либо сниппет либо менюха.
прямо исполненный воинственности коммент 😂
Доры показываю по запросу при покупке.---------- Добавлено 14.11.2013 в 14:42 ----------
Почему же, есть еще возможность вставлять свои тексты из файлов или парсить их с других сайтов по кею.
one_way, в универе был в индии на каникулах))
ну а если серьезно, не смотря на черновой вариант индокодам там и не пахнет. Показал ты свою неосведомленность не более, конечно для некоторых людей потролить других лучшее времяпроводжение, но тема создавалась для конструктива а не для тлололо.
Согласен. сам к таком пишел варианту. Или книжки или парсинг тематических сайтов.
мб понадобилась допилка существующего парсера. А насчет троеточий - верно, перед такой операцией сниппет нужно "нормализовывать" - убирать с него всякие троеточия и прочий мусор. Ну и мешать действительно лучше по знакам препинания - по точкам и по запятым разбивать и перемешивать.
sidorka, 😂
Dos3,
можно нарезать сниппеты на части по 3-4 слова, но тогда поломаем морфологию, потому по точке. Ну и вообще, сниппеты по нч ужасны, потому лучше сайты, но если искать по нч на сайтах либо нет статьи, либо с большой вероятностью вытаскивает какую-нить менюху или сниппет с такого же дора))) потому лучше укорачивать кей в запросе, по нему парсить статью и в нее набивать с учетом морфлогии нужный кей. Минус способа - много запросов. Долго.
$snippet=Parser::Snippet(); $snippetPart=explode('.',$snippet); shuffle($snippetPart); $snippet=implode('.',$snippet);
как-то так. а по работе с прокси есть база в любом доргене с открытым кодом, работающим со сниппетами.
фреймворк по сути и есть апи, есть типизированные классы, есть стандартные обращения к методам. Если речь об апи для обращения к скрипту и получения от него данных - есть готовые классы в паблике на которых это можно реализовать, включу в программу данный вопрос, если он интересен.