- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем привет.
Сижу думаю о следующих задачах и не могу понять логику их решения:
1. Найти контентную часть страницы. Это основной блок с контентом страницы. Как его можно определить средствами php (желательно стандартными)?
2. Способ определения примерного места размещения искомого блока на сайте: центр или подвал сайта. Здесь может и не только php потребуется, но все равно слабо представляю как автоматизировать задачу.
Привет.
1) Ну, понятно, что тут нужно придумать алгоритм и реализовать его на PHP. Если бы я выполнял данную задачу, то я бы совмещал эти две вещи:
а) css class/id элементов; то есть, грубо говоря, искал бы контейнер с class/id="content, ..., ".
б) Попробовал бы искать элемент, содержащий в себе больше всего текста / тегов <p> среди прочих блоков.
1. Найти контентную часть страницы. Это основной блок с контентом страницы. Как его можно определить средствами php (желательно стандартными)?
Ну это не совсем "по" PHP задача.
Если есть 2-3-4 страницы с того же сайта - искать совпадающие/различающиеся логические блоки.
* картинка есть такая.. "нельзя просто так взять и ..."
б) Попробовал бы искать элемент, содержащий в себе больше всего текста / тегов <p> среди прочих блоков.
Самый универсальный способ, поддерживаю
http://habrahabr.ru/post/147967/
http://code.google.com/p/boilerpipe/
а) css class/id элементов; то есть, грубо говоря, искал бы контейнер с class/id="content, ..., ".
не, слишком долго маски для поиска придумывать и не все придумаешь. имхо.
б) Попробовал бы искать элемент, содержащий в себе больше всего текста / тегов <p> среди прочих блоков.
ближе
Мне видится разбор страницы с отсечением маленьких блоков до N символов текста. В качестве разделителей идут блоки тегов, они же потом вообще удаляются. На выходе получается массив с данными ('1000 символов','2354','534','234'). Но какой то он усложненный, на мой взгляд.
б) Попробовал бы искать элемент, содержащий в себе больше всего текста / тегов <p> среди прочих блоков.
а если там div`ы будут? или br? тоже не вариант
---------- Добавлено 07.05.2013 в 14:17 ----------
Codd, python и java это прекрасно, но задачка для php, увы.. На питоне точно можно решить эту задачу - там хватает средств, но тут нагрузка задачи небольшая совершенно точно и нужна логика ее решения всего навсего. Все равно спасибо за варианты, посмотрю еще в сторону питона, может быть.
http://habrahabr.ru/post/147967/
http://code.google.com/p/boilerpipe/
Жаль, что только Питон и Джава. Для PHP я знаю только такое решение: http://fivefilters.org/content-only/
К сожалению, оно довольно громоздкое и несколько неуклюжее, да еще и лицензия там GPL, а это не всегда айс. Apache или MIT было бы куда круче 🙄
Искать блок <article> с помощью регулярных выражений либо DOMDocument. :) Если нужно искать контент не на своем сайте и нету возможности задать article, тогда этот вариант нужно просто добавить в существующие варианты поиска.
Всем привет.
Сижу думаю о следующих задачах и не могу понять логику их решения:
1. Найти контентную часть страницы. Это основной блок с контентом страницы. Как его можно определить средствами php (желательно стандартными)?
2. Способ определения примерного места размещения искомого блока на сайте: центр или подвал сайта. Здесь может и не только php потребуется, но все равно слабо представляю как автоматизировать задачу.
Через 18 дней Вы сможете найти людей для этой работы, и не надо будет алгоритм выдумывать🤣D:D
Через 18 дней Вы сможете найти людей для этой работы, и не надо будет алгоритм выдумыватьD
Да-да. Я тоже чувствую это. Возле него сильная энергетика знаний и конкретизации. О Боже, я не хочу больше здесь находиться. Здесь духи. Это удивительно.
Смотрите больше в Битва экстрасенсов 10.
Да-да. Я тоже чувствую это. Возле него сильная энергетика знаний и конкретизации. О Боже, я не хочу больше здесь находиться. Здесь духи. Это удивительно.
Смотрите больше в Битва экстрасенсов 10.
Думаю, имелось ввиду, что начнутся каникулы... :)