I have html document
<HTML xmlns:OG="http://opengraphprotocol.org/schema/" xmlns:FB="http://www.facebook.com/2008/fbml"> <style type="text/css"></style> <BODY> <DIV class="block0"> <DIV class="pad0"> <DIV class="fblock"> <DIV class="block61"> <DIV class="rpad"> <H1 class="title">Во Франции по подозрению в планировании теракта задержали двух девушек</H1> <SPAN class="dt2">Понедельник, 26 сентября 2016, 16:08</SPAN> <DIV class="text"> <P>Во французском городе Ницца по подозрению в планировании теракта были задержаны двое девушек.</P> <P>Об этом сообщает <A href="https://www.afp.com">AFP</A>.</P> <P>Девушки в возрасте 17 и 18 лет подозреваются в планировании террористического нападения под руководством французского джихадиста Рашида Кассима.</P> <P>Подростки рассказали следователям, что они планировали нападение под влиянием Рашида Кассима, который сейчас находится в Сирии или Ираке, на территории, которая контролируется террористической организацией "Исламское государство".</P> <P>Рашид Кассим, по мнению следователей, играет роль подстрекателя или спонсора, фактически призывая потенциальных террористов к совершению джихада во Франции.</P> <P>Стоит добавить, что во время обыска в помещениях, которые принадлежат задержанными, стражи порядка не нашли оружия.</P> <P>Издание отмечает, что девушки живут в том же районе, что и <A href="/rus/news/2016/07/15/7052184/">Мохамед Лахуайедж-Бухлель, убивший 86 человек</A> в Ницце 14 июля.</P> <P>Напомним, недавно французская <A href="/rus/news/2016/09/14/7054550/">полиция задержала подростка</A>, подозреваемого в подготовке теракта в Париже.</P> </DIV> <DIV class="btit4"><SPAN>ЧИТАЙ ТАКЖЕ</SPAN></DIV> </DIV> </DIV> </DIV> </DIV> </DIV> </BODY> </HTML> With the help of JSOUPa, I wanted to get all the "parents" of the title
Element element = Jsoup.parse(html).getElementsByClass("title").parents().last(); System.out.println(element); In the console, I got the same HTML document. But I only need to get the "parents" heading. without unnecessary tags like this:
<HTML xmlns:OG="http://opengraphprotocol.org/schema/" xmlns:FB="http://www.facebook.com/2008/fbml"> <BODY> <DIV class="block0"> <DIV class="pad0"> <DIV class="fblock"> <DIV class="block61"> <DIV class="rpad"> <H1 class="title">ЗАГОЛОВОК СТАТЬИ</H1> </DIV> </DIV> </DIV> </DIV> </DIV> </BODY> </HTML> What can you do about it?
And another question: how to find the title the title tag is there will be called not “title”, but something else for example: “head_article”. as pars HTML I will be from different sites.
хотел получить всех "родителей" заголовка? can you somehow say a little more clearly? Want to put them in the list or what? - Alexey Shimansky<DIV class="rpad">block? - Alexey Shimanskyh1tag? that is, you want to parse the title without knowing where it may be in principle. sounds crazy - Alexey Shimansky