2 votes

Vérifier si un attribut sans valeur existe avec BeautifulSoup

J'essaie de récupérer le texte de l'étiquette à côté des cases à cocher d'un formulaire à partir de celles qui sont cochées.

Voici le code html :

<div class="x-panel-bwrap" id="ext-gen1956"><div 
class="x-panel-body" id="ext-gen1957" style="width: 226px;">
<div class="x-form-check-wrap" id="ext-gen1959"><input type="checkbox" autocomplete="off" id="ext-comp-1609" name="ext-comp-1609" class=" x-form-checkbox x-form-field">
<label for="ext-comp-1609" class="x-form-cb-label" id="ext-gen1960">labeltext1</label></div>
<div class="x-form-check-wrap" id="ext-gen1961"><input type="checkbox" autocomplete="off" id="ext-comp-1607" name="ext-comp-1607" class=" x-form-checkbox x-form-field">
<label for="ext-comp-1607" class="x-form-cb-label" id="ext-gen1962">labeltext2</label></div>
<div class="x-form-check-wrap" id="ext-gen1963"><input type="checkbox" autocomplete="off" id="ext-comp-1605" name="ext-comp-1605" class=" x-form-checkbox x-form-field" checked="">
<label for="ext-comp-1605" class="x-form-cb-label" id="ext-gen1964">labeltext3</label></div>

L'étiquette que je veux obtenir à côté d'une case cochée est différenciée par l'attribut checked="".

for checkboxes in soup.find_all('input', attrs={"id":"ext-comp-1609"}):
    if checkboxes.find('input', attrs={"checked":""}):
        label_1 = soup.find('label',{'id':'ext-gen1960'}).text
        print(label_1)
    else:
        continue

for checkboxes in soup.find_all('input', attrs={"id":"ext-comp-1607"}):
    if checkboxes.find('input', attrs={"checked":""}):
        label_2 = soup.find('label',{'id':'ext-gen1962'}).text
        print(label_2)
    except:
        continue

for checkboxes in soup.find_all('input', attrs={"id":"ext-comp-1605"}):
    if checkboxes.find('input', attrs={"checked":""}):
        label_3 = soup.find('label',{'id':'ext-gen1964'}).text
        print(label_3)
    else:
        continue

Mon problème est que cela saisit les étiquettes, qu'elles soient cochées ou non. J'ai essayé d'utiliser has_attr() également mais cela donne les mêmes résultats.

Solutions expérimentées :

soup = BeautifulSoup(browser.page_source, 'html.parser')
for checkbox in soup.find_all('input', checked=True):
    print(checkbox.label.get_text())

et

soup = BeautifulSoup(browser.page_source, 'html.parser')
for checkbox in soup.select('input[checked]'):
    print(checkbox.label.get_text())

for checkbox in soup.find_all('input', checked=True):
    print(checkbox.find_next_sibling("label").get_text())

2voto

alecxe Points 50783

Vous devez appliquer le checked=True vérifier tous les input éléments. Ensuite, obtenez l'intérieur label et son texte :

soup = BeautifulSoup(data, "html.parser")
for checkbox in soup.find_all('input', checked=True):
    print(checkbox.label.get_text())

Notez que pour html5lib o lxml vous devrez trouver un autre moyen d'accéder aux étiquettes :

soup = BeautifulSoup(data, "html5lib")
for checkbox in soup.find_all('input', checked=True):
    print(checkbox.find_next_sibling("label").get_text())

Ça marche pour moi avec vos données d'entrée :

In [1]: from bs4 import BeautifulSoup

In [2]: data = """your HTML here"""

In [3]: soup = BeautifulSoup(data, "html.parser")

In [4]: for checkbox in soup.find_all('input', checked=True):
   ...:     print(checkbox.label.get_text())
   ...:     
Can Submit Expense Reports

0voto

Beomi Points 1086

Chèque de BeautifulSoup checked avec l'attribut True o False pas "" .

pour que vous puissiez changer comme ceci :

for checkboxes in soup.find_all('input', attrs={"id":"ext-comp-1609"}):
    if checkboxes.find('input', attrs={"checked":True}):
        label_1 = soup.find('label',{'id':'ext-gen1960'}).text
        print(label_1)
    else:
        continue

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X