スクレイピングしてきた複数のリストの要素数を揃えるには?

実現したいこと

html

1<div>2 <ul>3 <li class="name">りんご</li>4 <li class="price">100</li>5 </ul>6 <ul>7 <li class="name">バナナ</li>8 <li class="comment">1</li>9 <li class="price">200</li>10 </ul>11 <ul>12 <li class="name">ぶどう</li>13 <li class="price">300</li>14 </ul>15</div>

最終的に以下のように出力したい

python3

1['りんご', 'バナナ', 'ぶどう'] [100, 200, 300] [0, 1, 0] 2りんごの価格は100円です。コメントは0件です。 3バナナの価格は200円です。コメントは1件です。 4ぶどうの価格は300円です。コメントは0件です。

前提

PythonとBeautifulSoupを用いてスクレイピングしたデータをリストにしたいと思っています。
リストはzip関数の引数として利用したいので、リストの要素数をそろえたいのですが、上手くコードが書けません。
解決策がわかる方がおられましたら、どうかご教示よろしくお願いいたします。

発生している問題

  • リストそれぞれのリストの要素数が異なるため、zip関数が回せていない
  • 商品のコメント数が0だった場合、コメント数を囲っているliタグがそもそも存在していないため、リストの要素数がそろわない

該当のソースコード

Python3

1from bs4 import BeautifulSoup 2 3html = ''' 4<div> 5 <ul> 6 <li class="name">りんご</li> 7 <li class="price">100</li> 8 </ul> 9 <ul> 10 <li class="name">バナナ</li> 11 <li class="comment">1</li> 12 <li class="price">200</li> 13 </ul> 14 <ul> 15 <li class="name">ぶどう</li> 16 <li class="price">300</li> 17 </ul> 18</div> 19''' 20soup = BeautifulSoup(html, 'html.parser') 21 22items = soup.select('ul > .name') 23names = [i.text for i in items] 24 25items = soup.select('ul > .price') 26prices = [int(i.text) for i in items] 27 28items = soup.select('ul > .comment') 29comments = [int(i.text) for i in items] 30 31print(names, prices, comments) 32 33for i, j, k in zip(names, prices, comments): 34 print(f'{i}の価格は{j}円です。コメントは{k}件です。')

試したこと

リストcommentsに対し、len関数を使用した条件分岐を設定し、条件が一致した場合appendメソッドでリストの要素数を調節した。
しかし、リストcomments[1, 0, 0]となってしまうので、理想の[0, 1, 0]にはならなかった。

Python3

1# 30~32行目挿入 2for i in range(len(names)): 3 if len(comments) != len(names): 4 comments.append(0)

補足情報(FW/ツールのバージョンなど)

Python 3.10.6
beautifulsoup 4.12.2
Windows11
VS Code

コメントを投稿

0 コメント