【Python】htmlのテーブル書き換えで意図しない値に置き換わる

実現したいこと

Pythonでhtml内のテーブル(テキスト部分)を、Excelの内容をもとに書き換える

前提

Pythonでhtmlのテーブル内テキスト部分を書き換えるプログラムを作っています。
(具体的にはテーブルは料金表で、既存の価格から新価格へ書き換えるために作成しています。)

openpyxlでExcelを読み込み、A列に記入されている値たち(以下、「書き換えデータ」と記載)をlistに追加。それをpop(0)で取り出してhtml内のテーブルのテキストを書き換えています。
html内の書き換え先検索にはBeautifulSoup4を使用しています。

処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。

※実際はExcelは複数シート存在し、各シートに対応するhtmlファイルがシート数分存在しています。

実行環境

  • Mac(Monterey)
  • Python3

質問内容

  1. 発生している問題の原因
  2. 解決策・手がかり

発生している問題

処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。

書き換えが正しくできていない箇所は以下の3つのうちどれかしらに当てはまっています。
(3つ全てが同じ原因で起きているのかは現状わかりません。)

また、以下の試したことの項目で記載しましたが、Pythonコードの47行目のreplaceの処理で意図しない値に置き換わっていることまではわかっています。

① 書き換えデータのリストで後ろに格納されている値が、想定より前の箇所で書き換えられる。

ex)以下のテーブルを書き換えデータで書き換えたい
<td> a </td>
<td> b </td>
<td> c </td>
<td> d </td>

書き換えデータ[e, f, g, h ]

○処理結果○
<td> e </td>
<td> h </td> //fで置き換えたいところ、hで置き換えられてしまう
<td> g </td>
<td> h </td>

② 書き換え後の値の一部が、2進数表記の下3桁に変換される。
今のところ4桁の値では起きたことがなく、5桁の場合のみ発生する。
ただし全ての5桁の値がこのように置き換えられるわけではなく、一部の値のみ発生する。

ex)

書き換えたい値 実際の書き換え結果
23,920 111,920
22,070 110,070

③ 書き換え後の値の一部が想定とは異なる値に書き換えられる(書き換えデータのリストには存在しない値)
具体的には下3桁目以降が想定より±2 or ±3ずれる。

ex)

書き換えたい値 実際の書き換え結果
20,230 18,230

該当のソースコード

Python

1from bs4 import BeautifulSoup 2import openpyxl 3import glob 4import os 5import shutil 6import tkinter 7import tkinter.filedialog 8from natsort import natsorted 9 10def replace_a_tag_text(html_file, new_file , ws , column_index):11 12 # 最終行を取得する13 maxRow = ws.max_row + 114 maxClm = ws.max_column + 115 16 #行を逆ループ17 for j in range(1,maxClm):18 # 列の指定19 if j == column_index:20 for i in reversed(range(1,maxRow)):21 if ws.cell(row=i, column=j).value != None:22 last_row = i 23 break24 25 # リストを初期化26 data = []27 28 # 1行ずつ読み取る29 for row in range(1, last_row + 1):30 # 指定した列の値を取得する31 value = ws.cell(row, column_index).value 32 # リストに追加する33 data.append(value)34 35 # htmlファイルを読み込み36 with open(html_file, "r",encoding='UTF-8') as f , open(new_file, "w") as nf:37 38 rep_html = f.read()39 soup = BeautifulSoup(rep_html, 'html.parser')40 41 #書き換え候補を探し、置き換える42 for a_tags in soup.tbody.select('tr a'):43 a_tags_text = a_tags.get_text(strip=True)44 # 書き替えるテキストを取得する45 replace_text = data.pop(0)46 # 書き替えを実行47 rep_html = rep_html.replace(a_tags_text,str(replace_text))48 49 nf.write(rep_html) 50 51 52if __name__ == "__main__":53 54 column_index = 155 56 #書き換えの時に参照したいエクセルを選択させる★GUI57 idir = '/Users/XXXXXX/Desktop/kakikae_test'58 excel_file = tkinter.filedialog.askopenfilename(59 initialdir = idir,60 title = "参照したいExcelを選択")61 62 #処理したいフォルダを選択させる★GUI63 html_folder = tkinter.filedialog.askdirectory(64 initialdir = idir,65 title = "書き換えたいhtmlファイルを含むフォルダを選択")66 67 # 処理したいディレクトリに移動68 os.chdir(html_folder)69 70 #書き換え先のnewフォルダを作る71 os.mkdir('./new')72 73 # フォルダ内の全てのHTMLファイルを読み込む74 html_files = natsorted(glob.glob('*.html')) 75 76 #シート数=HTMLファイル数を管理するためのカウント番号をリセット77 cnt = 078 79 # Excelファイルを読み込む80 wb = openpyxl.load_workbook(excel_file)81 82 # シートごとの処理83 for ws in wb.worksheets:84 print("シート名:" + str(ws))85 86 #書き換え元のhtmlを設定87 html_file = html_files[cnt]88 89 # 書き換えた後のhtmlファイルを設定(元のhtmlファイルをnewフォルダ内にコピー)90 new_file = shutil.copy2( html_file , './new')91 92 # データを書き替える93 replace_a_tag_text(html_file, new_file , ws , column_index)94 95 #htmlファイルのカウントを進める96 cnt = cnt + 197 98 wb.close()

html

1 234# テーブル内の値は適当です 5<tbody>6 <tr>7 <th class="title">tableA</th>8 <td><a href="XXXXXXX"> 3,580 </a></td>9 <td><a href="XXXXXXX"> 2,480 </a></td>10 <td><a href="XXXXXXX"> 2,250 </a></td>11 <td><a href="XXXXXXX"> 2,020 </a></td>12 </tr>13 <tr>14 <th class="title">tableB</th>15 <td><a href="XXXXXXX"> 4,570 </a></td>16 <td><a href="XXXXXXX"> 4,210 </a></td>17 <td><a href="XXXXXXX"> 3,850 </a></td>18 <td><a href="XXXXXXX"> 3,500 </a></td>19 </tr>20 <tr>21 <th class="title">tableC</th>22 <td><a href="XXXXXXX"> 4,570 </a></td>23 <td><a href="XXXXXXX"> 4,210 </a></td>24 <td><a href="XXXXXXX"> 3,850 </a></td>25 <td><a href="XXXXXXX"> 3,500 </a></td>26 </tr>27 <tr>28 <th class="title">tableD</th>29 <td><a href="XXXXXXX"> 4,570 </a></td>30 <td><a href="XXXXXXX"> 4,210 </a></td>31323334</tbody>353637

試したこと

  • 書き換え実行(rep_html=~~)の直前で、 a_tags_text、replace_textをprint()で出力

→問題なく想定通りExcelの書き換えデータの値がそのまま出力されていることを確認しました。

  • 書き換え実行(rep_html=~~)とhtml書き出し(nf.write(rep_html))の間でrep_htmlを出力

→発生している問題の項目で記載した、想定しない置き換えがされたhtmlが出力されることを確認しました。

  • htmlファイルのopenの際に指定したencodingが悪さしているのかと思い、付けたり外したりしてみるものの処理結果に変化ありませんでした。

質問内容は以上となります。
回答のために不足している情報がありましたら追記致します。

Pythonでこういったプログラムを作成するのは初めてで、プログラム自体変な書き方をしているかもしれません;
問題についても色々と調べてみたものの、1週間以上原因・解決に辿り着けないため、お力をお貸しいただけますと幸いです。よろしくお願いいたします。

コメントを投稿

0 コメント