【PDF⇒Excel変換】パワークエリで表を取込むとレイアウトが崩れてしまう

実現したいこと

社報のPDFファイルに人事異動に関する一覧表があり、
これをExcelファイルに変換してmySQLなどのデータベースに取り込めるよう整理したいと思います。

前提

人事情報一覧は以下のようにまとめられています。

  1. 表は「新部署・役職」「前部署・役職」「氏名」の3列で構成
  2. 表には枠線がない
  3. セルの幅は決められており、文字数が少なければ文字列の間隔が広く表示され、多ければ折り返して表示される

個人情報の為、元データをそのまま掲載することはできませんが、
元のPDFにおける表のイメージは以下の通りです。
PCやスマホなど閲覧している媒体によりレイアウトが崩れる可能性がありますがご容赦ください。

PDF

1        本社営業部課長      2依 願 退 職 兼北海道支社営 田中太郎 3        業部課長代理       4        本社営業部主任      5本社営業部課長 兼北海道支社営 鈴木次郎 6        業 部 主 任      7        本社営業部一般      8本社営業部主任 兼北海道支社営 山田三郎 9        業 部 一 般     

試したこと

以下の手順でPDFをExcelに変換しました。

  1. Excelを起動し、「データ」⇒「データの取得」⇒「ファイルから」⇒「PDFから」の順にクリック
  2. 変換したいPDFファイルを選択し、「インポート」をクリック
  3. ナビゲーターが表示されたら、今回のPDFファイルは31ページまであるので「Page001」から「Page031」を選択し、「データの変換」をクリック
  4. パワークエリエディターが表示されるので、「閉じて次に読み込む」をクリック
  5. 読み込み先を選択する画面で、「新規ワークシート」を選び「読み込み」をクリック
  6. 「Page001」~「Page031」および「追加1」のシートが作成

発生した問題

「追加1」のシートにPDFファイルの複数ページを結合した結果が出力されました。元のPDFのような3列の表を想定していたのですが、「文字間隔があり空白のあるセル」や「文字数が多く折り返し表示されるセル」があるためか、レイアウトが崩れて出力されてしまいます。

例えば、1列目の「依願退職」の部分で、空白文字含め1文字ずつ格納された列が7つ出来てしまいます。
また、2列目で折り返し表示の文字は、3行で出力されました。

レイアウトを崩さないようにExcelファイルが作成する方法はあるでしょうか。
原因は、OSやOfficeのバージョンによるものか、あるいはOfficeやOS側で何か設定し忘れているのでしょうか。
思い当たる方いらっしゃいましたらご意見いただけると幸いです。
どうしても解決できない場合は最終手段として、PDF化する前の元のExcelファイルをもらいますが、
その前にできるだけ手元にあるPDFファイルのみで解決したいと思います。
よろしくお願いいたします。

補足情報(FW/ツールのバージョンなど)

OS:64bit Windows10 Pro バージョン20H2(OSビルド 19042)

Office:Microsoft 365 バージョン 2306(ビルド 16529.20154)

Adobe Acrobat Reader :バージョン2023.003.20215

コメントを投稿

0 コメント