解凍先の複数のディレクトリにある特定の名前のtsvファイルで、指定列の条件を満たす数値の数の全ファイルの合計を出したい。

前提

pythonで、ファイルを解凍し、ある特定の名前のtsvファイル(複数ある)の指定列において、条件を満たす数値の数を計算し、それを全てのファイルで合計したい。

実現したいこと

pythonで、

あるディレクトリ内にある複数のtar.gzファイルを全て解凍する

解凍した各tarファイルをそれぞれ元の名前が付けられたディレクトリにいれる

各tarファイルから解凍されたファイルがあるディレクトリから、ある特定の名前のtsvファイルを取り出す

取り出した各ファイルの、指定列の数値を参照する

その列の数値の内、条件を満たす数値の数を数える。

各ファイルで計算したその数値を全て足し合わせる。

発生している問題・エラーメッセージ

まず、コードを実行してもvscodeの出力欄に合計数が出力されません。
初心者ですので、コードが間違っているか、vscodeの環境設定が間違っているかわかりません。稚拙な質問で申し訳ございません...

該当のソースコード

python

import os import tarfile import glob os.chdir(r"C:\case study\applying date check")tar_gz_files = glob.glob('*.tar.gz') for file in tar_gz_files: with tarfile.open(file) as tar: tar.extractall('C:\\case study\\after defrost\\'+ file) import csv os.chdir(r"C:\case study\after defrost")files = glob.glob('*mgt_info_p.tsv')for file in files: import pandas as pd df= pd.read_csv(file,delimiter='\t') print(df) print(df.columns) aymd = aymd + (20210401<= df['app_year_month_day'] <=20210430).sum() print('num_data='+str(aymd))

試したこと

前半部分のみ試してみると上手く解凍ファイルが各ディレクトリに収まってました。

後半部分を実行しようとすると、出力されません。実行とデバッグの欄に青い〇があって押してみましたが、自分のvscodeとpythonの理解度が足りず、分かりませんでした。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

コメントを投稿

0 コメント