Pythonにてcsvファイルの重複した際に、余計なインデックスが列として振られる

Python

# coding: shift-jis from email import header import dask.dataframe as dd import os import glob # テキストの内容を配列に入れる(ヘッダーを加える。)with open('header.txt', 'r') as f: label_list = f.read().split("\n") print(label_list) print(len(label_list)) # ========================================================================================== # フォルダ内)のcsvを一気に結合し、重複を削除# 最初に、「df_concat」にヘッダーのみ記載のcsvファイルを保持しておくdf_concat = dd.read_csv("header.csv", encoding='CP932')os.chdir('./sabun_data./') for i in glob.glob("*.csv*"): tmp = dd.read_csv(i, encoding='CP932') # どのファイルを結合したかを以下のprint文にて記載 print(str(i)+"を結合しました。") # ファイルを一つずつ読み取り、結合する。 df_concat = dd.concat([df_concat, tmp]) # 結合したものから重複削除 df_concat = df_concat.drop_duplicates(subset=['共通商品コード','メーカープライベートコード','メーカーコード'], keep='last').reset_index(drop=True) print("結合し、重複削除したものの件数は"+str(len(df_concat))+"件です。") # 重複削除したものをフォルダ「output_data」に保存 df_concat.to_csv("./output_data./result_"+str(i), single_file = True, encoding='CP932') # ==============================================================# 0TEST_BASICB.csv共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 1,10,111,1111111,a #1.csv共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 1,10,111,1111111,a 2,20,222,2222222,b 3,30,333,3333333,c 4,40,444,4444444,d 9,90,999,9999999,nine 1994,90,999,9999999,nine 1995,90,999,9999999,nine #2.csv共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 1,10,111,9999999,aaaaaa 5,50,555,5555555,e 1,100,1111,1234567,x 2,20,9876,01010101,b 3,3030,333,3333333,c 3,30,333,3333333,xxxxxxxxxx 1,10,111,12121212,new_first #3.csv共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 1,10,111,1111111,a 3,30,333,3333333,c 4,40,444,4444444,d 9,90,999,9999999,nine 1993,90,999,9999999,nine # ==============================================================# result_0TEST_BASICB.csv,共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 0,1,10,111,1111111,a # result_1.csv,共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 0,1,10,111,1111111,a 1,2,20,222,2222222,b 2,3,30,333,3333333,c 3,4,40,444,4444444,d 4,9,90,999,9999999,nine 5,1994,90,999,9999999,nine 6,1995,90,999,9999999,nine # result_2.csv,共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 0,2,20,222,2222222,b 1,4,40,444,4444444,d 2,9,90,999,9999999,nine 3,1994,90,999,9999999,nine 4,1995,90,999,9999999,nine 5,5,50,555,5555555,e 6,1,100,1111,1234567,x 7,2,20,9876,1010101,b 8,3,3030,333,3333333,c 9,3,30,333,3333333,xxxxxxxxxx 10,1,10,111,12121212,new_first # result_3.csv,共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字 0,2,20,222,2222222,b 1,1994,90,999,9999999,nine 2,1995,90,999,9999999,nine 3,5,50,555,5555555,e 4,1,100,1111,1234567,x 5,2,20,9876,1010101,b 6,3,3030,333,3333333,c 7,1,10,111,1111111,a 8,3,30,333,3333333,c 9,4,40,444,4444444,d 10,9,90,999,9999999,nine 11,1993,90,999,9999999,nine #header.csv共通商品コード,メーカープライベートコード,メーカーコード,JANコード,半角50文字

コメントを投稿

0 コメント