【PYTHONメモ】CSVファイルの重複値を削除

PYTHON

CSVファイルの重複値の削除の方法です。

重複値の削除

CSVファイルの値という列に重複している値が複数あります。こちらを取り除くプログラムを作成します。

必要なライブラリ

必要なライブラリは pandasopenpyxl になります。

インストールされていなければ、下記のコマンドを実行して下さい。

pip install pandas
pip install openpyxl

サンプルコード

import pandas as pd

file1 = "C:/Labo/duplicate.csv"
file2 = "C:/Labo/unique.xlsx"

df = pd.read_csv(file1, encoding='shift-jis')

df['値'] = df['値'].drop_duplicates()

df = df.dropna()

df.to_excel(file2, index=False)

ライブラリのインポートは pandas のみになりますが、エクセルファイルで保存するので、openpyxl も必要になります。

file1 が重複値が入っているCSVファイル、 file2 が重複値を取り除いたファイルになります。

実行すると重複セルを削除したファイルが出来上がります。

 

タイトルとURLをコピーしました