CSVファイルの重複値の削除の方法です。
重複値の削除
CSVファイルの値という列に重複している値が複数あります。こちらを取り除くプログラムを作成します。
必要なライブラリ
必要なライブラリは pandas と openpyxl になります。
インストールされていなければ、下記のコマンドを実行して下さい。
pip install pandas
pip install openpyxl
サンプルコード
import pandas as pd
file1 = "C:/Labo/duplicate.csv"
file2 = "C:/Labo/unique.xlsx"
df = pd.read_csv(file1, encoding='shift-jis')
df['値'] = df['値'].drop_duplicates()
df = df.dropna()
df.to_excel(file2, index=False)
ライブラリのインポートは pandas のみになりますが、エクセルファイルで保存するので、openpyxl も必要になります。
file1 が重複値が入っているCSVファイル、 file2 が重複値を取り除いたファイルになります。
実行すると重複セルを削除したファイルが出来上がります。