CSVファイルをJSONに変換する際のエンコーディング問題の解決方法

2023.07.24
IT

1. はじめに
2. 問題の発生
3. 問題の原因
4. 問題の解決
- 4.1. コード例
5. まとめ

はじめに

あるプロジェクトで、CSVファイルを読み込んで、それをJSONファイルに変換する必要がありました。

問題の発生

しかし、この作業を進めていると、CSVファイルを読み込む際に KeyError というエラーが発生しました。これはPythonがCSVファイルの特定の列（この場合は ‘in’ と ‘out’）を見つけられなかったことを示しています。

問題の原因

調査した結果、このエラーの原因はCSVファイルのエンコーディングが ‘UTF-8-SIG’ であることでした。このエンコーディングでは、ファイルの先頭に特別なマーク（BOM、Byte Order Mark）がつくため、Pythonが列名を正しく読み込むことができませんでした。

問題の解決

この問題を解決するためには、ファイルを開くときに ‘UTF-8-SIG’ というエンコーディングを指定すれば良いです。Pythonはこのエンコーディングを使用すると、BOMを自動的に除去します。

コード例

まず、CSVファイルのエンコーディングと最初の行の内容を調べるためのコードを示します。これにより、ファイルのエンコーディングとヘッダー行の内容を確認できます。


  import chardet

  # CSVファイルのエンコーディングを推測
  with open('/path/to/your/csvfile.csv', 'rb') as csvfile:
      result = chardet.detect(csvfile.read())
  print(result)

  # CSVファイルの最初の行を表示
  with open('/path/to/your/csvfile.csv', 'r') as csvfile:
      print(repr(csvfile.readline()))

import chardet

# CSVファイルのエンコーディングを推測

with open('/path/to/your/csvfile.csv', 'rb') as csvfile:

result = chardet.detect(csvfile.read())

print(result)

# CSVファイルの最初の行を表示

with open('/path/to/your/csvfile.csv', 'r') as csvfile:

print(repr(csvfile.readline()))

そして、この情報をもとに、ファイルを開くときに適切なエンコーディングを指定してCSVをJSONに変換するコードは以下のようになります。


  import csv
  import json

  # CSVファイルを開く
  with open('/path/to/your/csvfile.csv', 'r', encoding='UTF-8-SIG') as csvfile:
      # CSVリーダーオブジェクトを作成
      reader = csv.DictReader(csvfile)

      # データを変換して格納するリストを作成
      json_data = []

      # 行をループしてデータを取り出す
      for row in reader:
          # データを指定された形式に変換してリストに追加
          json_data.append({"input": row['in'], "output": row['out']})

  # JSONファイルにデータを書き込む
  with open('/path/to/your/jsonfile.json', 'w', encoding='utf-8') as jsonfile:
      json.dump(json_data, jsonfile, indent=4)