Pandasのread_csvの全引数を解説

概要 Pythonモジュールのpandasには、read_csv(又はread_excel等)という、csvやexcelのデータを分析に適した形で読み込む強力な関数があります。ただし、本関数には沢山の引数(44個)があり、公式マニュアルに簡易的な説明はありますが、全体的に使い方の分からないパラメータが多く、自分としてはこれによりpandasのとっつきにくさがアップしている気がしました。 ⇒何とか整理してみようというのがこの記事。 どんな引数があるのか? filepath_or_buffer sep engine lineterminator quotechar quoting skipinitialspace escapechar dtype compression dialect header skiprows index_col names prefix na_values true_values false_values keep_default_na parse_dates keep_date_col date_parser dayfirst thousands comment decimal nrows iterator chunksize skipfooter converters verbose delimiter encoding squeeze na_filter usecols mangle_dupe_cols tupleize_cols error_bad_lines warn_bad_lines infer_datetime_format skip_blank_lines 特に断りがない限り、使うデータは、パラメータの効果がわかり易くなるよう、タブ区切りだったり、文字列と空白と数値が混在していたりと、以下のようなちょっと癖のあるものにしています。 filepath_or_buffer 本パラメータは、読み込むファイル名を指定するときに使うパラメータです。ただし、以下①、②に示すように、引数なしで動きますので実際に使うことはないでしょう。日本語はデフォルトだとutf_8形式で保存した場合のみ文字化けなく読み込めます。それ以外の形式の場合はencodingを参照ください。 sep...
2015年9月3日0 DownloadsDownload