# 【Awkでデータ解析のすゝめ】重複のあるCSVデータから重複を取り除くためのテクニック |p2>2022/08/082025/07/15{3}「探す」{3}「カウントする」&2 exit 1 } noarg_err() { echo "ERROR: must provide key!" 1>&2 exit 1 } noinputfile_err() { echo "ERROR: not allowed input file to be empty!" 1>&2 exit 1 } while getopts k: OPT; do case $OPT in k ) KEY="$OPTARG" ;; \? ) usage_exit ;; esac done shift $((OPTIND - 1)) if [ -z "$KEY" ]; then noarg_err fi if [ -z "$1" ]; then noinputfile_err fi echo "FILE: $1, KEY: ${KEY}" awk -F"," ' $1~/'"${KEY}"'/ && !col[$1]++ { print $0 } ' $1 ``` これで例えば、CSVデータから銘柄コードのどこかに`44`を含むデータ行を重複なしに抽出できるか試してみましょう。 ```shell $ chmod +x stock_finder.sh $ ./stock_finder.sh -k 44 stocks.csv #👇以下、重複なしの検索結果を表示 FILE: stocks.csv, KEY: 44 4428,リンク,東証Ｇ 4544,ＨUグループ,東証Ｐ ``` どうやらちゃんと検索結果から重複が消えて、見やすいリスト表示が可能となっているようです。ポイントは、Awkスクリプト部分の、`$1~/'"${KEY}"'/ && !col[$1]++`になります。最初の条件で、銘柄コードのある一列目に`KEY`値が含まれているかを正規表現からフィルタリングし、二番目の条件で、重複が発生した行を弾くようにしています。 Awkなら、このような簡単なスクリプトの記述だけで、いとも簡単に重複なしのリストを得ることができます。テクニックの肝をよく理解しておくことで、色々と応用が効くと思います。 - - - ## まとめ以上、Awkでの重複要素を操作するテクニックをまとめてみました。重複を取り出したい、カウントしたいなどの操作は、sortコマンドでも可能ですが、高度な集計を行いたいのであればawkスクリプトで一本化するのも良いのではと思います。