# 【シェルスクリプトで機械学習】Awkで機械学習で使える高速データ処理〜ガウス分布ノイズの生成方法 |p2>2020/12/082022/09/30 \displaystyle{ f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \biggl( -\frac{(x - \mu)^2}{2 \sigma^2} \biggr) } $$$ また確率変数$$x$$(1次元)が正規分布は$$N(\mu ,\sigma^2)$$と表現します。さて、これをAwkで関数を定義し、計算できるように実装してみます。 ```shell $ awk ' #start(下限)とstop(上限)の範囲をstep間隔に刻んだ配列を返す function gauss(val, mu, sigma) { PI = 3.14159265359; #👈円周率は適当な精度で... a_part = 1.0 / sqrt(2.0 * PI * sigma^2); b_part = -1.0 * (val - mu)^2 / (2 * sigma^2); return a_part * exp(b_part) } BEGIN { print gauss(0, 0, 1) } ' #👇実行後 0.398942 ``` (一点しか確認してませんが...)良さげな値が得られていますので、検証はひとまずおいておいて次の内容に進みます。 - - - ## 正規分布に基づく乱数(正規乱数)の生成正規分布に基づく乱数、つまりはガウス分布ノイズ(=ホワイトノイズ)を作成するためには、単なる乱数から少し捻りを加えないといけません。有名どころのアルゴリズムで、[ボックス-ミュラー法](https://ja.wikipedia.org/wiki/%E3%83%9C%E3%83%83%E3%82%AF%E3%82%B9%EF%BC%9D%E3%83%9F%E3%83%A5%E3%83%A9%E3%83%BC%E6%B3%95)があります。とても簡潔なアルゴリズムですので、Awkでも難なく実装できると思います。 ```shell $ awk -v seed="${RANDOM}" ' function box_muller(mu, sigma, arr_len_) { PI = 3.14159265359; #👈円周率は適当な精度で... count = 0; while(count < arr_len_) { x1 = rand(); x2 = rand(); #👇cosかsinかどちらかを選択 tmp_rand_val = sqrt(-2 * log(x1)) * cos(2 * PI * x2); # tmp_rand_val = sqrt(-2 * log(x1)) * sin(2 * PI * x2); gauss_arr[count] = mu + sigma*tmp_rand_val; count++; } } BEGIN{ #👇シード値をリセット(Awkの場合には重要) srand(seed); #標準正規分布N(0,1)に従う乱数10点の配列を計算 box_muller(0, 1, 10); arr_len = length(gauss_arr); for (i = 0; i < arr_len; i++) { print i, gauss_arr[i]; } } ' #実行 0 1.28016 1 -0.435245 2 -0.962477 3 -1.56287 4 0.710585 5 -0.512278 6 0.4468 7 -1.43556 8 0.0096908 9 1.02674 ``` なおボックス＝ミュラー法は標準正規分布$$N(0, 1)$$に従う乱数です。今回では、線形変換により平均$$\mu$$、分散$$\sigma^2$$の正規分布$$N(\mu, \sigma^2)$$の分布に従う乱数を発生させるように拡張しています。話を本題に戻すと、このコードが生成するを正規乱数は、ガウス分布ノイズと等価です。言い換えるとノイズのとる値が正規分布に従えばガウス分布ノイズであることを確かめることができます。 ### ガウス分布ノイズの検証あらかた材料は揃いましたので、最後に標準正規分布(理論値)と、正規乱数で100万回分サンプルした度数分布を正規化して重ねてみます。まず$$N(0,1)$$分布の理論値を以下のスクリプトで生成します。 ```shell $ awk -v inp_mu=0.0 -v inp_sigma=1.0 ' function arange(start, stop, step) { count = 0; x = start; while (x <= stop) { varr[count] = x; count++; x = x + step; } } function gauss(val, mu, sigma) { PI = 3.14159265359; a_part = 1.0 / sqrt(2.0 * PI * sigma^2); b_part = -1.0 * (val - mu)^2 / (2 * sigma^2); return a_part * exp(b_part) } BEGIN { OFS="," arange(-4, 4, 0.1); arr_len = length(varr); for (i = 0; i < arr_len; i++) { print i, varr[i], gauss(varr[i], inp_mu, inp_sigma); } } ' | awk -F "," ' BEGIN { OFS=","; count = 0; } { xarr[count] = $2; yarr[count] = $3; if(ymax<$3) ymax=$3; count++; } END { xarr_len = length(xarr); for (i = 0; i < xarr_len; i++) { print i, xarr[i], yarr[i] / ymax } } ' > norm_dist_strict.csv ``` さらに、$$N(0,1)$$の正規乱数を100万回繰り返して得られた度数分布のデータセットは以下のスクリプトで生成します。 ```shell $ awk -v seed="${RANDOM}" -v iter=1000000 -v inp_mu=0.0 -v inp_sigma=1.0 ' function box_muller(mu, sigma, arr_len_) { PI = 3.14159265359; count = 0; while(count < arr_len_) { x1 = rand(); x2 = rand(); tmp_rand_val = sqrt(-2 * log(x1)) * cos(2 * PI * x2); gauss_arr[count] = mu + sigma * tmp_rand_val; count++; } } BEGIN{ srand(seed); #シード値をリセット box_muller(inp_mu, inp_sigma, iter); arr_len = length(gauss_arr); for (i = 0; i < arr_len; i++) { print gauss_arr[i]; } } ' | awk -v binsize=0.2 ' BEGIN { OFS="," } { if(binsize <= 0) exit if($1 < 0) { frequency[int($1 / binsize) - 1] ++; } else { frequency[int($1 / binsize)] ++; } } END { for(i in frequency) { print (i + 0.5) * binsize, frequency[i] | "sort -n"; } } ' | awk -F "," ' BEGIN { OFS=","; count = 0; } { xarr[count] = $1; yarr[count] = $2; if(ymax<$2) ymax=$2; count++; } END { xarr_len = length(xarr); for (i = 0; i < xarr_len; i++) { print i, xarr[i], yarr[i] / ymax } } ' > norm_dist_exp.csv ``` 以上で、生成された理論式のデータセット(norm_dist_strict.csv)を実線、正規乱数から得られた度数分布のデータセット(norm_dist_exp.csv)を散布図にして描画したグラフは以下です。 !1000*468*[1](article68/__1.jpg) 関数形だけみるとほぼ一致しており、正規乱数から得られた値がガウス分布ノイズであることが確認できました。 - - - ## まとめ正規分布は機械学習においてもいろんな場面で顔を出す重要な関数の一つです。数学的な理解を深めつつ、計算のアルゴリズムも確実に身につけておきたい内容だと思います。今回の内容は見ての通りで、Awkを駆使することで正規分布のみならず色々な確率密度関数に基づいたデータセットが生成することも可能です。特に機械学習のプログラムは様々な知識が入り乱れる複合テーマです。データの下処理周りはシェルスクリプトにお任せし、解析はtensorflowなどの機械学習用ライブラリで、描画・視覚化はchart.jsなどのグラフィックユーティリティで、各作業を区分けして行うとそれぞれのブログラムの棲み分けができてプロジェクトの管理がしやすくなると思います。 ## 参考サイト [Pythonでガウス分布を持つノイズの作り方と調整方法](https://watlab-blog.com/2019/04/23/gaussian-noise/)