# NMF
def nmf(S=None,k=None,iter=500,H=None):
    '''NMFを行う関数の定義
      引数 S: 入力スペクトログラム
          k:  基底数
          iter: 繰り返し回数
          H: 基底の初期値
    '''
    k=sum(k)
    l,t = S.shape
    U = np.random.rand(k,t)
    print(S.shape)
    print(U.shape)
    print(H.shape)
    for i in range(iter):
        a = np.tile(np.sum(U,1),(l,1))
        b = H * (np.dot(U,(S/np.dot(H.T,U)).T))

        H = b / a.T + 1e-22

        d = np.tile(np.sum(H,1),(t,1))
        e = U * (np.dot(H,S/np.dot(H.T,U)))

        U = e / d.T + 1e-22
    return H, U


# 音声の読み込み
fs, wave_data = scipy.io.wavfile.read ('sample/myAIUEO.wav')


# ライブラリ読み込み
import scipy.signal


# 短時間フーリエ変換
f, t, csp_data = scipy.signal.stft(wave_data, # 時系列データ
                                   fs = fs, # サンプリング周波数
                                   window = 'hann', # 窓関数
                                   nperseg = 512, # 各セグメントの長さ(FFT点数)
                                   noverlap = 512//2, # オーバーラップ
                                   )
# 振幅スペクトログラム
psp_data = np.abs(csp_data) ** 2

# スペクトログラムの描画
plt.figure()
plt.subplot(2, 1, 1)
plt.title('Waveform')
plot_wave([], wave_data)
plt.subplot(2, 1, 2)
plt.pcolormesh(t, f, 20*np.log10(psp_data), vmin=0, vmax=20*np.log10(psp_data).max()) # 振幅はdBで表して見やすくしてある
plt.title('Magnitude Spectrogram')
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [s]');


H, U = nmf(S=psp_data, k=10, iter=500, H=np.random.rand(10, 257))

(257, 334)
(10, 334)
(10, 257)


# NMFの可視化
fig, ax = plt.subplots(2, 2,
                       gridspec_kw={
                           'width_ratios': [1, 4],
                           'height_ratios': [1, 4]},
                       figsize=(12,8))
fig.suptitle("Decomposing Amplitude Spectrograms with NMF", fontsize=16)
ax[0][0].axis("off")

ax[1][0].pcolormesh(range(10), f, 20*np.log10(H.T), vmin=0, vmax=20*np.log10(H).max())
ax[1][0].set_title('Basis H')
ax[1][0].set_ylabel('Frequency [Hz]')
ax[1][0].set_xlabel('k');

ax[0][1].pcolormesh(t, range(10), 20*np.log10(U), vmin=0, vmax=20*np.log10(U).max())
ax[0][1].set_title('Activation U')
ax[0][1].set_ylabel('k')

ax[1][1].pcolormesh(t, f, 20*np.log10(psp_data), vmin=0, vmax=20*np.log10(psp_data).max())
ax[1][1].set_xlabel('Time [s]');


# 半教師付きNMF
def ssnmf(S=None,k=None,iter=500,H=None):
    '''SSNMFを行う関数の定義
      引数 S: 入力スペクトログラム
          k:  基底数
          iter: 繰り返し回数
          H: 基底の初期値
    '''
    k=sum(k)
    l,t = S.shape
    U = np.random.rand(k,t)
    print(S.shape)
    print(U.shape)
    print(H.shape)
    for i in range(iter):
        a = np.tile(np.sum(U,1),(l,1))
        b = H * (np.dot(U,(S/np.dot(H.T,U)).T))

        H_ = b / a.T + 1e-22

        H[k//2:, :] = H_[k//2:, :]

        d = np.tile(np.sum(H,1),(t,1))
        e = U * (np.dot(H,S/np.dot(H.T,U)))

        U = e / d.T + 1e-22
    return H, U


# ターゲット音源の読み込み
fs, smp_data = scipy.io.wavfile.read('sample/sample.wav')
# 分割
f_data = smp_data[:89000]
s_data = smp_data[89000:]
plt.subplot(2,1,1)
plt.title('f_data')
plot_wave([], f_data)
plt.subplot(2,1,2)
plt.title('s_data')
plot_wave([], s_data)


# ドラム音源の読み込み
fs, drum_data = scipy.io.wavfile.read('sample/sample2.wav')
drum_data = drum_data[:len(s_data)] # 混合する音源と同じ長さにそろえる
# 可視化
plt.figure()
plt.subplot(2, 1, 1)
plt.title("sample2.wav");
plot_wave([], drum_data);
plt.subplot(2, 1, 2)
plt.specgram(drum_data, NFFT=512, Fs=fs, noverlap=512//2);
plt.ylabel('Frequency [Hz]');
plt.xlabel('Time [s]');

/usr/local/lib/python3.10/dist-packages/matplotlib/axes/_axes.py:7773: RuntimeWarning: divide by zero encountered in log10
  Z = 10. * np.log10(spec)


# ドラム音源を聞いてみよう
audio = Audio(drum_data, rate=fs)
audio


# 混合音源の作成
mixed_data = s_data[:len(drum_data)] + drum_data
# 可視化
plt.figure()
plt.subplot(2, 1, 1)
plt.title("mixed wave");
plot_wave([], mixed_data);
plt.subplot(2, 1, 2)
plt.specgram(mixed_data, NFFT=512, Fs=fs, noverlap=512//2);
plt.ylabel('Frequency [Hz]');
plt.xlabel('Time [s]');


# 混合音源を聞いてみよう
audio = Audio(mixed_data, rate=fs)
audio


# 目的音の振幅スペクトログラムを得る
f, t, f_csp = scipy.signal.stft(f_data, # 時系列データ
                                   fs = fs, # サンプリング周波数
                                   window = 'hann', # 窓関数
                                   nperseg = 512, # 各セグメントの長さ(FFT点数)
                                   noverlap = 512//2, # オーバーラップ
                                   )
f_psp = np.abs(f_csp) ** 2


# 基底の学習
k_smp = 10
H_smp, U_smp = nmf(f_psp, k=k_smp, iter=1000, H=np.random.rand(k_smp, len(f_psp)))

(257, 349)
(10, 349)
(10, 257)


# 混合音源のスペクトログラム
# 目的音の振幅スペクトログラムを得る
f, t, mix_csp = scipy.signal.stft(mixed_data, # 時系列データ
                                   fs = fs, # サンプリング周波数
                                   window = 'hann', # 窓関数
                                   nperseg = 512, # 各セグメントの長さ(FFT点数)
                                   noverlap = 512//2, # オーバーラップ
                                   )
mix_psp = np.abs(mix_csp) ** 2
# ssnmf用基底の作成
init_H = np.concatenate([H_smp, np.random.rand(k_smp, 512//2+1)], axis=0)
# 半教師付きNMFの実行
H_mix, U_mix = ssnmf(mix_psp, k=k_smp*2, iter=1000, H=init_H)

(257, 623)
(20, 623)
(20, 257)


# 分離音の再構成
s_psp = np.dot(H_mix[:10].T, U_mix[:10])
plt.pcolormesh(t, f, 20*np.log10(s_psp), vmin=0, vmax=20*np.log10(s_psp).max())

<matplotlib.collections.QuadMesh at 0x7e10253a2200>


# 混合音源の位相から複素スペクトログラムに戻す
mix_asp = np.angle(mix_csp)
s_csp = s_psp * np.exp(1j*mix_asp)
# 逆短時間フーリエ変換に掛ける
sep_t, sep_data = scipy.signal.istft(s_csp, fs=fs, noverlap=512//2, nfft=512)
plt.figure()
plt.title("separated audio")
plot_wave([], sep_data);
plt.figure()
plt.title("oracle audio")
plot_wave([], s_data)


audio = Audio(sep_data, rate=fs)
audio

ディジタル音声処理特論レポート¶

課題３「NMFによる音源分離」¶

学籍番号：G22TX0XX，　氏名：○○ ○○¶

6.x.1 音源分離について¶

6.x.2 非負値行列因子分解¶

6.x.3 半教師付きNMFによる音源分離¶

ディジタル音声処理特論レポート¶

課題３「NMFによる音源分離」¶

学籍番号：G22TX0XX， 氏名：○○ ○○¶

6.x.1 音源分離について¶

6.x.2 非負値行列因子分解¶

6.x.3 半教師付きNMFによる音源分離¶

学籍番号：G22TX0XX，　氏名：○○ ○○¶