fs, wave_data = scipy.io.wavfile.read ('sample/voice[aiueo]fs16kHz.wav') # 標本化周波数と音声データの読み込み
print("Sampling frequency [Hz] :", fs)
sampling_interval = 1.0 / fs                          # 標本化周期は，標本化周波数の逆数
times = np.arange ( len ( wave_data )) * sampling_interval # 時間軸データの配列

plt.title("Fig.1")
plot_wave ( times , wave_data )

audio = Audio(wave_data, rate = fs)
audio

Sampling frequency [Hz] : 16000


plt.title("Fig.2")
plot_wave([], wave_data)


nfft = 1024      # FFTの点数は1024
start = np.array([2800, 4800, 6000, 9000, 11000])
# 各母音の開始ポイントをまとめて宣言

target = 0      # 対象として 0番目の音，すなわち /a/ を選択
voice_interval = (start[target], start[target] + nfft)
# 対象音の切り出し区間を設定します。

voice_data = wave_data[ voice_interval[0] : voice_interval[1] ]
# 対象となるデータをスライスで切り出し表示
plt.title("Fig.3")
plot_wave([], voice_data)
audio = Audio(voice_data, rate = fs)
audio


voice_data = hanning( len(voice_data) ) * voice_data
# FFT する前にハニング窓かけ
sp = np.fft.fft(voice_data)
print("Fig.4")
draw_FFT_spectrum(sp, fs, phase_spectrum = False, stem = False)
# （phase_spectrum = False） 振幅スペクトルのみ表示します。
# （stem = False) 点数が多いので，折れ線グラフで表示します

Fig.4


print("Fig.5")
draw_FFT_spectrum(sp, fs = 16000, phase_spectrum = False, real_wave = True, \
                  stem = False, level = True, draw_range = 90,)
# （real_wav  = True) ナイキスト周波数（標本化周波数の1/2）までの描画に限定
#                     実数波形ならば，振幅スペクトルは偶関数なのでナイキスト周波数以上は省略可能
# （level = True) 縦軸を相対レベルで表示し，-90 dB まで描画

Fig.5


# スペクトルを変形する処理を実装
def apply_frequency_mask(sp, fs, lower_cutoff, upper_cutoff, attenuation_factor):
    # FFTの周波数軸を取得
    freq_axis = np.fft.fftfreq(len(sp), d=1/fs)

    # マスクを作成
    mask = np.ones_like(sp)

    # 指定された周波数帯域での減衰・増幅
    mask[(freq_axis >= lower_cutoff) & (freq_axis <= upper_cutoff)] *= attenuation_factor

    # FFTにマスクを適用
    sp *= mask
    # 負の周波数成分の処理
    sp_reverse = sp[::-1].conj() # 複素共役をとって，逆順に並べた
    sp[len(sp) // 2:] = sp_reverse[0: len(sp) // 2]


# マスクを適用
apply_frequency_mask(sp, fs, 0, 600, 10.0)
apply_frequency_mask(sp, fs, 250, 350, 10.0)
apply_frequency_mask(sp, fs, 600, 1200, 0.5)
apply_frequency_mask(sp, fs, 2000, 2200, 10.0)


print("Fig.6")
draw_FFT_spectrum(sp, fs = 16000, phase_spectrum = False, real_wave = True, \
                  stem = False, level = True, draw_range = 90)
 # 逆FFTで波形に変換
waveform = np.fft.ifft(sp).real
 # 波形を再生
Audio(waveform, rate=fs)

Fig.6


nfft = 1024      # FFTの点数は1024
start = np.array([2800, 4800, 6000, 9000, 11000])
# 各母音の開始ポイントをまとめて宣言

target = 1       # 対象として 0番目の音，すなわち /a/ を選択
voice_interval = (start[target], start[target] + nfft)

voice_data = wave_data[ voice_interval[0] : voice_interval[1] ]
plt.title("Fig.7")
plot_wave([], voice_data)
audio = Audio(voice_data, rate = fs)
audio

voice_data = hanning( len(voice_data) ) * voice_data
# FFT する前にハニング窓かけ
sp = np.fft.fft(voice_data)
# （phase_spectrum = False） 振幅スペクトルのみ表示します。
# （stem = False) 点数が多いので，折れ線グラフで表示します
print("Fig.8")
draw_FFT_spectrum(sp, fs = 16000, phase_spectrum = False, real_wave = True, \
                  stem = False, level = True, draw_range = 90,)
# （real_wav  = True) ナイキスト周波数（標本化周波数の1/2）までの描画に限定
#                     実数波形ならば，振幅スペクトルは偶関数なのでナイキスト周波数以上は省略可能
# （level = True) 縦軸を相対レベルで表示し，-90 dB まで描画

Fig.8


nfft = 1024      # FFTの点数は1024
start = np.array([2800, 4800, 6000, 9000, 11000])
# 各母音の開始ポイントをまとめて宣言

target = 0       # 対象として 0番目の音，すなわち /a/ を選択
voice_interval = (start[target], start[target] + nfft)
# 対象音の切り出し区間を設定します。

voice_data = wave_data[ voice_interval[0] : voice_interval[1] ]
voice_data = hanning( len(voice_data) ) * voice_data

sp = np.fft.fft(voice_data)

# マスクを適用
apply_frequency_mask(sp, fs, 0, 600, 10.0)
apply_frequency_mask(sp, fs, 250, 350, 10.0)
apply_frequency_mask(sp, fs, 600, 1200, 0.8)
apply_frequency_mask(sp, fs, 2000, 2200, 20)
apply_frequency_mask(sp, fs, 5500, 7000, 20)


print("Fig.9")
draw_FFT_spectrum(sp, fs = 16000, phase_spectrum = False, real_wave = True, \
                  stem = False, level = True, draw_range = 90)
 # 逆FFTで波形に変換
waveform = np.fft.ifft(sp).real
 # 波形を再生
Audio(waveform, rate=fs)

Fig.9


nfft = 1024      # FFTの点数は1024
start = np.array([2800, 4800, 6000, 9000, 11000])
# 各母音の開始ポイントをまとめて宣言

target = 4      # 対象として 4番目の音，すなわち /o/ を選択
voice_interval = (start[target], start[target] + nfft)
# 対象音の切り出し区間を設定します。

voice_data = wave_data[ voice_interval[0] : voice_interval[1] ]
voice_data = hanning( len(voice_data) ) * voice_data

sp = np.fft.fft(voice_data)

# マスクを適用
apply_frequency_mask(sp, fs, 550, 650, 10.0)
apply_frequency_mask(sp, fs, 651, 850, 0.8)
apply_frequency_mask(sp, fs, 851, 950, 10.0)


print("Fig.10")
draw_FFT_spectrum(sp, fs = 16000, phase_spectrum = False, real_wave = True, \
                  stem = False, level = True, draw_range = 90)
 # 逆FFTで波形に変換
waveform = np.fft.ifft(sp).real
 # 波形を再生
Audio(waveform, rate=fs)

Fig.10

ディジタル音声処理特論レポート¶

課題３「フォルマント周波数を変化させると'a'の音声を他の母音の音声に変化させられるのか」¶

学籍番号：G2XTX0XX，　氏名：○○　○○¶

ディジタル音声処理特論レポート¶

課題３「フォルマント周波数を変化させると'a'の音声を他の母音の音声に変化させられるのか」¶

学籍番号：G2XTX0XX， 氏名：○○ ○○¶

学籍番号：G2XTX0XX，　氏名：○○　○○¶