Pythonで合成音声を生成する方法

2025年5月16日

Pythonで合成音声（テキスト読み上げ）を生成する方法は、Colab（Google Colaboratory）を使えば非常に簡単に実行できます。

ここでは、初心者でも扱いやすい「gTTS（Google Text-to-Speech）」ライブラリと「pyttsx3」ライブラリ、そして最新の高品質TTSライブラリ「TTS（by coqui.ai）」を使った方法を順に紹介します。

方法①：gTTS（Google Text-to-Speech）【最も簡単】

GoogleのAPIを使った非常に簡単なTTS。

音声はmp3で保存されます。

インストール＆コード（Colab用）

# gTTSのインストール
!pip install gTTS

# 音声を生成するコード
from gtts import gTTS
from IPython.display import Audio

text = "こんにちは、これはPythonで作った合成音声です。"
tts = gTTS(text=text, lang='ja')  # lang='ja'で日本語
tts.save("output.mp3")

# 音声を再生
Audio("output.mp3")

特徴

日本語対応
超軽量
無料で使用可（インターネット必須）
音声のカスタマイズ不可（声質は固定）

方法②：pyttsx3【ローカル実行向け・オフライン可】

pyttsx3はローカルでTTSを動かせるライブラリですが、Colabでの利用はやや制限があります。

※Colabでは再生できても音声品質が低めで、再生確認が難しいため、ローカル推奨。

以下は参考用。

# Colabでは正しく動作しないことが多いため、ローカル実行推奨
!pip install pyttsx3

import pyttsx3
engine = pyttsx3.init()
engine.say("こんにちは、これはpyttsx3を使った合成音声です。")
engine.runAndWait()

方法③：高品質なTTS「TTS（by coqui.ai）」【Colab対応・超リアル】

自然な音声を作りたい場合、Coqui TTSが最先端。

多言語＆高精度。

参考コードは、容量の問題を考慮して割愛させて頂きます。

特徴

高品質な日本語合成音声
音声モデルが豊富（話者変更やスタイル変更も可能）
オフライン動作（ColabでもOK）
容量がやや大きい

まとめ

方法	日本語対応	音質	オフライン	利用難易度	備考
gTTS	◎	△（標準）	×	◎	最も簡単、要ネット接続
pyttsx3	△	△（機械音）	◎	○	ローカル実行向け
Coqui TTS	◎	◎（高品質）	◎	△	最新のAI音声技術