このプロジェクトは、OpenAI の Whisper モデルを用いて音声ファイルの文字起こしを行うシンプルな Python プログラムです。
初心者でも手順に沿って環境構築や実行ができるように、以下の手順に従ってセットアップしてください。
(Whisper の詳しい使い方は gihyo.jp や aiacademy.jp を参考にしています。)
プロジェクトのディレクトリ構成は以下の通りです。
各フォルダの役割についても記載していますので、そのままコピー&ペーストして利用してください。
transcribe_interview/
├── code/
│ └── transcribe.py # 文字起こしのメインコード
├── data/
│ ├── input/ # ここに処理したい音声ファイル(例: .m4a ファイル)を配置します
│ └── output/ # 文字起こしの結果が出力されます(必要に応じてコードを拡張できます)
└── README.md # このマニュアル
git cloneした後は、以下のフォルダに入って作業をしてください。
cd transcribe_interviewPythonが入っているかを以下のコードで確認してください。
python3 --version
- 入っていない場合は、Python の公式サイト (Python.org) から、最新の Python をダウンロードしてインストールしてください。
- ffmpeg は、音声ファイルの読み込みや変換に必要なツールです。
macOS の場合は Homebrew を使って以下のコマンドでインストールできます:brew install ffmpeg
- Windows や Linux の場合は、ffmpeg の公式サイト からバイナリをダウンロードし、環境変数にパスを追加してください (jp.cyberlink.com).
- プロジェクトルートディレクトリで仮想環境を作成し、必要なパッケージをインストールします。
※ requirements.txt には Whisper やその他必要なパッケージのリストを記載してください (Python公式サイト).
python3 -m venv .venv source .venv/bin/activate # Windows の場合は .venv\Scripts\activate pip install -r requirements.txt
- Whisper は Homebrew 経由ではなく、Python の pip コマンドでインストールします。
以下のコマンドを使用してインストールしてください:pip install git+https://github.com/openai/whisper.git
- data/input フォルダに、文字起こししたい音声ファイル(例:.m4a ファイル)を配置します。
- プロジェクトルートディレクトリ(
transcribe_interview)に移動し、以下のコマンドを実行してください:例:python code/transcribe.py --file_path {ファイルのpath}python code/transcribe.py --file_path your_audio_file.m4a
- このコマンドにより、指定した音声ファイルが読み込まれ、Whisper による文字起こしが実行され、結果がコンソールに出力されます (aiacademy.jp).
-
ファイル名に空白があると問題が発生する場合があります
もしファイル名に空白が含まれていると、コマンドライン上で正しく解釈されないことがあります。ファイル名は空白を避けるか、必要に応じてエスケープ(例:Your\ File.m4a)してください (stackoverflow.com). -
環境変数とパス
ffmpeg や Python の仮想環境が正しく設定されているかどうか、実行前に必ず確認してください (jp.easeus.com).
- Whisper モデルの使い方についての詳細は、gihyo.jp を参照してください。
- Python での音声処理全般や環境構築については、aiacademy.jp および qiita.com が参考になります。
- ffmpeg の使い方やトラブルシューティングについては、jp.cyberlink.com や jp.easeus.com をご覧ください。
- 仮想環境の作成方法は、Python の公式ドキュメント (Python公式サイト) を参照してください。
この README を参考に、必要な手順を順に実行するだけで、誰でも簡単に音声ファイルの文字起こしができる環境が整います。コピー&ペーストして実際に試してみてください。