音声の書き起こしを自動化したい

会話、ひとり語り、会議などの音声ファイルを書き起こしして、読むに耐えるものにしたく、ベスト・プラクティスを探しています。

書き起こし

文字起こしには、 Amazon Transcribe を利用しています。これの結果はいい感じではあります。

そう です ね はい うん でき た ええ どう やっ て 知らせる だ うん うん うん です はい はい うん あ すい ませ 読み い い ます ね えーっと そう 誰 な の か 分から ない です よ ね ええ 知り合い の 人 は コメント を 下さい えーっと ちょっと 今 四 人 で 寂しい で 少し 待た せ て 貰っ て いい です か? 五 分 ぐらい すい ませ ん? はい そう です ね 護 民 に なり まし た ちょっと ツイート し ます そっ か そう です よ ね よいしょ そう だ ね ちょっと あ あ 本当 お えっ と マリー さん と 仲間 に さん が コメント し て くれ てる ありがとう ござい ます じゃあ もう いい 人 だ けど 初めて いい ま どうせ あの 何 て 言う か 初めて だ し ちょっと グラ ぐらい 内勤 の 話 な ん です けど ええ めっちゃ 緊張 する な これ えっ と 最近 の 話 な ん です けど まあ そう です よ ね みんな 大変 だ と 思う ん です けど うち は 家族 五 人 な んで 子供 が ずっと 家 に い ます えーっと ま 学校 が 休み に なっ ちゃっ て 保育 書 は です ね まだ やっ てる ん です よ ね ま もう 在宅 で できる 人 は お願い し ます って 言わ れ てる ん です けど ま 男木島 の 様子 で 言う と 香川 県 が 数 名 出 て いる って いう 状態 で 隠岐島 は ま 気 を 付け て いれ ば 大丈夫 な ん じゃ ない か な と 思っ てる ん です けど 観光 客 の 人 と か が です ね いっぱい 来る ま いっぱい って 言っ て も めちゃくちゃ 来 てる わけ じゃ ない です よ 何 か 船 が いっぱい あの もう 満杯 に なる みたい な 感じ で は ない です けど それなり に 歩い てる んで で 僕 の 家 の 前 で も 結構 毎日 誰 か を 見 出 下 の 方 と か だ と? 思う と ちょっと 人 いる じゃ ない か な って で あの 人 と 人 と の 距離 が 離れ て ない と いけ ない って いう 風 に 言っ て ます け

句読点と改行の追加、不要な文字の削除などの整形

その後の整形には、日本語を身に付けたAmazon Transcribeの実力を試す – Qiita を参考に、下記を使います。

s/\(はい \|ええ \|うん \|えーっと \|けど \|ま \|まあ \)//g
s/\(です\|ます\|ません\) \(と\|から\|し \)/\1\2、/g
s/\(です\|ます\) \(よ\? \?ね \)\?/\1\2。\n/g
s/\(でし\|まし\) \(た\)/\1\2。\n/g
s/ //g

上記をファイル名、punctuation.sedとして保存し、コマンドラインから、

$ cat aws-transcribe-file.txt | gsed -f punctuation.sed > punctuated.txt

を実行します。gsed というのは、gnu-sedなので、ない人はbrew install gnu-sedでインストールします。すると、以下のようになります。

そうですね。
できたどうやって知らせるだです。
あすいませ読みいいますね。
そう誰なのか分からないですよね。
知り合いの人はコメントを下さいちょっと今四人で寂しいで少し待たせて貰っていいです。
か?五分ぐらいすいません?そうですね。
護民になりました。
ちょっとツイートします。
そっかそうですよね。
よいしょそうだねちょっとああ本当おえっとマリーさんと仲間にさんがコメントしてくれてるありがとうございます。
じゃあもういい人だ初めていいどうせあの何て言うか初めてだしちょっとグラぐらい内勤の話なんです。
めっちゃ緊張するなこれえっと最近の話なんです。
まあそうですよね。
みんな大変だと思うんです。
うちは家族五人なんで子供がずっと家にいます。
学校が休みになっちゃって保育書はですね。
まだやってるんですよね。
もう在宅でできる人はお願いします。
って言われてるんです。
男木島の様子で言うと香川県が数名出ているっていう状態で隠岐島は気を付けていれば大丈夫なんじゃないかなと思ってるんです。
観光客の人とかがですね。
いっぱい来るいっぱいって言ってもめちゃくちゃ来てるわけじゃないです。
よ何か船がいっぱいあのもう満杯になるみたいな感じではないです。
それなりに歩いてるんでで僕の家の前でも結構毎日誰かを見出下の方とかだと?思うとちょっと人いるじゃないかなってであの人と人との距離が離れてないといけないっていう風に言ってます。

このあとやることとしては、「男木島」などの単語を登録したり、句読点作成コマンドの制度をさらに上げる作業かなと思います。最終的には、どこかにテキストファイルをアップロードしたら、完成物が出てくるようにできればと思っています。

単語登録

単語リストの登録画面。今度やってみよう。

この記事が気に入ったら
フォローしてね!

著者について

コメント

コメントする

目次
閉じる