会議の録音データを受け取り、AIで文字起こしして要約・整形し、議事録として納品する——これが「AI議事録作成代行」の副業だ。2026年現在、Whisper系の音声認識精度は実用レベルに達しており、1件あたり30〜60分の作業で3,000〜5,000円の報酬が見込める在宅ワークとして注目されている。

筆者自身、Claude CodeやChatGPTを使った受託案件をこなすなかで「AIで文字起こし→要約」のワークフローを何十回と回してきた。正直、最初は精度のバラつきに苦労したが、ツール選定と後処理のコツをつかめば再現性の高い副業になる。

この記事では、未経験からAI議事録作成代行を始める具体的な手順、必要なツールと初期費用、そして時給換算のリアルなシミュレーションを解説する。

AI議事録作成代行とは?従来の文字起こしとの違い

従来の議事録作成代行は、録音を聴きながら手作業でタイピングする「テープ起こし」が主流だった。1時間の音声に対して4〜6時間の作業が必要で、報酬は1時間あたり5,000〜10,000円程度。時給換算すると1,000〜2,500円にとどまるケースが多かった。

AI議事録作成代行では、OpenAI Whisperなどの音声認識モデルで自動文字起こしを行い、人間は「誤字修正・話者分離の確認・要約の作成」に集中する。結果として、1時間の音声を30〜60分で処理できるようになり、時給換算が大幅に改善される。

つまり、AIが「聴いて書く」部分を担当し、人間が「読んで直す・まとめる」部分を担当する分業モデルだ。

必要なツールと初期費用(2026年6月時点)

AI議事録作成代行に必要なツールは大きく3カテゴリに分かれる。

1. 音声認識(文字起こし)ツール

選択肢は主に以下の3つだ。

OpenAI Whisper API: 1分あたり約/bin/bash.006(税抜)。1時間の音声で約/bin/bash.36(約55円、1ドル=153円換算)。精度は日本語でもWER(単語誤り率)10〜15%程度と実用的。APIキーを取得すればすぐに使える。ローカル実行も可能(GPU推奨)。

Notta: 月額1,317円(税込)のプレミアムプランで月120分まで文字起こし可能。話者分離機能付き。ビジネスプランは月2,508円(税込)で無制限。ブラウザだけで完結するため、プログラミング不要で始めやすい。

CLOVA Note: LINEが提供する無料の文字起こしサービス。月600分まで無料で利用可能(2026年6月時点)。話者分離にも対応。無料枠が大きいため、まず試すならここからがおすすめ。

2. 要約・整形ツール

文字起こしの生テキストをそのまま納品することはまずない。要約・整形が必要だ。

ChatGPT(Plus: 月0)やClaude(Pro: 月0)に文字起こしテキストを投げて「議事録形式に要約して」と指示すれば、決定事項・アクションアイテム・議論の要点が整理される。無料プランでも利用可能だが、長い会議では入力制限に引っかかることがある。

3. その他の必要環境

PC(Windows/Mac問わず)、安定したインターネット回線、Googleドキュメントまたは Microsoft Word。特別な機材は不要だ。ヘッドセットがあると音声確認時に便利だが、必須ではない。

初期費用の目安: CLOVA Note(無料)+ ChatGPT無料プランなら初期費用0円で開始可能。Whisper API+ChatGPT Plusの組み合わせでも月額約3,100円程度に収まる。

録音→文字起こし→要約→納品の具体的ワークフロー

実際の作業の流れを、1件あたりの所要時間とともに解説する。

Step 1: 録音データの受領と確認(5分)

クライアントから音声ファイル(mp3/wav/m4a等)を受け取る。まずファイルの長さ・音質・話者数を確認する。雑音が多い場合はAudacity(無料)でノイズ除去をかけると認識精度が上がる。

Step 2: AIによる文字起こし(5〜10分)

Whisper APIを使う場合、コマンド1つで実行できる。

Nottaの場合はブラウザにファイルをアップロードするだけ。1時間の音声なら処理時間は5〜10分程度だ。話者分離(誰が何を言ったか)は、NottaやCLOVA Noteなら自動で対応してくれる。Whisper APIの場合は別途pyannote-audioなどの話者分離ツールを組み合わせる必要がある。

Step 3: テキストの校正(10〜15分)

AIの文字起こし結果には必ず誤りがある。よくあるパターンは以下の通り。

  • 固有名詞の誤認識(社名・人名・製品名)
  • 同音異義語の取り違え(「以降」と「移行」、「施行」と「試行」)
  • フィラー(「えー」「あのー」)の残存
  • 句読点の不自然な位置

ここが人間の付加価値だ。音声を流し聴きしながら固有名詞を中心に修正する。全文を精聴する必要はなく、AIが怪しい箇所(低信頼度のセグメント)を重点的にチェックすればよい。

Step 4: 要約・議事録フォーマットへの整形(10〜15分)

校正済みテキストをChatGPTやClaudeに渡し、以下のような議事録フォーマットに整形する。

  • 会議概要(日時・参加者・議題)
  • 議論の要点(トピックごとに整理)
  • 決定事項
  • アクションアイテム(担当者・期限)
  • 次回予定

プロンプトは定型化しておくと毎回安定した出力が得られる。「以下の会議テキストを、決定事項・アクションアイテム・議論の要点に分けて議事録形式にまとめてください」程度のシンプルな指示で十分だ。

Step 5: 最終確認と納品(5分)

Googleドキュメントまたは Word で体裁を整え、クライアントに納品する。納品形式はクライアントの指定に従う(PDF/Word/Googleドキュメント共有など)。

合計所要時間: 1時間の音声に対して約35〜50分。慣れれば30分以内に収まるケースもある。

時給換算シミュレーション——月5万円を目指すには

結論から言うと、AI議事録作成代行の時給換算は2,500〜8,000円のレンジに収まる。案件単価と処理速度で大きく変わる。

ケース1: 未経験・低単価(クラウドソーシング経由)

項目数値
1件あたりの報酬3,000円(税込)
音声の長さ60分
作業時間50分
ツール費用(1件あたり)約55円(Whisper API)
実質時給約3,540円

計算: (3,000円 − 55円) ÷ (50分 ÷ 60分) ≒ 3,534円/時

ケース2: 中級者・直接契約

項目数値
1件あたりの報酬5,000円(税込)
音声の長さ60分
作業時間35分
ツール費用(1件あたり)約55円(Whisper API)
実質時給約8,490円

計算: (5,000円 − 55円) ÷ (35分 ÷ 60分) ≒ 8,491円/時

月5万円に必要な件数

ケース1(単価3,000円)の場合: 月17件。週4〜5件ペース。

ケース2(単価5,000円)の場合: 月10件。週2〜3件ペース。

クラウドソーシングの手数料(CrowdWorksの場合、報酬額の5〜20%)を差し引くと、ケース1では実質2,400〜2,850円/件になる点に注意。直接契約に移行できれば手取りは大きく改善する。

案件の探し方と単価を上げるコツ

案件を見つけるプラットフォーム

CrowdWorks: 「議事録作成」「文字起こし」で検索すると常時50〜100件程度の案件がヒットする(2026年6月時点)。単価は1時間の音声あたり2,000〜5,000円が相場。

ランサーズ: 同様に議事録・文字起こし案件が掲載されている。「タスク形式」より「プロジェクト形式」の方が単価は高い傾向。

ココナラ: 自分でサービスを出品する形式。「AI文字起こし+議事録作成」として出品すれば、クライアントから依頼が来る。価格設定の自由度が高いのがメリット。

直接営業: 士業事務所(弁護士・税理士)、コンサルティング会社、研究機関は会議録の需要が高い。ポートフォリオとして議事録のサンプルを2〜3本用意し、直接提案するのが最も単価を上げやすい方法だ。

単価を上げる3つのポイント

1. 専門分野に特化する: 医療・法律・IT・金融など専門用語が飛び交う会議の議事録は、汎用的な文字起こしより単価が高い。自分の本業や得意分野の知識を活かせる領域を狙おう。

2. 納品スピードで差別化する: 「当日納品」「翌営業日納品」を売りにすると、急ぎの案件を高単価で受注できる。AIを使えば処理速度は圧倒的に速いため、ここは大きな強みになる。

3. 要約の質を上げる: 単なる文字起こしではなく、「決定事項・未決事項・アクションアイテムの整理」まで含めたパッケージにすると付加価値が上がる。クライアントが求めているのは「読める議事録」であり、生の書き起こしではない。

注意点とリスク——始める前に知っておくこと

守秘義務: 会議の内容には企業の機密情報が含まれることが多い。NDA(秘密保持契約)を締結するのは当然として、文字起こしに使うツールのデータ取り扱いポリシーも確認しておく必要がある。OpenAI Whisper APIの場合、利用規約上、APIで送信されたデータはモデルの学習には使用されない(2026年6月時点)。

確定申告: 副業の所得が年間20万円を超える場合、確定申告が必要だ(給与所得者の場合)。ただし、20万円以下でも住民税の申告は必要なので注意。経費として計上できるのは、ツールの利用料・通信費・ヘッドセット代など。国税庁の確定申告ページで最新情報を確認しよう。

AIツールの精度限界: 方言が強い話者、複数人の同時発話、極端に音質が悪い録音では、AI文字起こしの精度が大幅に落ちる。受注前に音声サンプルを確認できる案件を選ぶのが安全だ。

価格競争: AI文字起こしの普及により、単純な書き起こしの単価は下落傾向にある。「要約・整形・専門知識」の付加価値で差別化しないと、低単価競争に巻き込まれるリスクがある。

FAQ

プログラミングの知識がなくてもAI議事録作成代行はできますか?

できる。NottaやCLOVA Noteはブラウザ上で完結するため、プログラミング不要だ。Whisper APIを直接使う場合はコマンドライン操作が必要だが、GUIツールも複数存在する。

1日何件くらいこなせますか?

本業の後に副業として取り組む場合、1日1〜2件(各1時間の音声)が現実的なラインだ。土日にまとめて処理するなら、1日4〜5件も可能。ただし、集中力の維持が品質に直結するため、無理は禁物。

AI文字起こしの精度はどのくらいですか?

OpenAI Whisperの日本語認識精度はWER(単語誤り率)10〜15%程度(静かな環境・標準語の場合)。つまり100語中85〜90語は正確に認識される。残りの誤りを人間が修正する形になる。

会議の内容をAIに送信してセキュリティ上問題はないですか?

OpenAI APIで送信されたデータはモデル学習に使用されない旨が利用規約に明記されている(2026年6月時点)。ただし、クライアントのセキュリティポリシーによっては外部APIの使用が禁止されている場合もある。事前に確認し、必要ならWhisperをローカル環境で実行する方法もある。

確定申告は必要ですか?

給与所得者の場合、副業所得が年間20万円を超えると所得税の確定申告が必要。20万円以下でも住民税の申告は必要だ。ツール利用料やPC関連費用は経費として計上できる。

参考文献