先日屋外で配信する動画制作をした際に、動画編集の音量調整(レベル調整)の基準について改めて調べてみました。

調査の目的は、動画編集において、人物の声(セリフ・インタビュー音声)やBGM、効果音、環境音を組み合わせて制作する際に、実際に何を基準にしたらよいのか、を整理する事でしたが、色々と調べるうちに、他にも理解しておいた方がよい情報も出てきたため、そのあたりも整理しておきます。

結論

結論から先に。 以下の範囲を一つの目安にして編集するとバランスの良い動画・音声作品が作れると思います。

  • 全体のターゲットレベル : -6dBFS ~ -10dBFS
  • 音声(会話・ナレーション等) : -8dBFS ~ -12dBFS
  • 音楽(BGM):-18dBFS ~ -30dBFS
  • 効果音:-6dBFS ~ -10dBFS

ただ、大切なのは全体のバランスと編集の意図が実現できているかなので、これに固執して強弱を付けられなくなる、という事にならないように留意する必要はあります。

そして、最終的には配信するプラットフォームの規定に合わせた調整も必要になってきます。

これは、最終的に、ラウドネス値を調整するという作業にも関連します。

ので、編集の流れとしては、以下が良いのかと思います。

  1. 上記の目安を参考に個々のオーディオを編集
  2. 最終的な全体のオーディオをターゲットとなるレベルに調整
  3. 配信プラットフォームの仕様を確認し、ラウドネス値を調整
  4. 配信場所・機器で確認 *依頼者の意向ももちろん汲む事

dB(デシベル)とdBFS(ディービーエフエス)とは

db(デシベル)は比率を表す単位

始めに、単位について。 動画の編集をしていたら必ず目にする音量の単位がdB(デシベル)です。 自分も最初は分かっていませんでしたが、この単位は実は絶対値ではなく、相対値を示す単位なんですね。

Wikipediaによると、以下の通りです。

デシベル (英語: decibel 記号: dB)は、ある物理量を基準となる量との比の常用対数によって表したものである。

(中略)

(一般化、抽象化して説明すると)「デシベル」というのは音圧、電力、利得など、物理量レベル表現を用いて表すときに使用される単位である。

*引用:デシベル - Wikipedia

この単位は、世界初の電話を発明したアレクサンダー・グラハム・ベルさんが使ったそうです。そしてデシは単位に付属する接頭辞。なので、dは小文字で、Bは大文字なんですね。

ここれは細かく掘り下げず、dBFSに話を移しましょう。

デジタル編集で利用されるデシベルはdBFSで、デジタル信号の大きさを表す単位

Premiere ProやAudition、Audacityなど、動画・音声編集ソフトのレベルメーターに記載されているdBは、省略されていますが、実際はdBFSを指します。

dBFSは"Decibels relative to full scale"を略で、日本語ではディービーフルスケールとか、デシベルフルスケールなどと読まれるようです。

このdBFSは、デジタル信号の大小を表す単位です。そのため、動画編集ソフトなどでdBと言えば、言わずもがなdBFSという事で、FSが省略されているんですね。

ですので、以降はこの記事内でも特に補足がない場合は、dB = dBFSと思って読んでいただければと思います。

音編集の大前提は0dBを超えないこと

さて、このdBFSでは、最大値がゼロとされていて、0dBが、表現可能な最大値という事になります。 そのため、音編集では「0dBを超えちゃダメだよ」と言われているんですね。

では、0dBを超えるとどうなるかというと、波形が潰れてしまい、いわゆる音割れという状態になってしまいます

全体のレベルはどこに合わせたらよいか?

冒頭の結論に記載していますが、全体のレベルは -6dBFS ~ -10dBFS で調整するのが良いと思います。

それぞれの音のレベルはどこに合わせたらよいか?

いきなり全体の音を調整することはあまりありません。 まず、1つの作品を構成する様々な音をそれぞれ調整した後に、全体を調整します。

この「様々な音」とそれぞれの目安となる値は以下の通りです。

  • 音声(会話・ナレーション等) : -8dBFS ~ -12dBFS
  • 音楽(BGM):-18dBFS ~ -30dBFS
  • 効果音:-6dBFS ~ -10dBFS

上記をそれぞれ編集した後に、全体のレベルが -6dBFS ~ -10dBFS に達してない場合は、それぞれを調整しなおすか、全体のレベルを引き上げるなどで調整します。

最終的には用途に応じて調整

重要なのは配信先の仕様や依頼者の意向を確認する事

屋外で配信するのか、テレビ番組なのかYouTube番組なのか、Web広告なのか、最終的には用途に応じて調整が必要になります。

それぞれ規約もあるでしょうし、依頼者の希望もあると思います。それを事前に確認するのと、実際に配信テスト(屋外なら、できればそこで配信してチェック)するという事が重要になるかと思います。

また、複数の映像・音作品を同一プラットフォームで配信する場合は、各作品の音量にばらつきが出ないように気を付ける必要があります。

そういう意味でターゲットとするオーディオレベルを明確にしておく事が重要です。

[事例] Netflix(ネットフリックス)の仕様と推奨値

プラットフォームが提示する仕様の例として、Netflixの例を見てみましょう。

Netflixでは、-2dBFS ~ -20dBFS の範囲内で収めるようにと記載しているようです。

幅が広いのは、映画やドラマの表現としてボリュームの大小に差を持たせた方が良いから、でしょうか。

Do not exceed +18db (-2 dbfs) maximum level (true peak) over reference of -20 dbfs, achieved by peak limiting and not lowering the mix level

意訳:基準値を-20dBFS以上とし、最大値のレベルが+18db (-2 dbfs)を超えないようにしてください。これらはピークの制限と全体の音量を下げないようにすることで実現できます。

引用:Netflix Sound Mix Specifications & Best Practices v1.1 – Netflix | Partner Help Center

近年、放送業界などで利用されている基準値ラウドネス

これまでdBFSという単位で話を進めてきましたが、放送業界を皮切りに、音楽業界も含めて、デジタルメディアの業界では現在ラウドネスという単位と値で作品の音量のバランスを取るという運用も採用されているようです。

ラウドネスによる運用は地デジ移行の際に活発に議論されていたとか。

ラウドネスとは人間が感じる音の大きさを示す規格

冒頭で「デシベルが比率を表す単位で絶対値ではない」と記載しました。つまり、デシベルは相対値であるため、基準となる値が必要になります。 この基準となる値をリファレンスレベルと言いますが、デジタルオーディオ編集の場合、機器の多くは−16dBが0VUと設定されていることが多いようです。

また新たな単位が出てきましたね。

VUとはVolume Unitの頭文字で、音の単位という意味です。このVUは、電気信号を値として表現したもののようで、「人間の聴覚がその音を感じるか」という感覚とは別モノという事になります

という事は、デジタル編集の場合で利用されているdBFSも基本的には−16dB = 0VUという事になり、さらに記事の冒頭で述べたように、目安の値を設けていたとしても、音の種類によっては、それが大きかったり、小さかったり感じる事もあり得る、という事になります

DTMにまつわる単語を網羅的に解説してくれているサイト「g200kg Music & Software」の「偏ったDTM用語辞典」で、ラウドネスについて分かりやすく解説されていたので引用します。

近年、人間が感じる音の大きさ「ラウドネス値」をより正確に測定する方法が規格として定められており、これを測定するメーターとして「ラウドネスメーター」がある。放送などでは番組間などの音量差をなくすために、このラウドネスの値を管理する運用基準が定められ、日本では2012年10月より運用が開始されている。

引用:ラウドネス:Loudnessとは | 偏ったDTM用語辞典 - DTM / MIDI 用語の意味・解説 | g200kg Music & Software

また、日本広告業協会(Japan Advertising Agencies Association)の「テレビCM素材搬入基準「音声レベル運用規準」の適用について」という資料でも、ラウドネス値による運用について述べられています。

人間の耳は周波数特性(低音より高音の方が大きく聞こえる等) を 持っているため、実際に感じる「音の大きさ」とVUメータの測定値とは、 必ずしも一致しない。 (中略) 音量感にばらつきが出てしまう。 (中略) ラウドネス値による測定で、人間の聴感特性を加味した 「音の大きさ」を表示することができる。 引用:テレビCM素材搬入基準「音声レベル運用規準」の適用について

ラウドネス値の単位

これはいくつかあるようですが、LKFSもしくは同等の単位としてLUFSが使われているようです。

前述の「偏ったDTM用語辞典」を引用させて頂きます。

「ラウドネス」の規格としては「ITU-R BS.1770-2」、「EBU-R128」があり、日本では「ARIB 技術基準 T032」として定められている。デジタル信号のラウドネスの単位としてはITU由来の「LKFS」またはEBU由来の「LUFS」が用いられ、規格改定など多少の紆余曲折があったが、現在運用されている改定後の基準ではこの2つの単位は同じものを表す。

引用:ラウドネス:Loudnessとは | 偏ったDTM用語辞典 - DTM / MIDI 用語の意味・解説 | g200kg Music & Software

テレビ放送におけるラウドネス値の推奨値は-24LKFS

これは国際的な基準で決められているようです。ターゲットとするレベルを-24LKFSとし、その±1dBは許容範囲とのことです。

ここでは、国立研究開発法人科学技術振興機構 (JST) が運営する電子ジャーナルプラットフォーム「科学技術情報発信・流通総合システム」(J-STAGE)の資料を引用します。

番組の平均ラウドネス値の、目標とする値をターゲットラウドネス値と呼び、この値は国際交換基準で-24LKFSと規定されている。また、番組の平均ラウドネス値の運用上の許容範囲は、ターゲットラウドネス値±1dBとしている。なお、番組の内容により「創造的な政策要求」が最優先される番組では、ターゲットラウドネス値を下回る値を目標として制作することも可能である。

引用:ラウドネス測定法を用いたテレビ番組の音声レベル管理(J-STAGE)

ただ、地域や国によってこの基準値や許容範囲は異なるようです。

テレビ以外のプラットフォーム・サービスにおけるラウドネス値の推奨値はおおむね-14LKFS?

上記はあくまでテレビ番組の基準でした。

では、YouTubeやNetflix、Spotifyといった映像配信、音楽配信プラットフォームではどうでしょうか?

表にまとめて後述しますが、おおむね「-14LKFS付近」を基準としているようです。

テレビ番組の基準「-24LKFS」に比べて大きいのは、何故なんでしょうか。

あくまで推測ですが、以下が理由なのかもしれません。

  • テレビのリモコンは操作できる音量の大小のレンジが広い(だから少し小さめでも問題ない)
  • YouTubeやSpotify、ニコニコ動画などはPCやスマートフォンなど、テレビのリモコンに比べてコントロールできる音量の幅が狭いので予め大きめに設定している

ネットフリックスが「-27LKFS」とテレビに近いのは、このサービスがテレビで見る事が多いのと、最近のテレビや、テレビにつないで遊ぶ据え置き型ゲーム機にはNetflixのアプリがビルトインされているからなのでしょうか。

真相は気になる所ですね。

音量のばらつきを抑えるラウドネスノーマライゼーション

以前、YouTubeを流し見をしていて、動画によって音量がばらついていて、その都度音量を調整した事はないでしょうか?

テレビ番組とは違い、YouTubeは誰もが動画を投稿できるプラットフォームです。そのため、音量の基準というものは人それぞれで、そもそも音量を気にせず投稿される場合もあるでしょう。

これが原因で、動画によって音量が異なるという現象が発生していました。

これを解消する仕組みや機能がラウドネスノーマライゼーションです。

ラウドネスノーマライゼーションは、基準のラウドネス値を決めておき、それを上回る・下回るオーディオデータを、基準値に近ける処理・機能の事です。

最近のストリーミングサービスでは、このラウドネスノーマライゼーションが導入されているために、ボリュームがある程度一定に保たれているんですね。

ストリーミングサービスのアプリによってはラウドネスノーマライゼーションの機能を任意でON・OFFすることができますが、特に意図がなければONにしておいて良いのでは、と思います。 ONにするデメリットが思い浮かばないため。

[事例] 4つのサービスのターゲットラウドネス値

以下の表は、4つのメジャーな動画・音楽配信サービスのターゲットラウドネス値まとめたものです。

この値を基準としてノーマライズを行っているようです。

サービス名 ターゲットラウドネス値 備考
YouTube -14LKFS(LUFS) 公式な資料ないのでインターネット上の情報から判断
Spotify -14LKFS(LUFS) -
ニコニコ動画 -15LKFS(LUFS) 動画全体の音量感が基準値以下の場合、なにもしない
Netflix -27LKFS(LUFS) -

動画編集でラウドネス値は気にした方がよいのか

した方がよい

YouTubeをはじめとしたストリーミングサービスでは上記の通り、既定のラウドネス値に応じてオーディオデータがノーマライズされるので、基準値を超えるコンテンツはシステムによって適切な値まで下げられると思いますが、あらかじめラウドネス値を考慮して編集するに越したことはなさそうです。

これまでのdBをベースとした編集を変える必要はない

ラウドネス値を気にするのは、最終的な音量です。そのため、その過程では、これまで通り、dBをベースに、オーディオレベルメーターを参考にしながら編集をするので良いと思います。

ですので、冒頭に述べた結論の値はこれまで通り利用します。1本の作品の中の音のバランスは、目安となる値を目安とすることでよい結果が得られる事が多いためです。

そして、最終的な調整の段階で、全体のオーディオのレベルをラウドネス値で確認し、配信するプラットフォームの仕様に合わせて調整する、という流れがよさそうです。

Adobe Premiere Pro や Adobe Auditionでラウドネス値の調整を行う方法

では、編集ソフトでラウドネス値を確認できないと意味がないという事ですが、Premiere ProやAuditionではラウドネス値の表示・調整ができるようになっているんですね。

さすがですね。

いずれも「Loudness Rader」というエフェクトが提供されているので、これを利用します。

それぞれの使い方は同様のようですが、適用方法、設定方法は以下の公式の動画と記事をチェックしてみてください。

Adobe Auditionでラウドネスレーダーのエフェクトを適用させる方法

以下が公式のチュートリアル動画です。

Adobe Premiere Proでラウドネスレーダーのエフェクトを適用させる方法

以下が公式のチュートリアル記事です。 Adobe Premiere Pro User Guide

こちらは公式の記事の手順を意訳してご紹介いたします。

  1. Audio Track Mixerを開きます。これは「Window > Audio Track Mixer」で表示できます。
  2. 表示されたAudio Track Mixerパネルで、エフェクトを適用させたいオーディオを選び、上部にある「fx」の場所のドロップダウンメニューから「Special > Loudness Radar」とラウドネスレーダーを選択してください。
  3. エフェクトが適用されたら、エフェクト名をダブルクリックして、ラウドネスレーダーを表示させます。

  4. 表示されたラウドネスレーダーの「Settings」タブを開くと、ターゲットラウドネス値を編集する事ができます。

まとめ

動画・音声作品の制作において、音は重要な要素のひとつです。

目安を定めておくことで制作するたびに音量ばばらつくという事を防げるので、個人単位、チーム単位、プロジェクト単位で設けておくことが重要だと思います。

あとは最終的な配信先や配信場所・環境、依頼者の意向に応じで調整しましょう。

[余談] テレビの基準は民放とNHKで2dBFS異なる

放送局の基準値(レファレンスレベル/リファレンスレベル = 0VU)は、以下のように定められているようです。

  • NHK : -18dBFS = 0VU
  • 民放連 : -20dBFS = 0VU

つまり、NHKと民放のテレビ番組では2dBほど差があるという事。もしかしたらNHKの方が音が大きく聞こえてるかも?という事ですね。

[余談] 地デジ放送では制作現場の音がそのまま視聴者に届く

前述のJ-Stageの資料によると、アナログ放送では番組編集時のコンプレッサーやリミッターとは別に、番組が家庭に届けられる間に、コンプレッサー・リミッターがかけられていたようです。 これは音声レベルの振れ幅が大きいと映像にノイズが出るなどの影響が出る事が理由とのこと。

一方でデジタル放送になり、この制限がなくなったおかげで、番組の音声は制作時の音声データがそのまま家庭に届けられるようになったのだとか。 これはこれで勝手にコンプレッサーやリミッターがかからないので、制作者の意図通りの音が届けられるというメリットがある一方で、基準を設けないと、音のばらつきが目立ってしまう、というデメリットにもつながりますね。

このような経緯もあり、ラウドネス値による音量の正規化が検討され始めたのだそうです。

引用:

調べだすと、話は尽きないですね。

実際のオーディオ編集はどうしたらよいのか?

これは別途記事にまとめたいと思います。