AWS Elemental Inferenceをローンチ当日に早速使ってみた

AWS Elemental Inferenceをローンチ当日に早速使ってみた

AWS Elemental Inferenceがローンチされました

みなさん、AWS Elemental Inferenceというサービスをご存知ですか?

2026年2月24日(日本では25日)に提供開始されたこのサービス、一言でいうとライブ映像をリアルタイムで縦型に変換してくれる機能です。

スポーツ中継などの16:9の横型映像をSNS向けの縦型動画として投稿したいとき、これまでは編集ソフトで切り出しや調整をしてから投稿する必要がありました。AWS Elemental Inferenceを使えば、単純な切り出しであれば編集ソフトなしでリアルタイムに縦型変換が可能です。収録が終わるのを待たず、そのまますぐに視聴者に届けられるのは大きな魅力です。

ちなみにマネージメントコンソールを開いてみると、faviconにこのようなマークが。
これがAWS Elemental Inferenceのアイコンなんですね。

ということで、早速使ってみます!

アーキテクチャ

今回はOBSから映像をSRTで伝送し、MediaConnectで受信したものをMediaLiveに送る構成で検証しました。

(AWS Elemental Inferenceの部分は一旦、この書き方で表しています)

デモ環境構築

MediaConnectはSRT listenerとしてシンプルに受信する設定のみなので割愛します。

MediaLive 入力の作成

まずMediaLive > 入力 > 入力の作成から以下を設定します。

項目
Input name 任意(例: test-input
Input type MediaConnect
Input class SINGLE_INPUT
Flow ARN 作成したMediaConnectフローのARN
Role ARN MediaLiveAccessRole(なければ新規作成)

デフォルトでMediaLiveAccessRoleを作られたのであれば、追加でElemental Inferenceへのアクセス権限が必要となります。

MediaLive チャネルの作成

続いて、MediaLive > チャネル > チャネルの作成で以下を設定します。

項目
Channel name 任意(例: test-demo-channel
Channel class SINGLE_PIPELINE
Role ARN MediaLiveAccessRole
入力コーデック AVC
入力解像度 HD

青い部分にElemental Inference機能を有効化するためのボタンがあり、真っ先にクリックしたくなりますが一旦は我慢してください。

続いて、画像は割愛しますが入力アタッチメントには先ほど作成した入力情報を設定してください。

出力グループの設定

出力グループは横型・縦型のHLSを2種類作成してみます。

まず左メニューの出力グループ > 追加 > HLS から横型動画(16:9)の出力を作成します。

項目
CDN HLS basic put
URL s3://test-bucket/[任意のフォルダ名]/original

HLS出力のアクション設定で解像度を以下のように設定します。

項目
Width 1920
Height 1080

次に同様の手順で縦型動画(9:16)の出力グループを追加します。

項目
CDN HLS basic put
URL s3://test-bucket/[任意のフォルダ名]/vertical

解像度を縦型(9:16)に変更します。

項目
Width 1080
Height 1920

AWS Elemental Inference の有効化

縦型の出力グループを作成したら、AWS Elemental Inference settingsを設定します。
AWS Elemental Inference featuresをEnabledにして機能を有効化し、Smart croppingで出力2(縦型)を有効化することで、AIによる自動クロップが適用されます。

左のメニューのところにもキラキラマークがつきました。

チャネルを作成して開始すると、S3にHLSのTSファイルが蓄積されていきます。

実際に確認してみた

今回はMBSアナウンサーYouTubeチャンネル「ウラオモテレビ」の動画で検証してみました。
【業界用語】藤林&清水 共感のあるあるに大盛り上がり!解説は福島アナ!
確認できた挙動は以下のとおりです。

  • カット変わりで被写体の位置を自動調整してくれる
  • 3ショットなどの場合は、しゃべっている人の1ショットをきちんと選んでくれる
  • 別の人がしゃべり始めると、画角が移動してその人を追う
  • 手振りも含めて画角調整が入るため、思った以上にカメラワークが多い印象
  • 最上手から最下手への移動はさすがに忙しく見える(これは仕方ない)

総じて、思った以上にうまく動いている印象でした。
スクリーンショットを見て、気になる人がいたら、ぜひ本編をご覧ください。
ちなみに『バッテラ』ってみなさんわかりますか?大阪発祥の押し寿司ではありません!その他にもおもしろい業界用語がたくさん紹介されています!

【業界用語】藤林&清水 共感のあるあるに大盛り上がり!解説は福島アナ!

続いて野球やラグビーの映像でも試してみました。1ショットの場面では基本的に選手を捉えてくれますが、背後に観客などがいると細かい動きが入ることもありました。また、正面を向いている人を優先する傾向があるようで、正面を向いたボールボーイがセンターに来て、打者が置き去りになるケースもありました。

一方でうまくいったシーンもあり、ピッチャーが投げるまではピッチャーの1ショット、投球後はバッターへカメラワークが切り替わるなど、十分なクオリティの場面もたくさんありました。(そうでないクオリティもたくさんありました…。)

所感

人物のちょっとした動きや移動でも画角が動くため、全体的にゆらゆらしている場面が目立つことがあります。ただ、AIが迷っているような場面は、人間が見ても迷うような構図であることが多く、ある意味納得感はあります。
そういった場面だけ16:9のオリジナル映像を手動でクロップして補完すれば、十分なクオリティの縦型動画を素早く届けられるのではないかと感じました。

最後に

ドキュメントによると、サッカーやバスケットボールのリアルタイムハイライト生成にも対応しているとのこと。
まずはその2競技でどんな結果が出るかを検証してから、野球・ラグビー・ゴルフなどMBSで中継の多いスポーツでも試していきたいと思います。引き続き深掘りしていきます!

Previous Post