新サービスのAmazon Nova CanvasとAmazon Nova Reelをノーコードで使ってみた

松本卓紘

2024年12月16日

Nova

はじめに

今年のre:Inventにおいて、Amazon Novaが発表されました。画像や動画を高いクオリティで作れるということで、テレビ局員としても是非とも体験してみたい！！

ということで、Amazon Novaの基本知識をキャッチアップし、実際にAmazon Nova CanvasとAmazon Nova Reelで作ってみました。

実際に使ってみると、プロンプトのコツを掴めばいろんな可能性が広がっていることを実感しました。今回はプログラミングができない人でもプレイグラウンドを使って実際に作ってみたので、参考にしていただけると幸いです！

Amazon Nova 基本モデル

まずは基本的な知識から。Amazon Novaとは先進的なインテリジェンスと価格性能をリードする最先端の基盤モデルです。大きく分けるとテキスト生成モデルと画像・動画コンテンツ生成モデルの2つに分かれます。

テキスト生成モデル

Amazon Nova micro
- テキストのみのモデルで、非常に低コストで最小のレイテンシーでのレスポンスを提供
- 内部ビルダーも多くの簡単なタスクで使用している
Amazon Nova Lite
- 軽量なタスクに対して超高速な処理が可能な、AWSで最も低コストなマルチモーダルモデル
Amazon Nova Pro
- 幅広いタスクに対して、精度・速度・コストの最適なバランスを実現した、高性能なマルチモーダルモデル
Amazon Nova Premiere (COMING SOON)
- 複雑な推論タスクに対応し、知識蒸留における最高のカスタム教師モデルとして使用できる、AWSで最も高性能なマルチモーダルモデル

ちなみにマルチモーダルモデルとはテキスト、画像、ビデオを入力してテキストを出力するモデルのことです。

画像・動画コンテンツ生成モデル

Amazon Nova Canvas
- 最先端の画像生成モデル
- 最大入力トークンは1024
Amazon Nova Reel
- 最先端の動画生成モデル
- 最大入力トークンは512
- 出力される動画の尺は最大6秒（近々2分間にアップデート予定）

対応言語は今のところはどちらも英語のみですが、例えば日本語でプロンプトを書きたいときは一旦Amazon Nova microなどで英語に翻訳してから処理をすれば十分な結果が出るのではないかとのこと。

Amazon Nova Canvas/Reelの特徴

今回のブログではテキスト生成モデルではなく、画像・動画コンテンツ生成モデルにフォーカスしていきたいと思います。より具体的な特徴が以下となります。

Amazon Nova Canvas

Amazon Nova Canvasは、Titan画像生成モデルが得意とする写真のような画像生成だけでなく、写実的な表現を超えた多様なスタイルや芸術的な表現の画像生成が可能です。また、カラースキームやレイアウトの制御機能を提供し、責任あるAIの実現に向けて、ウォーターマーク機能や有害コンテンツの生成を制限する機能なども標準で搭載しています。

この分野における他の最先端プレーヤーであるDALL-E 3とStable Diffusion 3.5と比較したベンチマークにおいて、Canvasは画像品質と指示の遵守の両面で上回る結果を示しました。また、人間による評価においても高い評価を得ています。

以下、Amazon Nova Canvasの特徴となります。

テキストから画像生成
- 自然言語のプロンプトからクオリティの高い画像を生成
自動編集
- テキストでの指示だけで画像を編集（マスク指定不要）
画像の部分編集と拡張
- オブジェクトの削除/置換、画像の境界の拡張
バリエーション生成とカスタマイズ
- 最大5枚の入力画像をもとにバリエーションを生成
画像の制御と背景処理
- ControlNet（輪郭線検出、セグメンテーション）の使用、ブランドカラーのカラーパレットの適用可能
透かしと知的財産権保護
- トレーサビリティ（追跡可能性）、知的財産権の補償提供
コンテンツ認証
- 生成された画像にデフォルトでメタデータを追加

Amazon Nova Reel

Amazon Nova Reelでは、スタジオ品質の本当にクオリティの高い映像を生成します。
カメラのフルコントロール、モーションコントロール、パン、360度回転とズームが可能です。現在は6秒のビデオ作成機能で、今後数ヶ月以内に最大2分間のビデオまで対応する予定とのことです。
APIを持つビデオ生成サービスはあまりなかったため、Runway Gen-3 Alphaのみと人間による評価でベンチマークを行ったところ、非常に好ましい結果となったとのことでした。

以下、Amazon Nova Reelの特徴となります。

テキストから動画生成
- 自然言語のプロンプトから動画を生成
画像から動画生成
- 画像とテキスト説明を与えて動画を生成
カメラのモーション制御
- テキストプロンプトによりカメラの動きを細かく制御

実際に作ってみた

今回、実際にプレイグラウンドでどういったことができるのかを体験してみました。
現在使えるリージョンはバージニア北部とオレゴンとなります。せっかくなので関西っぽい画像や動画にしているので、クスッと笑っていただけると幸いです。

Amazon Nova Canvas Examples

Text to Image

まずは大阪のテレビ局なだけに、かわいい虎のキャラクターを作ってみました。

prompt:
"A cute tiger sitting in a teacup"

続いて、くいだおれ太郎を作ってみます。赤と白のストライプの服で、丸い眼鏡と青い帽子。特徴的なものを書いてポートレート風画像を作ってみました。

prompt:
"A portrait of a cheerful man in red and white striped clothing, wearing round glasses and a blue hat, standing beneath a crystal chandelier"

画像内の一部を置き換える自動編集

画像を置き換える部分は手入力で範囲を決めることもできれば(今回はこちらで実施)、プロンプトで「river」などと書くことも可能です。今回はなんばの戎橋からの風景で、道頓堀を芝に置き換えてみます。

prompt:
"lawn with fence"

今回は範囲指定で行ったので、川以外の部分の路上まで生成AIで置き換わりました。なので境界線のところにいた観光客たちがぐちゃぐちゃしてしまいました。
手動の範囲指定よりもプロンプトの方が細かいところまで抽出してくれるのかな、と思いました。
あと私はやっぱり道頓堀川が好きです。

画像の背景を自動生成

画像の選択については今回は、プロンプトで「a cafe latte」と書きました。

mask prompt:
"a cafe latte"
text prompt:
"a cafe latte in a sparse stylish cafe, two donuts next to the latte on a wooden table, sunflowers in a glass vase"

カラーパレット

カラーパレットを使って生成画像の色をコントロールしました。

prompt:
"digital painting of takoyaki, futuristic and mystical" 未来風のたこ焼きを作ってみましたが、攻めすぎた画像となってしまいました。

Amazon Nova Reel Examples

Text to Video

まずはテキストから動画を作ってみました。

prompt:
"Cinematic dolly shot of a steaming 8-piece takoyaki set beside a condensation-covered cola on a weathered wooden table.
Natural lighting, visible steam and droplets.
4k, photorealistic, shallow depth of field"

prompt:
"Slow cam of a young boy wearing a black and white pinstriped baseball uniform;
4k; Cinematic; in a sunny day; peaceful; highest quality; dolly in"

prompt:
"Static shot of a senko hanabi sparkler at a Shinto shrine; sparkling animation;
4k; Cinematic; at night; peaceful; highest quality; dolly in"

prompt:
"Closeup of a crispy golden kushikatsu skewer dipped in dark sauce, standing upright in the beach sand, gentle waves flow around it;
Camera zoom in"

Image to Video

続いて、1枚の写真から動画を生成してみます。Start Frameに該当する写真をアップロードすることで、そのフレームから始まる動画が作成されます。
今回は道頓堀川をドローンのようにドリーしてもらう映像を作ってみました。

Start Frameに写真をアップロード

prompt:
"Dolly forward over a gentle river"

最後に

今回はまずはプレイグラウンドの方で何ができるかをいろいろ試してみました。

他にも、1~5枚の入力画像をもとにバリエーションを生成する機能もありましたが、いろいろ試してみてもうまくいかなかったので、原因はプロンプトなのか、使い方なのか、改めて挑戦してみようと思います。

それにしても、生成するときのワクワクと思ったような画像や動画ができたら嬉しい気持ちになりますね。

プロンプトの書き方に不慣れな方へ

これまで様々な画像や動画の生成について紹介してきましましたが、このようなプロンプトを書いた経験がない方、書き方に戸惑いを感じる方も多いのではないでしょうか。

ご安心ください。私も同じような立場でした。

そんな方々に朗報があります。実は、Amazonの研究開発部門のウェブサイトAmazon Scienceにいくつかプロンプト例が公開されています。

Amazon Nova Canvas examples

私の場合、そこに掲載されているプロンプトなどを参考に、『〇〇を生成するように、このフォーマットで書き直してください』というように生成AIに依頼することで、必要なプロンプトを作成しました。

プロンプトの作成に慣れてくれば、このようなサポートは必要なくなるかもしれません。しかし、まだ初心者マークの私としては、これらのツールを積極的に活用しながら、少しずつ生成AIとの付き合い方を学んでいきたいと思います。

松本卓紘

株式会社毎日放送コンテンツ戦略局プラットフォームビジネス部に所属しています
数年前まではカメラや編集などの制作技術を経験。
現在はTVerなどの配信コンテンツの管理作業や社内システムのCMS開発などを行っています。

新サービスのAmazon Nova CanvasとAmazon Nova Reelをノーコードで使ってみた

はじめに