生成AIの種類をわかりやすく解説。GPT以外の生成モデルも紹介

2024年6月27日

生成AIはテキスト・画像・動画・音声などのクリエイティブな領域でも人間以上のパフォーマンスを発揮する可能性がある、画期的な技術です。

しかし、便利な一方で使い方を間違えると危険なツールでもあります。

生成AIは個人でも利用できるサービスが多数あり、今後のさらなる技術進化が期待されている、いま最も注目されている分野です。

この記事では、生成AIの代表的な4つの種類やコンテンツごとの生成モデル、活用サービスについて紹介します。

1 生成AIとは
2 AIが生成できるコンテンツの種類
3 生成AIに用いられる生成モデルの種類
4 生成AIを活用したサービスを種類別に紹介
5 生成AIの課題・問題点
6 まとめ

生成AIとは

生成AIとは「人工知能」の分野のひとつで、新しいコンテンツを自動的に生成する技術です。

深層学習（ディープラーニング）や機械学習のアルゴリズムを用いてパターンを学習し、それをもとに新しいコンテンツ（テキスト、画像、音楽、ビデオなど）を作り出します。

Generative AI（ジェネレーティブ・エーアイ）とも呼ばれます。

生成AIのなにがすごい？

生成AI自体は新しい技術ではありません。AI研究の元祖とも言われる「ニューラルネットワーク」は70年以上も前から研究されていました。

しかし近年になって生成AIが突如注目を集めている大きな理由は、生成精度が飛躍的に上がったことと、活用できる範囲が広がったことです。

精度が向上した要因には、インターネットの普及によってAIの学習に使えるデータが増えたことや、コンピューターの計算速度が飛躍的に進化したことなどがあります。

そして「自然言語処理」という、人間の言葉でAIに指示ができる技術が発展したことで、より多くの人が使えるツールになったのです。

従来のAIとの違い

生成AIが従来のAIと違うのは、「新しいコンテンツ」の作成ができることです。

従来型のAIは既存をデータを分類したり、検索したりすることは得意ですが、新たなデータを作る（生成する）には向いていませんでした。これはプログラムのアルゴリズム（データを計算する様式）による違いです。

対して生成AIは、新しい文章、画像、音楽、映像などを「自動的に・大量に」生成することが可能です。

今までは人間の守備範囲と思われていた「クリエイティブな分野」でも生成AIが活躍できる可能性を秘めているといえます。

生成AIの仕組み

生成AIの仕組みは、主に「ディープラーニング（深層学習）を利用したニューラルネットワークモデルに基づいています。

「学習データ」と呼ばれる大量のデータセットを使って、パターンや特徴を学習することで、生成精度は上がってきました。

学習データには、教師ありデータ学習、教師なしデータ学習、強化学習、深層学習の4種類があります。

多角的なデータ学習をすることで、より自然な「人間らしい回答」を生成することができるのです。

AIが生成できるコンテンツの種類

生成AIはさまざまな種類のコンテンツを作り出す（生成する）ことができます。

ここでは4種類のコンテンツ生成について紹介します。テキスト、画像、動画、そして音声です。（別の分類方法も可能です）

生成AIから求める成果物を得るには、用途に合わせて生成AIを選択し、使い分けることが重要です。

近年では画像や動画分野の生成AIに注目が集まっていますが、テキストや音声の分野も技術が進んでいます。

テキスト生成

生成AIの代表格である「ChatGPT」で知られるようになったのが「自然なテキスト生成」です。

テキスト生成AIは、ユーザーの指示に対して膨大な学習データに基いて、続く可能性のある文章を「予測」して回答を導きます。

「まるで人間と会話しているかのような」自然な文章が特徴です。テキストAIは、マーケティングやカスタマーサービス、教育現場などでも活用され、業務支援や効率化に役立つことが期待できます。

一方で、情報の正確性やセキュリティーなど、今後の活用に向けて解決すべき課題も残っています。

画像生成

画像生成AIは、プロンプト（AIに指示するテキストや文章）によって高品質なオリジナル画像を生成できます。こちらも最近の精度向上が話題になっている分野です。

画像の生成だけでなく、不要な背景を削除するなどの画像編集や画像修復などにも威力を発揮します。

短時間で高品質な画像を生成できるため、業務サポートやクリエイティブな活動時間の確保、新規アイディア創出など幅広い活用に期待が高まっています。

広告業界や映画、ゲームデザインなどのクリエイティブな分野だけでなく、医療の分野（レントゲン写真の診断など）でも活用が期待されている技術です。

動画生成

動画を生成できるAIも登場しています。画像生成と同じように、ユーザーが指示したテキストなどの情報をもとに動画を生成します。

まだ一般向けサービスでは短い動画しか生成できないものが多いですが、こちらも急速に進化している分野です。

動画編集などの専門的な知識も不要で、撮影・編集・音楽挿入などの複数工程も可能なので、コストや時間の削減を実現しつつ、高品質な動画の作成が可能です。

テキストなどに比べ、短時間で多くの情報を伝えられることや視覚的にもわかりやすいことから、企業のプロモーションや教育の現場でも活用されています。

音声生成

音声生成AIは、ユーザーから与えられた音声データの特徴を学び取り、人間に近い自然な音声を生成できます。

基になっているのは音声合成技術で、生成AIと結びつきの強い分野です。生成されたテキストを読み上げることで会話型のAIにの基礎技術になります。

現在の音声生成AIは、多言語に対応した音声ガイドや、視覚障害者の方のための読み上げサービスなど音声コンテンツでの活用が主流です。

しかし今後は音声コンテンツだけでなく、教育やマーケティング・エンターテイメントなど幅広い分野での活用が期待されます。

ただし、声の再現レベルが高まることで不正利用などのリスクも高まります。銀行の声紋認証を突破した事例もあり、AIの不正利用への対策も併せて考えなくてはなりません。

生成AIに用いられる生成モデルの種類

生成モデルとは、AIが学習た元データの特徴から新たなデータを生成するためのモデル（型）のことです。

たとえば、画家のピカソの絵画を大量に学習させたモデルは「ピカソ風」の画像を生成できるようになります。

生成モデルには、用途や対応分野・AIの性質に応じて複数のモデルが存在します。近年話題となっている「ChatGPT」に使用されているGPTも代表的なモデルの一つです。

生成AIの代表的な生成モデルにはGPT、VAE、GAN、拡散モデルがあります。

GPT｜大規模言語モデル

GPT（Generative Pre-trained Transformer）は、アメリカの非営利団体OpenAIが開発した自然言語処理モデルです。

最近話題の「ChatGPT」に採用されているのがこのモデルです。高い言語処理能力を持ち、人間と会話するような自然な文章生成が可能です。

ビジネスメールや記事作成などの文章生成だけでなく、要約や誤字脱字のチェック、リサーチ補助、アイディア提案など幅広く活用されています。

汎用性も高く、多くの場面で活用される一方で情報の正確性やセキュリティー問題などの課題も抱えています。

VAE｜ディープラーニング技術を活用した画像生成モデル

VAE（Variational Auto Encoder）とは、ディープラーニング技術を取り入れた生成モデルで、画像生成AIに採用されています。

VAEは、学習用データから特徴を見つけ出し、そのデータの特徴をもとにして類似した新しいコンテンツを生成できるのが特徴です。

例えば、特定の人物の作品を複数学習させれば、その作品の類似点を探して作品の特徴を残した新しい作品を生み出すことができます。

また、複雑な画像の特徴を捉えることにも優れているため、工業製品の異常を見極める際にも活用されています。

GAN｜2種類のネットワーク構造を利用した画像生成モデル

GAN（Generative Adversarial Networks）は、「Generator」と「Discriminator」の2つのネットワーク構造を活かして画像を生成するという特徴を持った画像生成AI採用のモデルの一つです。

この2つの画像生成の仕組みは、まるで異なります。

Generatorはランダムに生成されたデータ、Discriminatorは学習用の正しいデータを表し、GeneratorがDiscriminatorに近づくようにぶつけ合うことで高度な画像を生成します。

GANは、プロンプトから新規画像を生成したり、低解像度の画像から高解像度の画像を作成したりすることが可能です。

拡散モデル｜GANの進化系モデル

拡散モデル（Diffusion Models）は、GANの進化系といわれ、画像生成AIに採用されている生成モデルです。

学習用の画像に一度ノイズを付け加え、その画像からノイズを取りのぞいて元の画像を復元するプロセスを繰り返します。

このプロセスを繰り返し、画像生成の仕組みを学習させることによって、高度な画像生成が可能です。

高解像度の画像生成が可能な拡散モデルの登場により、従来画像生成の主流であったGANとの世代交代が進んでいます。

生成AIを活用したサービスを種類別に紹介

生成AIは、私たちの日常生活において身近な存在になりつつあります。

無料で利用できるサービスも多く、うまく活用すれば仕事の効率化や品質の向上が可能です。

テキスト生成AI一つをとっても1種類や2種類ではなく、その種類の多さからも将来への期待がうかがえます。

この章では、生成AIを活用したサービスをコンテンツの種類別に紹介します。

活用事例1：テキスト生成AI

1種類目は、テキスト生成AIです。

テキスト生成AIは汎用性が高く、テキストによる会話や文章の作成・要約・修正、情報収集などにも活用されます。

年代を問わず活用でき、一般の方にとって最も身近な生成AIといえるでしょう。

OpenAi開発の生成AI「ChatGPT」

ChatGPTは、アメリカのOpenAiI社が開発した対話型AIであり、人とやり取りするような自然な文章生成が可能です。

約25万冊分の膨大なテキストデータを学習し、そのデータに基づいて質問のあとに続く可能性の高い文章を予測して回答を導きます。

文章生成だけでなく要約やアイディア提案、関数など汎用性が高い一方で、情報の正確性やセキュリティなど課題も多くあります。

GoogleとDeepMindの共同開発「Gemini」

Geminiは、Googleが開発した対話型AIで大規模言語モデルを搭載しています。

2つ以上の異なるコンテンツから情報を集め、統合して処理するマルチモーダル機能はこれまでの生成AIモデルになく、Geminiの特徴といえるでしょう。

文章生成や翻訳では高い能力を発揮し、複雑な質問への回答や文章の要約も得意です。

活用事例2：画像生成AI

2種類目は、画像生成AIです。

画像生成AIの技術は、バーチャル試着などにも活用されています。

一見馴染みがないようですが、大手出版社が生成AIを活用し作成した写真集を発売するなど、話題性もあるコンテンツ分野です。

オープンソースが特徴「Stable Diffusion」

Stable Diffusionは、イギリスのベンチャー企業Stability AIが開発した画像生成AIであり、画像生成AIとして高い知名度を誇ります。

SNSにStable Diffusionを活用して生成された画像が出回るなど、身近な存在となりつつあります。

Stability AIの「誰もが自由にAI技術を活用できるようになるべきである」という考えのもと、コードが無料公開されている点もStable Diffusionの特徴です。

オンラインデザインツール「Canva」

無料のグラフィックデザインツールとして有名な「Canva」には、「Text to Image」や「Mojo AI」と呼ばれるAIを活用した画像生成機能があります。

「Text to Image」「Mojo AI」共に無料プランで使用でき、テキストを入力すると1回につき4枚の画像が生成されます。

架空のイメージも生成できるため、アイコンやパンフレットデザインなどに活用可能です。

活用事例3：動画生成AI

3種類目は、動画生成AIです。

動画は短時間で多くの情報を伝えられるだけでなく、情報の均衡性が保たれることや何度でも見直返せることなどのメリットから、教育教材として活用されています。

動画編集などの専門知識も不要で、誰でも簡単に高品質な動画が作成できます。

クオリティの高さが魅力「Sora」

Soraは、ChatGPTと開発したOpenAI社が2024年2月に発表した動画生成AIです。

現実と見分けがつかないほど高品質の動画生成が可能で、物理法則を正確に反映した影や水の流れ、窓に反射した景色などはAIの専門家が目を見張るほどです。

現在は一般公開されていないSoraですが、今後アニメ映像や映画など幅広い分野において高い技術力の活用が期待されています。

Google未公開の動画生成AI「Lumiere」

Lumiereは、Google Researchが2024年1月に発表した動画生成AIです。

コードやテキストから1024×1024ピクセルの5秒間の動画を生成でき、創造性や表現力を重視した動画は「リアルな動画生成のための時空拡散モデル」と称されるほどです。

GoogleはLumiereの目的を「初心者ユーザーでも創造性のあるビジュアルコンテンツを生成できるようにすることである」としています。

活用事例4：音声生成AI

4種類目は、音声生成AIです。

音声AIは、スマホの音声アシスタントやスマートスピーカーなどの家電にも活用されており、日常の小さな障害を解消します。

高い再現性に注目が集まる一方で、ディープフェイクにも悪用され、社会問題にもなっています。

Microsoftリリースの合成AI「VALL-E」

VALL-Eは、Microsoftが開発した音声合成モデルです。

3秒の音声サンプルのみで、その人の声を忠実に再現した音声を生成可能です。

本人が話しているような高い再現性に加え、録音環境や感情表現にも対応しており、音声合成技術の高さを物語っています。

今後は、教育やエンターテインメント分野での活躍も期待されています。

日本発の音声合成AI「Voicevox」

VOICEVOXとは、ヒホという日本人エンジニアが開発した無料の音声合成ソフトです。

音声合成だけでなく、スピードや抑揚の調整・キャラクターボイスでの読み上げなど機能が豊富なため、幅広い用途で活用されています。

また、ソースコードが公開されており、開発知識のある方であれば自在にカスタマイズできます。

生成AIの課題・問題点

生成AIは革新的に便利な技術ですが、一方で課題や問題点もあります。

「人間と会話しているかのような自然さ」は、間違って（悪意を持って）使えば犯罪や詐欺にも使えてしまいます。

間違った情報の生成

生成AIの大きな問題のひとつが「間違った情報が生成されてしまうリスク」です。

事実に基づかない（嘘の）情報が生成されることを「ハルシネーション」とも呼びます。（「AIが見る幻覚」という意味）

別に悪意を持っているわけではなく、データを生成する過程で間違いが起こることは、現在の進化したAIでも頻繁に起こることです。

また、意図して間違った情報をリアルに見えるように生成してしまうことも可能で、こちらは「フェイクニュース」などで知られています。

学習データや設定による「バイアス」の問題

もう一つの生成AIの問題が「バイアス」です。

「ハルシネーション」や「フェイク」ほどには完全に間違っていたり事実に反してはいないが、明らかに「偏った」情報が出力されてしまう場合などです。

たとえばジェンダーや人種についての質問したときの回答は、AIが学習したデータによって大きく傾向が異なります。

また、アルゴリズムや設定によってもAIの回答に「偏見」が見られて問題になったケースもあります。

著作権の問題

著作権の問題も、生成AIにおける課題の一つです。

イラストや音楽などの著作権のあるコンテンツデータを元に学習させ、そのAIが生成したコンテンツが元データの著作者の知的財産権を侵害するのか、という問題です。

漫画家や俳優などが生成AIの開発会社を訴訟する事例もあり、今後の法整備は大きな課題といえるでしょう。

まとめ

生成AIは、コンテンツ別にテキストAI・画像AI・動画AI・音声AIの4種類に分類できます。

ユーザーの入力する指示に応じて、文書や画像、音声などを生成するという基本の機能に違いはありません。

一方で、それぞれ得意とする分野や特徴に違いがあり、テキストAI一つをとっても何十種類のモデルやサービスがあります。

これまでのAIは、自分たちの生活からは少し遠い存在だったかもしれません。

しかし、近年の急激な成長によってその存在はぐっと近づき、日常生活のいたるところで活用されています。

無料で提供されるサービスも多く、専門の知識も不要で誰でも手軽に利用可能であることから、ユーザー数の増加も容易に予測できます。

生成AIを活用するにあたり、利用者自身がそれぞれの特徴を理解し、利用目的に応じて最適なツールを選択することが重要です。