生成AI入門コース

～第1話　ChatGPTから始まった生成AIブーム～

前回のあらすじ

プロローグでは、まるやまマートの社長・丸山祐介から、ECサイトの改善と来年の「子育て家庭応援フェア」に向けた準備を頼まれた神谷悠馬が、大学の先輩である西園寺遥に相談した。西園寺は「いきなりECを直そうとしなくていい。まずは生成AIやDXを順番に整理しましょう」と提案し、学びのロードマップを示した。今日からの数週間は、その第一歩となる「生成AIを知る」のパートに入る。

学びのスタート

プロローグで西園寺と話してから数日後の夜。神谷は仕事帰りに、駅近くの小さなカフェへ向かった。今夜から、西園寺に生成AIの基本を教えてもらうことになっている。

向かいの席に西園寺が座ると、神谷は少しだけ緊張が和らいだ。大学時代の先輩とはいえ、仕事として教えてもらう場なので、気を引き締めたい気持ちもある。

西園寺

神谷くん、こんばんは。今日から少しずつ、生成AIのことを整理していきましょう

神谷

よろしくお願いします。正直、どこから手をつけたらいいのか、まだよく分かっていなくて

西園寺

それでいいの。最初から全部分かっている人なんていないから。プロローグで一緒に見たロードマップの『ステップ1：生成AIを知る』のところね。今日はまず、『そもそも生成AIって何なのか』を一緒に見ていきましょう

神谷はノートを開いた。社長から言われた「生成AI」という言葉。ニュースでは毎日のように目にするのに、自分の言葉で説明しようとすると何も出てこない。それが正直なところだった。

ChatGPTの衝撃

2022年末から2023年にかけての生成AIサービス登場を示す抽象タイムライン図

西園寺

神谷くんは、ChatGPTを初めて使ったときのことを覚えている？

神谷

はい。たしか去年の冬ごろ、同僚に教えてもらって試しました。質問を入力したら、すごく自然な文章で答えが返ってきて驚きました

西園寺

そうね。ChatGPTは2022年の11月にOpenAIという会社が公開したサービスなの。公開からわずか2か月で月間利用者数が1億人を超えたと言われていて、史上最速で広がったサービスのひとつなのよ

神谷

月に1億人……。そんなに早く広がったんですか

西園寺は説明を続けた。ChatGPTが登場する以前にも、AIは世の中に存在していた。画像認識、音声認識、機械翻訳、レコメンド機能など、さまざまな分野で使われていた。しかし、それらの多くは専門家やエンジニアが開発・運用するものであり、一般のビジネスパーソンが日常的に触れる場面は限られていた。

西園寺

ChatGPTが画期的だったのは、誰でもブラウザから日本語で話しかけるだけで使えたこと。プログラミングも、専門知識も必要なかったの

神谷

たしかに、僕でもすぐ使えました。文系でITに詳しくなくても

西園寺

そう。それが大きな変化なの。AIが『専門家だけの道具』から『会話で使える身近な道具』に変わったきっかけが、ChatGPTだったのよ

神谷

会話で使える、というのが大きかったんですね

西園寺

ええ。専門用語を覚える前に、まず使い始められる。これが普及の速さにつながったの

生成AIとは何か

神谷

ところで西園寺さん、『生成AI』って、ChatGPTのことを指しているんですか？

西園寺

いい質問ね。ChatGPTは生成AIの代表的なサービスの一つだけれど、生成AI＝ChatGPTではないの

西園寺は、生成AIの定義を分かりやすく整理した。

生成AIとは、新しいコンテンツを作り出すことができるAIの総称だ。「生成」という言葉が示すとおり、文章、画像、音声、動画、プログラムのコードなど、さまざまな種類のコンテンツをゼロから生み出すことができる。

従来のAIが「分類する」「予測する」「検出する」といったタスクを中心にしていたのに対し、生成AIは「新しく作る」という点で性質が異なる。たとえば、画像認識AIは「この写真に映っているのは犬か猫か」を当てるのが仕事だったが、画像生成AIは「子犬が雪原で走っている絵」と頼めば、その場で絵を描いてくれる。

西園寺

文章を作る生成AIの多くは、LLM、つまり大規模言語モデルという技術で動いているの。ChatGPTもその一つよ

神谷

LLM……大規模言語モデル。名前は聞いたことがありますが、どういう意味なんでしょうか

西園寺

簡単に言うと、膨大な量のテキストデータを学習して、人間のような自然な言葉を理解し、生成できるようになったAIモデルのことよ。『大規模』は学習データの量やモデルの大きさを指しているの

神谷

だから、僕が日本語で質問しても自然な文章で返してくれるんですね

西園寺

そうね。私たちが普段使っている日本語や英語のような言葉を『自然言語』と呼ぶのだけど、生成AIはその自然言語のまま指示できるのが大きな特徴なの。LLMについては次回もう少し詳しく整理しましょう。今日はまず、生成AIにはLLMだけでなく、画像を作るもの、音声を作るもの、動画を作るもの、コードを書くものなど、いろいろな種類があることを覚えておいてね

広がるAIサービス

西園寺は続けて、ChatGPTの登場後にさまざまな生成AIサービスが生まれたことを説明した。

西園寺

ChatGPTが大きな注目を集めた後、Googleは対話型AIのGeminiを、Anthropicという会社はClaudeというサービスを公開したの。ほかにも、画像生成に特化したサービスや、音声を生成するサービスなど、さまざまなものが出てきているのよ

神谷

Geminiは名前を聞いたことがあります。Claudeというのは初めて聞きました

西園寺

今はたくさんのサービスがあるから、全部覚える必要はないの。大事なのは、ChatGPTだけが生成AIではないということと、それぞれのサービスに特徴や得意分野があるということよ

神谷はノートにメモを取りながら、頭の中を整理していた。生成AIは一つのサービスの名前ではなく、「新しいコンテンツを作るAI」というカテゴリ全体を指す言葉だ。ChatGPTはそのなかで最も早く広まったサービスであり、きっかけだった。

神谷

つまり、生成AIという大きなくくりがあって、そのなかにChatGPTやGeminiやClaudeがある、という理解で合っていますか？

西園寺

その理解で大丈夫よ。そして、これらのサービスの多くは、さっき話したLLM、大規模言語モデルという技術がベースになっているの。この関係は、次回の話で詳しく整理しましょう

神谷

はい。まずは全体の地図が見えてきた気がします

マルチモーダルAIの広がり

神谷

西園寺さん、ニュースで『マルチモーダル』という言葉を見たんですが、これも生成AIの話なんでしょうか

西園寺

いい質問ね。マルチモーダルというのは、『複数の種類の情報をまとめて扱える』という意味なの。たとえば、画像を見せて『この商品の説明文を書いて』と文章で頼んだら、文章で返してくれる。あるいは『この写真の中で、賞味期限はどこに書かれている？』と聞いたら、画像のその部分を指して教えてくれる。テキスト、画像、音声、動画——いろいろなモード（種類）を組み合わせて使えるAIのことを、マルチモーダルAIと呼ぶの

神谷

いろいろな種類を一緒に扱える、ということですか

西園寺

そう。少し前まで、文章のAIと画像のAIは別物だったの。でも今は、複数の種類を同時に扱えるAIが増えてきていて、その流れがマルチモーダル化と呼ばれているの。ただし、すべてのサービスがすべてのモードに対応しているわけではないの。たとえば動画生成はまだ専用のツールが必要なことも多いし、サービスごとに得意な領域が違うのよ

西園寺はノートにテキスト・画像・音声・動画の4つを書き、それぞれにまるやまマートでの活用例を添えた。

西園寺

テキストは、神谷くんがいちばん触ったことのある領域ね。商品説明文の下書き、お知らせ文の要約、長いクレームメールの要点抽出。今は、社内文書を整理するときの一番の入口になっているわ

神谷

ここは想像がつきます。商品説明文の下書きや要約など、テキストはいちばん身近な使い方ですね

西園寺

次が画像。商品の写真を見せて『この商品のPOP下書きを書いて』と頼んだり、逆に『冷凍ピザのおいしそうな盛り付け』と文章で頼んで画像を作ってもらったり。文章から画像へ、画像から文章へ、両方向で使えるのが今の特徴ね

神谷

POPの下書きは現場で需要がありそうです。みどり台店では時短コーナーで毎週POPを書いているパートさんがいますし

西園寺

3つ目は音声。会議の録音から文字起こしを作ったり、お問い合わせ電話の内容を要約したり、逆に文章を読み上げて音声にしたり。聞き取った言葉をテキストに変えると、後で検索や要約がしやすくなるの

神谷

録音した会議の議事録を、わざわざ手で書き起こしていた人が周りにいました。あの作業が変わるかもしれないですね

西園寺

4つ目は動画。短尺のPR動画を作ったり、長い動画から要点だけを取り出して要約したり、字幕を自動で付けたり。動画は重い領域で、品質はまだ発展途上だけど、ここ1〜2年で急に実用化が進んできているの

神谷

駅前店ではフェアの告知を短い動画にしたいという声も出ていました。SNS向けの動画なら、もしかすると下書きを作るところまでは手伝ってもらえるかもしれません

西園寺

いい連想ね。大事なのは、マルチモーダルAIといっても、神谷くんの仕事に関係するのは『どのモードをどう組み合わせるか』だけ、ということ。全部を一気にやろうとせず、テキストから始めて、必要なときに画像や音声に広げていけば大丈夫よ

神谷はノートに、中央から4方向へ伸びる小さな放射状の図を描き、それぞれの先に「テキスト＝要約・下書き」「画像＝POP・商品イメージ」「音声＝議事録・読み上げ」「動画＝短尺PR・字幕」と書き込んだ。生成AIという大きな言葉の中に、4つの入り口があると思うと、自分が次に何を試せばいいのかが、少し具体的になった気がした。

神谷はそのまま、来年の「子育て家庭応援フェア」の準備に重ねてみた。フェアの商品紹介文や保護者向けのお知らせ文はテキストから、店頭POPは画像から——そんなふうに、4つの入り口のどこから手をつけるかが、ぼんやりと見えてきた。

📌 覚えるポイント

ChatGPTは2022年11月に公開され、AIが専門家の道具から一般の人が会話で使える道具に変わるきっかけになった
生成AIとは、文章・画像・音声・動画・コードなど新しいコンテンツを作り出すAIの総称である
ChatGPTは生成AIの代表的なサービスの一つであり、生成AI＝ChatGPTではない
文章を生成するAIの多くはLLM（大規模言語モデル）という技術がベースになっている
マルチモーダルAIは、テキスト・画像・音声・動画など複数の種類の情報をまとめて扱えるAIのこと
ChatGPTの後に、GoogleのGemini、AnthropicのClaudeなど、さまざまな生成AIサービスが登場した

📖 覚える用語

生成AI（Generative AI）: 文章、画像、音声、動画、コードなど、新しいコンテンツを作り出すことができるAIの総称。従来のAIが分類や予測を得意としたのに対し、生成AIは「新しく作る」ことが特徴。

ChatGPT: OpenAI社が2022年11月に公開した対話型の生成AIサービス。自然な日本語で質問や指示を入力すると、文章で回答を生成する。生成AIブームの火付け役となった。

LLM（大規模言語モデル）: Large Language Modelの略。膨大なテキストデータを学習し、人間のような自然な言葉を理解・生成できるAIモデル。ChatGPT、Gemini、Claudeなどの基盤技術。

自然言語: 日本語や英語のように、人間が日常的に使っている言葉のこと。プログラミング言語と対比して使われることが多い。生成AIは自然言語で指示できる点が特徴。

マルチモーダルAI: テキスト・画像・音声・動画など、複数の種類（モード）の情報を入出力できるAIの総称。画像を見せて文章で説明させる、文章から画像を作る、音声を文字起こしして要約するなど、モードをまたいだ処理ができる点が特徴。

Gemini: Googleが開発・提供する対話型の生成AIサービス。文章生成のほか画像や音声など複数形式に対応する。詳しい特徴は第5話で比較する。

Claude: Anthropic社が開発・提供する対話型の生成AIサービス。長文の読解・要約や安全性重視の設計が特徴。詳しい特徴は第5話で比較する。

📝 神谷の社長報告メモ

今日学んだこと: 生成AIとは新しいコンテンツを作るAIの総称で、ChatGPTはその代表的なサービス。ChatGPTの登場で、AIが専門家だけの道具から、誰でも使える身近な道具に変わった。生成AIはテキストだけでなく画像・音声・動画も扱える方向に広がっている（マルチモーダルAI）。
まるやまマートとの関係: 生成AIには文章、画像、音声、動画、コードなど複数の種類がある。まるやまマートでは、まずテキストの活用（商品説明文の下書きやお知らせ要約）から始め、画像（POP下書き）、音声（議事録）、動画（短尺PR）へ段階的に広げるのが現実的。
気をつけること: 生成AI＝ChatGPTではない。複数のサービスがあり、それぞれ特徴が異なる。マルチモーダル化が進んでいるが、全部を一気に導入せず、まず使い慣れた領域から1つずつ。次回はLLMの仕組みを詳しく学ぶ予定。

まとめ

生成AIは、専門家だけの道具ではなくなった。そして今は、文章だけでなく画像・音声・動画まで扱う「マルチモーダル」な道具に広がりつつある。まずは「何ができるか」の全体像をつかむことが、正しく使うための第一歩になる。