大規模言語モデル(LLM)とは?仕組み、種類一覧を解説

2023年は「生成AI元年」と呼ばれ、ChatGPTをはじめ大規模言語モデルが大きな注目を集めました。
そして、ビジネスや教育などさまざまな分野で大規模言語モデルは急速に広がりを見せています。

なぜ大規模言語モデルがこのような注目を集めているのでしょうか。
本記事では、大規模言語モデルの概要や仕組み、活用事例までを解説します。

大規模言語モデル(LLM)とは?

「大規模言語モデル(LLM:Large Language Models)」とは、大規模データセットをディープラーニング技術によって学習した言語モデルのことです。
従来の言語モデルとは比較にならないほど流ちょうな会話ができるのが特徴です。

いまや生成AIの代名詞となっているChatGPTもこの大規模言語モデルをベースにしたサービスであり、目を見張るような性能で我々を驚かせています。ChatGPTはOpenAIが2022年に発表した対話型AIです。

OpenAIの最新の大規模言語モデルは2024年5月に発表されたGPT-4oです。
大規模言語モデルを構築する際に利用されるデータセットは、以下の3要素を従来よりも大幅に増やしています。

  • 計算量:コンピューターの処理能力
  • データ量:学習に使われるサンプルデータの量
  • パラメータ数:ディープラーニング技術特有の係数(重みやバイアスなど)

これにより、非常に精度の高い文章生成が可能になっているのです。

言語モデルとは

「言語モデル」とは、文章内における単語の出現確率をモデル化したものです。
具体的には、ある単語の後にどの単語が続くかを予測して自然な文章を生成します。
たとえば「今日は天気が」という文がある場合、次に「良いです」という言葉が続く確率が高くなるように予測されます。

さらに、言語モデルは不自然な言葉の出現確率を下げることで、違和感のある文章を生成しにくくしています。仮に「今日は天気が」の次に「高いです」という言葉が候補としてあがった場合、言語モデルは選択の確率を低くします。(完全に採用しないわけではありません。)

このように、人間が普段から使う言葉、文章、表現を学習することで、より自然な文章を高い確率で生成できるのが言語モデルの特徴です。

「Transformer」がLLM構築のきっかけ

大規模言語モデルが飛躍的に向上するきっかけになったのが、2017年にGoogleの研究者が発表した深層学習モデル「Transformer」です。
Transformerは、文章中の単語同士の関係を理解することができます。

たとえば「太郎くんは小学一年生です。彼は東京都で生まれました」という文章がある場合、「彼」=「太郎くん」という関係性を理解します。
これは画期的なことで、従来の自然言語処理では前後の文章の関係性を理解するのが難しかったのです。

Transformerは、従来のRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)といったアーキテクチャよりも並列処理に優れており、一度に大量のデータを処理できるのが特徴の一つで、また「Attention」と呼ばれる機構を持ち文章内で重要な箇所を分析して認識できます。
このため、Transformerは文意をより正確に理解できるようになりました。

大規模言語モデル(LLM)の仕組み

ところで、大規模言語モデルはどのようにして動いているのでしょうか。
プロンプト(命令文)を受けてからの動きを見ていきましょう。

1.トークン化
「トークン」とは文を構成する最小単位のこと。
たとえば「本日は晴天なり」の場合「本日」「は」「晴天」「なり」と分割できます。
トークン化することで、コンピューターがデータを効率的に処理できます。

2.文脈理解
文章全体の意味を捉えて、各トークンの意味や役割を理解します。
文脈理解では「注意機構(Attention Mechanism)」が重要な役割を担います。
たとえば「文章を要約してください」という文章の場合、「文章」「要約」という単語が文章内で重要であることを理解します。

3.エンコード
続いてエンコードによってトークンをベクトルに変換します。
ベクトルとは多次元配列によって表現される座標空間のことです。
入力されたトークンは座標空間に配置され、関連性や類似性を計算して意味・文脈を理解します。

4.デコード
エンコードされたベクトルをもとに、デコードが行われます。
デコーダは、エンコードされた情報をもとに、ターゲットのトークンを生成します。
トークンは順番に生成されていきます。

5.次のトークンの確率を予測
最後に、次のトークンの出現確率を計算し、予測します。
たとえば、「時計が落ちて」の次に来るべきトークン候補が2つあるとします。
「壊れた」と「動いた」では「壊れた」のほうが適切であると計算します。

大規模言語モデルの種類

大規模言語モデルにはたくさんの種類があります。ここでは代表的な大規模言語モデルを紹介します。

モデル企業パラメータ数発表年
GPT-4oOpenAI非公開2024
Claude3Anthropic非公開2024
Gemini 1.5Google非公開2024
Llama3 70BMeta700億2024
Mistral LargeMistral AI非公開2024
Elyza 70BELYZA700億2024

GPT-4o

OpenAI社が開発したGPTの最新モデルです。
すでに発表されていたGPT-4よりも高速で応答し、日本語を含む非英語言語の性能が向上したのが特徴です。
テキスト、音声、画像などを処理できるマルチモーダルモデルで、多くの分野での活用が期待されています。

Claude3

Anthropic社が開発した大規模言語モデルがClaude3です。
Claude3は大量のコンテキストを一度に読み込むことができ、20万トークンを処理可能です。
日本語性能も非常に高く、性能はGPT-4と同等と言われています。

Gemini 1.5

Google社が開発する大規模言語モデルです。
前身であるBardをさらに進化させたマルチモーダルモデルで、最高性能の「Gemini 1.5 Pro」と応答速度を重視した「Gemini 1.5 Flash」があります。
さらに、最大200万トークンまで読み込める長大なコンテキスト長を持ちます。

Llama3 70B

Meta社が開発するオープンソースの大規模言語モデル。
オープンソースであるため、多くの企業がLlamaをベースにしたオリジナル大規模言語モデルの開発に取り組んでいるのが特徴です。

Mistral Large

Mistral AI社が開発するMistral Largeは、高いベンチマークを誇り発表当時はGPT-4に次ぐスコアを記録していました。
「Le Chat」というチャットインーフェースから利用することができますが、日本語に対応していないので今後の対応が待たれます。

Elyza 70B

日本語に特化した国産の大規模言語モデルがElyzaです。
Elyza 70BはLlama2をベースに開発されたモデルで、高い日本語能力を誇ります。
日本語能力に関していえば、GPT-3.5 TurboやClaude 2.1と同等の能力を示しています。

大規模言語モデルと類似用語との違い

大規模言語モデルや生成AI、機械学習などさまざまな言葉があり、混乱している人は少なくありません。
1度、類似用語を整理しておきましょう。

ChatGPTとの違い

大規模言語モデルが大量のデータを機械学習したモデルであるのに対し、ChatGPTはOpenAI社が展開している大規模言語モデルを使ったチャットサービスです。

ChatGPTが採用している大規模言語モデル「GPT(Generative Pre-trained Transformer)」は非常に高精度な文章を生成してくれます。
最近では画像生成の「DALL-E」、動画生成の「Sora」なども展開しています。

生成AIとの違い

生成AIは、テキストに限らず画像や動画などを生成する技術の総称です。つまり、大規模言語モデルはテキスト生成に特化した生成AIの一部と言えます。

機械学習との違い

機械学習は特定のアルゴリズムを使ってモデルをトレーニングする手法のことです。
大規模言語モデルは機械学習の一つである深層学習(ディープラーニング技術)で学習しています。

大規模言語モデルでできること

大規模言語モデルはさまざまなタスクに対応できます。
ここでは、おすすめの活用方法をご紹介します。

文章の要約

文章の要約は大規模言語モデルの代表的な活用方法の一つです。
大規模言語モデルに文章を要約してもらえば、読むのが大変な論文の理解や、ニュース記事、ビジネスレポートの短時間での把握が容易になります。

キーワードの抽出

文章やデータの中から特定のキーワードを抽出するのも大規模言語モデルの得意分野です。
長文コンテンツから重要な箇所を抽出、キーワード要素を分析してタグ付けし、分類するといったことができます。
SNS上でユーザーが商品に対してどのような反応をしているのかを抽出し、改善に役立てるといったことも可能です。

質問応答

大規模言語モデルを対話ができるようにチューニングすると、さまざまな疑問や質問に回答してくれるようになります。
たとえば、自分の知らない分野の質問に回答してくれたり、事前知識を与えてより正確な回答を生成したりと、幅広い活用が可能です。
すでに多くの人が利用しているChatGPTはこの質問応答をベースに構築されたサービスです。

機械翻訳

機械翻訳は、大規模言語モデルが得意とするタスクの一つです。
大規模言語モデルは、英語やスペイン語、フランス語、日本語など、さまざまな言語のテキストデータを学習しています。そのため、言語の構造や文法、語彙などを高いレベルで習得しているのです。

大規模言語モデルで翻訳をすれば、(大規模言語モデルがその言語に対応していれば)自分の知らない言語でもその場で翻訳してコミュニケーションを取ることができます。
また、自分が読めない言語の文献やウェブサイトの情報であっても、翻訳によって内容を理解しやすくなるでしょう。

ソフトウェア開発

ソフトウェア開発においても大規模言語モデルは強力なツールとなりえます。大規模言語モデルを使えば、サンプルプログラムの生成、プログラムのレビュー、バグや記法のチェックなど幅広いタスクを効率的に進められます。
とくに、自分の不得手な分野のサンプルプログラムの生成や、一人では難しいプログラムレビューは大きな助けとなるでしょう。

大規模言語モデルの活用

大規模言語モデルの活用例の一つがChatGPTです。
従来の対話型AIと比較すると、ChatGPTの精度の高さ、幅広い分野で対応できる汎用性は革新的で、注目を集めています。

大規模言語モデルにはどのような活用方法があるのか、参考にしてみてください。

ビジネス分野

大規模言語モデルを使えば、幅広いビジネス分野で業務効率化が期待できます。
たとえば、カスタマーサポートのチャットボット、データをモニタリングしながら異常を検知するセンサー、ユーザーの嗜好に基づいたレコメンデーション機能など、多くの分野で利用されています。

医療分野

医療分野でも大規模言語モデルの活用は進んでいます。
書類やカルテの作成は、医療従事者の大きな負担になっています。
医師と患者の会話データを大規模言語モデルで処理し、電子カルテのフォーマットに沿った内容を生成します。

エンターテインメント分野

エンターテインメント業界では、魅力的な音楽コンテンツを効果的にユーザーに届ける試みがされています。
たとえば、大規模言語モデルを使って魅力的な見出し作成やコンテンツを生み出しています。
ほかにも、ユーザーの嗜好に基づくパーソナライズされたコンテンツを作り、ユーザーのエンゲージメントを高めます。

教育分野

LLMの教育分野への応用は広範にわたり、学習者、教師、教育コンテンツ開発者に新たな機会を提供しています。
具体的には、学習者が特定のトピックについて質問すると、適切なレベルの説明や追加学習資料を提供することが可能です。
ほかにも、学習者の提出物やテストを自動で評価し、即時にフィードバックすることで学習者はリアルタイムで理解度を確認できます。

大規模言語モデルの課題

大規模言語モデルはまるで人間のように流ちょうな言葉を生成しますが、いくつか課題が存在します。
大規模言語モデルを利用するときは以下の課題を意識しておけば、問題にならない運用が可能になるでしょう。

  • 生成された情報が正しいとは限らない(ハルシネーション)
  • 著作権に注意が必要
  • 使用するモデルによって精度が異なる
  • セキュリティ対策が必要

生成された情報が正しいとは限らない(ハルシネーション)

大規模言語モデルは、しばしばハルシネーション(幻覚)を起こします。
ハルシネーションとは、事実とは異なる内容を生成してしまう現象のことです。

たとえば「町田市は神奈川県の一部ですか?」と質問したときに「はい、町田市は神奈川県の一部です」と答えてしまうケースがあります(正解は東京都)。

あまりにナチュラルに答えてくれるので、鵜呑みにするのは危険です。
大規模言語モデルを利用する際には、内容が適切かどうかをチェックすることをおすすめします。

著作権に注意が必要

大規模言語モデルを使って、特定の著作物に類似したものを生成して使うことは著作権の侵害に該当する危険性があります。
すでにさまざまな業界で、大規模言語モデルによる著作権侵害が懸念されています。
その一つが新聞業界です。
一般社団法人日本新聞協会は、記者が多大な労力をかけて制作したニュースコンテンツを大規模言語モデルが模倣することに意見を発表しています。

大規模言語モデルをはじめとする生成AIに関しては、いまだに法整備が追いついていないため、商用利用する際にはリスクをしっかり検討する必要があるでしょう。

使用するモデルによって精度が異なる

すでに紹介したように、大規模言語モデルにはいくつも種類があり、それぞれ性能が異なります。
モデルごとに得意なタスクや言語、パラメータが異なるため、大規模言語モデルを適当に選んでしまうと思ったような結果を得られない可能性があります。
とくに、大規模言語モデルが日本語に対応しているかが大きなポイントになるでしょう。

セキュリティ対策が必要

大規模言語モデルに対して自社の機密情報などを入力してしまうと、入力情報が学習に使われてしまって外部に流出する危険性があります。
そのため、入力情報を学習に使用しないことを明言しているサービスを利用するといったセキュリティ対策が必要です。

たとえば、OpenAI社のGPT-4などの言語モデルをセキュアに利用したいのであれば、Microsoftが提供しているAzure OpenAIが候補にあがります。

ほかにも、Anthropic社のClaudeを利用するならAWS Bedrockがおすすめです。
これらのサービスは、大規模言語モデルを企業が利用しても問題ないようなセキュリティ対策がされているためです。

大規模言語モデルは課題もふまえた上で上手く活用しよう。

大規模言語モデルを使えば、たくさんの業務を効率化可能です。
しかし、大規模言語モデルにもたくさん種類があり、それぞれ特徴もあります。

また、ハルシネーションや著作権の問題などもあるため、利用する際には十分に注意することをおすすめします。

[著者プロフィール]
Y.Kuroda
MLエンジニア&Web開発者&ITライター。MLエンジニアとして働きながらとSEOの知見を活かした記事を執筆しています。ライター業務を効率化するWebサービス『MOJI-KA』を開発・運用中です。

製品・サービスについてのお問合せ

情報収集中の方へ

導入事例やソリューションをまとめた資料をご提供しております。

資料ダウンロード
導入をご検討中の方へ

折り返し詳細のご案内を差し上げます。お問い合わせお待ちしております。

お問い合わせ