はじめに
こんにちは。
キノコードです。
みなさん、LLMという単語は知っていますか?
知っている方、感度が高いです。
LLMは、生成AIの土台となる技術です。
今や仕事や日常生活に欠かせないツールになりつつ生成AI。
現代の教養のためにも生成AIの土台となるLLMについて学んでいってください。
この動画は、次のような疑問を解消します。
- LLM(大規模言語モデル)って何だろう?
- LLMは何ができるの?
- LLMの課題や弱点はどう解決するの?
難しい理論や数式は抜きに、LLMについてわかりやすく解説をします。
この動画をみると、これからの時代の教養を身につけることができ、自分でカスタマイズしたLLMを構築する土台を身につけられます。
ITやDXについての学びを発信する「キノコード」です。
私は紀貫之の子孫ですが、文章ではなくコードを書いているので「キノコード」と名乗っています。
ぜひ、チャンネル登録をお願いします。
LLMとは?
冒頭でも説明をしたように、LLMは、生成AIの土台となる技術です。
LLMは、Large Language Modelsの略です。
日本語に訳すと、大規模言語モデルです。
大規模な言語のモデルという意味です。
でも、言語のモデルってなんでしょうか?
言語モデルの仕組み
例えば、言語モデルが「時は金なり」という文章を生成する場合のことを考えましょう。
この図は、生成AIが、次に来る言葉を選ぶ仕組みを簡単に表現たものです。
例えば、「時」という単語が出たら、その次に来る可能性がある言葉として「は」「が」「です」などが候補になります。
それぞれの確率(%)が示されており、確率が高いほど、その言葉が選ばれる可能性が高くなります。
同じように、「は」という単語が来た場合、その次に来る候補として「金」「財産」「資産」「宝」などが考えられます。
また、その後に「なり」「です」「である」といった述語が続くことで、文章全体が完成されます。
このように、言語モデルは「次に来る言葉」を確率的に選びながら文章を作り上げる仕組みです。
なぜ大規模か?
では、なぜ大規模言語モデルに、大規模とつくのでしょうか?
理由は3つあります。
データ量
1つめは、データ量です。つまり、「膨大な言葉を学習していること」です。
どのぐらいの量の言葉を学習しているのか説明をするのが、トークンという概念です。
トークンとは、ざっくりいうと、文章を構成する単語や記号などの最小単位のことです。
英語の本は、一冊あたり5万~8万語程度の文量が一般的です。
2020年に発表されたGPT-3は、約5000億トークンを使用したと公表しています。
つまり、1冊あたり5万語と仮定すると、約1000万冊に相当します。
日本の国立国会図書館は、国内最大の図書館として本や資料を収蔵しています。
2022年度時点での所蔵総数は、書籍や雑誌、新聞、電子資料などを含めて約4400万点にのぼると公表されています。
GPT-3で1000万冊ですとお伝えしました。
GPT-4は、正式には公表されていませんが、GPT-3の数倍にあたる1兆~数兆トークン規模で学習されたと言われています。
1兆トークンを1冊あたり5万語と仮定すると、2000万冊分の書籍に相当します。
現在のOpenAIの生成AIは、国立国会図書館の所蔵点数である約4400万点を大きく超えていると考えられます。
約4400万点の本を読んだ人間は誰1人としていないでしょう。
それだけの量を学習したLLMがどれほどの知識を持っているかは、想像に難くありません。
計算量
2つめは、膨大なデータを計算するために、大規模な計算をしているということです。
この計算には、GPUやTPUといった非常に高価で高性能な半導体が用いられます。
この高性能なGPUなどは1台あたり数百万円以上することがあります。
私の調べた限りだと、NVIDIAのA800のメモリ40GBで260万円、H100のメモリ94GBで540万円でした。
大規模なLLMの計算には、数百台から数万台規模のGPUが使用されます。
例えば、GPT-3の学習には、約1万台のGPUが使用されたと言われています。
そして、この計算には、莫大な電気代がかかります。
LLMを開発しているGAFAMなどは、電気の確保に取り組んでいます。例えば、Amazonは小型原子力発電に投資し、Googleは米国内で再生可能エネルギーの発電所の建設計画に参画すると発表しています。
GPT-4の開発には、GPUの費用、電気代などを含めて、100億円以上かかったと言われています。
パラメータ数
最後に、LLMが「大規模」である理由は、パラメーターの数です。
パラメーターとは、言葉や文脈を学習するための「設定項目」のようなものです。
例えば、エアコンのリモコンには、温度や風量を設定するボタンがありますよね。その設定ボタンが多いほど、細かい調整が可能になります。
同じように、LLMの中には、言葉の関係性や文脈を調整する数十億から数千億もの設定項目が存在しており、主要な設定項目が複雑に組み合わさっています。
このパラメーターが多いほど、モデルはより賢くなり、自然な文章を作れるようになります。
GPT-1で約1.17億のパラメータ。
GPT-2で最大15億(1.5B)
GPT-3で最大1750億(175B)
GPT-4は、パラメータが約1兆を超えると言われています。
まとめます。
言語モデルは「次に来る言葉」を確率的に選びながら文章を作り上げる仕組みと説明しました。
大規模言語モデルとは、膨大なデータを学び、多くのパラメーターを使って、文章を自動で作るAIの仕組みです。
最新の生成AIは、人間の博士レベルを超える賢さをもっていると言われています。
今後、LLMの技術はさらに進化をして、人間社会を変えていくことになるでしょう。
LLMが注目を浴びた理由
LLMは、ディープラーニングの技術が発展した2010年代から継続的に行われていました。
しかし、大きな話題になったのは、OpenAIのGPT-3あたりからです。
なぜ急に話題になったのでしょうか?
それはLLMの性能が飛躍的に向上したからです。
GPT-2までは、約40億トークンで学習をしていたのですが、長い文章を書くと内容がズレたり、見たことのない質問に答えるのが苦手でした。
しかし、GPT-3ではトークン数が約5000億トークンにまで増加し、モデルの表現能力が大幅に向上しました。
そこでLLMや生成AIが、話題になりました。
LLMは、トークン数が多ければ多いほど、LLMの性能があがるという研究があります。
つまり、学習させるトークン数、計算量、パラーメータ数が多いほど、性能があがるということです。
OpenAI、Microsoft、Google、Amazonなどの各社が莫大なコストをかけて開発をしているのは、コストをかければかけるほど性能が向上するからです。
LLMの弱点
「LLMはなんでもできる魔法のような技術」と思えるかもしれません。
確かにLLMは今までにない能力を持っていますが、完璧ではありません。
実は、LLMにも限界や弱点が存在します。
ここでは5つ紹介をします。
1. 最新の情報に追いつけない場合がある
LLMは学習に大量のデータと時間を使います。そのため、一度学習が終わると、その時点以降に出てきた新しい情報を知ることができません。
例えば、新しいiPhoneが発売された直後にLLMに「最新のiPhoneの特徴は?」と聞いても、「その情報はわかりません」と返されるか、古いモデルの情報を答えてしまうことがあります。
2. 特定の分野での精度の限界
LLMは広範囲の知識を持っていますが、専門的な分野や自社独自の情報に関しては、正確な回答が難しい場合があります。
例えば、就業規則についての一般的な情報は答えられても、自社の就業規則については答えられないです。
3. 誤った情報を生成するリスク
LLMは学習データをもとに答えを作りますが、ときどき事実とは異なる内容や、実際には存在しない情報を作り出すことがあります。
これを生成AIの「ハルシネーション、幻覚問題」といいます。
ハルシネーションとは、AIが本当は知らないことを、あたかも正しいように答えてしまう現象です。
架空の会社名や商品を正しい情報のように答える場合もあります。
4. 計算コストが高い
LLMは非常に大きなモデルであり、それを動かすには大量の計算資源が必要です。学習のために、動かす電力やサーバーのコストが非常に高くなります。
OpenAIが開発したGPT-4の開発には、100億円以上かかったと言われています。
5. 学習に使われてしまう
LLMに入力したデータが、あとでモデルの学習に利用される場合があります。
企業秘密や個人情報などを誤って入力すると、それらのデータがモデル開発に使われてしまう可能性があるため、慎重に取り扱う必要があります。
LLMの課題の解決策
LLMの限界を知ったら、「どうやってこの課題を乗り越えるのか?」と気になりますよね。
ここでは、LLMの課題を克服する方法について解説します。
課題 | 解決策 |
---|---|
最新の情報に追いつけない場合がある | RAGやファインチューニングを活用する |
特定の分野での精度の限界がある | RAGやファインチューニングを活用する |
誤った情報を生成するリスク | RAGを活用する |
誤った情報を生成するリスク | プロンプトエンジニアリングを活用する |
計算コストが高い | RAGを活用する |
計算コストが高い | オープンソースのLLMを活用する |
学習に使われてしまう | オープンソースのLLMを活用する |
「最新の情報に追いつけない場合がある」と「特定の分野での精度の限界がある」の解決法
「最新の情報に追いつけない場合がある」と「特定の分野での精度の限界がある」については、RAGとファインチューニングという技術によって解決できます。
RAGは、あらかじめ用意した最新の情報や特定分野のデータセットから関連するデータを検索(取得)し、それを元に回答を生成する技術です。
これにより、学習後に出てきた新しい情報にも対応することが可能です。
また、ファインチューニングという方法もあります。
ファインチューニングは、あらかじめ学習を終えたAIモデルを細かく調整する技術です。
その結果、企業独自の情報や高度な知識を追加することができます。
誤った情報を生成するリスクの解決法
「誤った情報を生成するリスク」については、RAGを活用することで解決できます。
RAGなら、検索で得た信頼性の高い情報に基づいて回答を生成できるからです。
プロンプトエンジニアリングで情報源を提示してもらうように依頼をする方法もあるでしょう。
回答と一緒に、その根拠となる情報源を提示する仕組みを取り入れることで、誤解を防ぎ、回答の信頼性を高めることができます。
計算コストが高いの解決法
「計算コストが高い」という問題には、RAGやオープンソースのLLMを活用することで解決できます。
RAGを導入すれば、再学習をしなくても既存のモデルを活用できます。
また、オープンソースのLLMを利用すれば、高額なコストをかけずに独自LLMの構築ができます。
独自LLMは自社のサーバー上に構築すれば、サーバー費用しかかからず、追加のコストはかかりません。
独自LLMにRAGを組み合わせるのも方法です。
学習に使われてしまうの解決法
「学習に使われてしまう」については、独自LLM構築が有効です。
独自LLMを自社のサーバー上に構築すれば、学習に使われることはありません。
自社のサーバーで運用するのでクローズドです。
外部の開発元とデータを共有しないで済みます。
結果として、社内データや機密情報を外部が勝手に学習に利用できなくなるわけです。
まとめ
この動画で学んだことをまとめます。
- LLM(大規模言語モデル)は、生成AIの土台となる技術である
- LLMは膨大な文章データを学習し、文章を自動で作成できる
- LLMには、最新情報への対応や誤情報を生成する課題がある
- RAGやファインチューニング、プロンプトエンジニアリング、オープンそオースのLLMで課題を解決できる
明日から、LLMの知識を活かして、AIをもっと便利に使ってみましょう!
DX人材育成サービスも個人の学習もキノクエスト
個人のお客様向けのキノクエストでは、プロンプトエンジニアリングの授業、RAGを使った生成AIカスタマイズの授業、企業独自のLLMを構築する授業、ノーコードで生成AIアプリを作成できるDifyの授業などがあります。
基礎的な内容だと、プログラミングの基礎やExcelの授業、ITパスポートの授業、高度なものだとデータサイエンス、アプリ開発の授業もあります。
動画ごとに確認問題やキノクエスト限定の認定試験で、知識の定着を強力にサポートします。ログイン後にすぐに実践できる環境で、効率的な学習が可能です。
法人のお客様には、企業向けサービス「キノクエストforBiz」で、DX推進に必要な人材育成をサポートします。
YouTubeで培った多彩なコンテンツを基に、社員の方のスキルアップを促進します。
キノコードの動画を著作権や利用規約を気にすることなく安心して社内教育にご利用いただけます。
今ならリスキリング助成金の申請・確定通知を受けられれば、キノクエストforBizの料金の60~75%が国から助成されます。
弊社の提携社労士事務所が申請などを全面的にサポート。
高い費用対効果と助成金の活用で、企業の成長を後押しします。
初回相談は無料です。下記フォームから、お気軽にご相談ください。
https://kino-code.com/contact-form/