Security NEWS TOPに戻る
バックナンバー TOPに戻る

2025年春、生成AIが注目を集めています。そこで、本記事では全3回のシリーズを通して、2025年春時点でのAIをめぐる様々な事象をまとめました。連載第1回目となる今回は、生成AI関連で現在注目されている主要用語の解説、そしてDeepSeek R1の登場に伴う生成AIのセキュリティ上の課題について解説します。
はじめに
生成AIは、膨大なデータからパターンを学習し、文章や画像、音声などのコンテンツを自動生成する技術です。私たちの日常生活の中では、車載カメラでの画像認識や農業での生育・病害予測など、深層学習・機械学習を用いたAI技術がすでに利用されていますが、生成AIはさらにその範囲を拡大し、さまざまな業界に革新をもたらしています。
生成AI、エージェントAI、大規模言語モデル(LLM)、基盤モデル
昨今注目されているのは私たちの問いかけに対して何かを生成・出力する生成AIですが、日進月歩の分野でもあることから様々な用語が出てきています。本記事ではジョージタウン大学のCSET(Center for Security and Emerging Technology)やインド工科大学カンプール校(IITK)による定義から以下のように定義して話を進めていきたいと思います。
生成AIとは
コンテンツの生成を主な機能とするあらゆるAIシステム。膨大なデータセットからパターンを発見し、出力するもの
例:
- 画像生成ツール(Midjourney(ミッドジャーニー)、Stable Diffusionなど)
- 大規模言語モデル(LLM)(GPT-4、PaLM、Claudeなど)
- コード生成ツール(Copilotなど)
- オーディオ生成ツール(VALL-E、resemble.aiなど)
エージェントAI(Agentic AI・AIエージェント)とは
事前に設定された目標に対して、人間の継続的な監視なしに、自律的に決定とアクションの実行を行うもの
LLM(大規模言語モデル)とは
言語と連携するAIシステムの一種
– 過去数年間にわたって多くのパラメータでモデルをトレーニングすることでパフォーマンスが向上されるといわれている
– 「言語」のターゲットとしてどこまでが含まれるかの定義は明確ではない(プログラミングコードはカウントされるのか、主に言語で動作するが画像を入力として受け入れるものはどうか、など)
例:OpenAIのGPT-4、GoogleのPaLM、MetaのLLaMAなど
基盤モデルとは
より多くの具体的な目的に適応できる、幅広い機能を備えたAIシステム。多くのLLMが含まれる
例:初代ChatGPTにおける GPT-3.5(LLM、基盤モデル)
出典:
・CSET
「What Are Generative AI, Large Language Models, and Foundation Models?」
・E&ICT Academy, IIT Kanpur
「gentic AI vs. Generative AI: Key Differences and Use Cases in 2025」
機密情報、個人情報とAI
DeepSeekショック
2025年に入って注目を浴びたニュースのひとつに、中国のAI研究所DeepSeekが公開した「DeepSeek-R1」があります。DeepSeekは商用利用可能なオープンソースとして公開され、チャットボットが無料であることで注目される一方で、多くのブログやレポートでセキュリティ上の問題点が指摘されています。指摘された問題は大きく分けて以下の3点になります。
- ジェイルブレイク脆弱性
武器や有害物質、悪意のあるスクリプトやマルウェアの生成などが可能となるジェイルブレイク脆弱性の存在*1 - 通信の安全性や機密情報の取り扱いに関する問題*2
- データの送信先
データをチャイナテレコム(中国電信)やバイトダンス(TikTok運営企業)に送信していること*3
AIにおける「ジェイルブレイク」とは
AIジェイルブレイクとは、AIに設定されたガードレール(緩和策)の故障を引き起こす可能性のある手法です。これにより、システムがオペレーターのポリシーに違反したり、1人のユーザーに過度に影響を受けた決定を下したり、悪意のある指示を実行したりするなど、回避されたガードレールから被害が生じます。
参考情報:
・Microsoft「AI jailbreaks: What they are and how they can be mitigated」
このように、悪意のあるスクリプトやマルウェアの生成が容易に行われることは、MaaS/RaaS/PhaaSなどのサービス化したサイバー脅威の普及に匹敵するレベルで、犯罪のすそ野を広げていく可能性があります。実際の攻撃のうち、マルウェアキャンペーンに関しては2024年時点でAIは直接的に大量に使用されていないというレポート*4がありますが、DeepSeekのようなガードレールが機能しない生成AIがこの状況を変える可能性もあります。
関連記事:
「RaaSの台頭とダークウェブ~IPA 10大セキュリティ脅威の警告に備える」
「IPA 情報セキュリティ10大脅威からみる -注目が高まる犯罪のビジネス化-」
また、通信の安全性やデータの取扱いに問題があるサービスを利用することで、うっかり入力した個人情報や機密情報が漏洩し、二次被害を招く可能性も、サイバーセキュリティの観点から注意すべきでしょう。
ジェイルブレイクとガードレール(緩和策)
ここで主要な基盤モデルとそれぞれのジェイルブレイクや情報漏洩の報告の有無をみてみましょう。
表1 主な基盤モデルとジェイルブレイク・情報漏洩の報告の有無
| 基盤モデル | ジェイルブレイク | 情報漏洩 |
| OpenAI GPT-4 | あり | 該当なし |
| OpenAI GPT-4o | あり | 該当なし |
| OpenAI GPT-4o-mini | あり | 該当なし |
| Google Gemini Flash | あり | 該当なし |
| Google Gemini Pro | あり | 該当なし |
| Anthropic Claude3.5 Sonnet | あり | 該当なし |
| Anthropic Claude3.5 Opus | あり | 該当なし |
| Meta Llama 3.1 | あり | 該当なし |
| Meta Llama 3 8B | あり | 該当なし |
| Grok 3 | あり | 該当なし |
| DeepSeek R1 | あり | あり |
情報漏洩に関して現行の基盤モデルで問題となったのはDeepSeek R1だけとなっていますが、ジェイルブレイクに関してはどの基盤モデルも何らかの形で(悪いほうの)実績があります。多くは論文で報告されているものであり、実際の被害が報告されているものではありません。しかし、かつてサイバーセキュリティにおける脆弱性も同様に論文や実証レベルでの問題が大半で悪用されていなかったものが、組織的に悪用するための武器化や武器化したツールのサービス化などであっという間に広く悪用され、社会を揺るがす問題になっていることを考えると、AIにおいて同じことが起きないとは言い切れません。
もちろん、基盤モデルを提供する事業者各社もジェイルブレイクに対するガードレールは設けていますが、実際にジェイルブレイクを狙った試行も報告*5されています。脅威アクターによるAIの悪用が今後なんらかの被害をもたらす可能性は否定できません。
―第2回「生成AIをめぐる政府機関および世界各国の対応」へ続く―
連載第1回では、生成AIにまつわる基本用語とセキュリティ上の課題について解説しました。次回、第2回では、生成AIに関して政府機関や世界各国はどのような取り決めをしているかについて詳しくみていきます。
参考情報:
・「GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation」
https://openreview.net/pdf?id=SMK34VBntD
・「ChatGPT-4o contains security bypass vulnerability through time and search functions called “Time Bandit”」
https://kb.cert.org/vuls/id/733789
・「BEST-OF-N JAILBREAKING」
https://arxiv.org/pdf/2412.03556
・https://github.com/haizelabs/llama3-jailbreak
・https://adversa.ai/blog/grok-3-jailbreak-and-ai-red-teaming/
Security NEWS TOPに戻る
バックナンバー TOPに戻る
【連載一覧】
―第2回「生成AIをめぐる政府機関および世界各国の対応」―
―第3回「生成AIの未来と安全な活用法 -私たちはAIをどう使うべきか?-」―






