政府AI「源内」、国産LLM公募開始へ　11月募集・2027年度有償調達、300問の行政実務テスト

⚠ この記事は AI が生成した下書きをもとに、編集部が確認・編集しています。

デジタル庁は2026年5月29日、政府の生成AI基盤「ガバメントAI『源内』」で使用する国産基盤モデルについて、2027年度向け公募を同年11月に実施予定だと発表した。公募開始に先立ち、応募条件や評価テストの実施方法などを事前公表した。デジタル庁は、2027年度向けに、源内で使用する優れた国産基盤モデルを政府調達とし…

引用元: デジタル庁、ガバメントAI「源内」で使う国産LLMを11月公募へ　2027年度に有償調達、行政実務向け評価テストを事前公表 (Ledge.ai 編集部)

📰 元ネタの内容
💭 アイちゃんの見解
関連ツール

📰 元ネタの内容

デジタル庁が政府生成AI基盤「ガバメントAI『源内』」で使用する国産基盤モデルについて、2027年度向けの公募を2026年11月に実施予定と発表。行政実務に特化した評価テストを事前公表し、2027年度から有償調達を開始する計画です。

デジタル庁は2026年5月29日、源内で使用する優れた国産基盤モデルを2027年度向けに政府調達として有償で導入する予定を明らかにしました。2026年度に源内で評価検証を行う5社の基盤モデルの結果も、来年度向けの調達手続きで考慮されます。

ガバメントAI「源内」は、政府職員が生成AIを活用するための基盤です。デジタル庁は2026年5月から大規模実証を開始しており、5月29日時点で約10万人の政府職員が利用可能になるとしています。今後は対象府省庁と職員数を順次拡大し、全府省庁の約18万人が利用できる環境整備を進める予定です。

評価テストの特徴としては、MMLUなどの標準的・学術的なベンチマークではなく、政府の行政実務で求められる能力を測定することに重点を置いています。テストは300問で、35項目の能力領域を測定。設問の題材は、一般常識、社会問題・時事問題、日本語の理解、基盤モデルの安全性、法律・制度、行政課題、日本の価値観・歴史観、国際関係・外交の8領域です。政府職員が日常業務で基盤モデルを使う場面を想定し、指示理解、文書作成、情報の要約・整理・調査・分析、根拠提示、計画立案、リスク検討などを確認します。質問はすべてテキストで、画像・音声・映像は用いません。テスト時間の上限は15時間、1問あたりの処理時間の上限は3分間です。

応募対象

2026年度の評価検証NTTデータ（tsuzumi 2）、ソフトバンク（Sarashina3 mini）、日本電気（cotomi v3）、富士通（Takane 32B）、Preferred Networks（PLaMo 2.0 Prime）です。

2027年度向け公募のスケジュールは、2026年11月に公募開始、2027年1月に審査結果通知・評価テスト・調達公告、2月に評価テスト結果通知と入札、3月に落札者決定とガバメントクラウド上へのデプロイ準備、2027年4月に源内での基盤モデル使用開始予定です。

💭 アイちゃんの見解

このニュースの本質と新規性

このニュースの核心は、日本政府が「汎用的なAIの能力」ではなく「行政実務に特化した能力」を評価基準に据える、という点だと感じます。これまでのAI評価は、知識量や論理推論を測る標準ベンチマーク（MMLUなど）が主流でしたが、政府はそれでは不十分だと判断したわけです。

新規性として注目すべきは、300問・35項目・8領域という非常に具体的で詳細な評価フレームワークを事前公表したこと。これにより、応募企業は「何を評価されるのか」が明確になり、自社モデルの強化に向けた開発ロードマップが立てやすくなります。また、テスト時間の上限（15時間）や1問あたりの処理時間制限（3分）も実務的で、実際に政府職員が使う場面を想定した厳しい条件設定となっています。

さらに、機密性2情報を扱える高度なセキュリティ要件を示したことも重要です。これは単なる「精度の高いAI」ではなく、政府の機密情報を安全に扱える「信頼できるAI」を求めているという意志表示であり、国産LLM開発企業に対する明確な要求仕様提示と言えます。

既存技術・既存サービスとの比較

既存のAI評価との違いを整理すると、大きく2つの点が挙げられます。まず、OpenAIのGPT評価やAnthropicのClaudeの評価は、汎用性と創造性を重視するのに対し、政府の評価テストは「指示理解」「文書作成」「情報の要約・整理」といった、行政職員が毎日行う定型業務への適応性を重視しています。

次に、既存のベンチマーク（MMLU、HumanEvalなど）は、学術的な正解性を測るのに対し、源内の評価テストは「法律・制度」「行政課題」「日本の価値観・歴史観」といった、日本の政治・行政・文化的背景を理解しているかを問うています。これは、例えば「国庫債務負担行為とは何か」「地方譲与税の仕組みは」といった、民間企業のAIサービスではあまり評価されない領域です。

また、既存の商用AI（ChatGPTやClaudeなど）は、セキュリティ要件が異なります。政府が「機密性2情報」を扱うために、ガバメントクラウド上での完全なオンプレミス運用を要求している点は、パブリッククラウド中心の商用サービスとは根本的に異なるアーキテクチャを求めています。

読者の生活・仕事への影響

一般の方にとっての最も身近な影響は、「政府のデジタルサービスの質向上」につながる可能性です。例えば、市役所の窓口業務や税務申告、許認可申請などで、AIが政府職員をサポートすれば、手続きの迅速化や誤りの削減が期待できます。源内が約18万人の全府省庁職員に普及すれば、行政サービスの利便性が実感できるレベルで向上する可能性があります。

民間企業の従業員にとっても、政府が「行政実務向けAI評価テスト」を公開したことは参考になるでしょう。企業内の業務改善やAI導入検討時に、このテストの評価項目（指示理解、文書作成、情報分析など）を参考に、自社に必要なAI能力を定義できるようになります。また、このテストで高評価を得たモデルは、民間企業でも信頼性が高いと判断でき、企業のAI選定基準になる可能性があります。

また、デジタルスキルが求められる職業（事務職、企画職、法務職など）の人にとっては、「AIと協働する能力」がより重要になってきます。政府がAIを本格的に導入することで、民間企業もそれに追従する傾向が強まり、職場でのAI活用が加速するでしょう。

業界全体への示唆と今後の展開

このニュースが業界全体に示唆する最大のメッセージは、「日本の国産LLM開発が、ようやく『実務的な評価軸』を獲得した」ということです。これまで日本の企業は、グローバルなベンチマークで欧米モデルに追いつくことを目標にしてきましたが、政府の評価テストにより「日本の行政・文化・法律に特化した能力」が競争軸になります。これは、日本企業にとって相対的に優位性を持ちやすい領域です。

今後1～3ヶ月の展開としては、2026年11月の公募開始に向けて、現在の5社（NTTデータ、ソフトバンク、日本電気、富士通、Preferred Networks）以外の企業も参入を検討し始めるでしょう。評価テストの詳細が事前公表されたため、これらの企業は自社モデルの強化に着手する可能性が高いです。また、スタートアップ企業や大学発の企業でも、この「行政実務特化」というニッチで存在感を示すチャンスが生まれています。

1年後の展開としては、2027年4月に源内で基盤モデルの使用が開始されることで、実務的な評価結果が蓄積されます。これが、民間企業や地方自治体（東京都も同様の取り組みを進めているとのこと）のAI導入モデルになる可能性があります。また、政府が「行政実務向けAI」という新しい評価軸を確立することで、国産LLM市場全体の成熟度が高まり、グローバル展開を目指す日本企業の競争力が向上する可能性も考えられます。あくまで予想ですが、このテストで高評価を得たモデルは、ASEAN諸国やシンガポール、オーストラリアなど、日本と行政体制が近い国への輸出も視野に入ってくるかもしれません。