サイバーエージェントは5月17日、最大68億パラメータの日本語LLM(Large Language Model:大規模言語モデル)を、一般公開した。このモデルは、現時点(2023年5月17日時点)で国内公開されている日本語モデルに於いて、最大級の規模になるとのこと。
なお、同モデルをベースにチューニングを施すことで対話型AI等の開発が可能に。より多くの人が日本語の自然言語処理に関する最先端の研究開発に取り組めるようになると云う。
近年、OpenAI社が開発した「ChatGPT」(※1)を始めとする生成AI・LLMが急速な進化を遂げるなど、世界中のあらゆる業界・ビジネスでの活用が進んでいる。その一方で、既存のLLMのほとんどは英語を中心に学習されているため、日本語および日本文化に強いLLMは少ない状況にあると云う。
こうした背景の下、サイバーエージェントは今回、同社開発に取り組んできた日本語LLMの一部モデルを“Hugging Face Hub ”にて一般公開した。このモデルは、オープンな日本語データ(※2)から学習したもので、商用利用も可能な「CC BY-SA 4.0ライセンス」(※3)で提供される。
サイバーエージェントでは、これまで培った知見を活かしたチャットボットやRPAをはじめとする業界特化型のLLMの構築、また、各企業と連携したLLMを活用したビジネス開発の推進等を予定している他、LLMを活用したビジネス開発に携わるエンジニアの新規採用を実施し、体制強化に努めていくとしている。
また今後も、引き続きモデルの公開や産学連携などの取り組みを通じ、国内における自然言語処理技術の発展に貢献していきたいとしている。
※1)ChatGPT:OpenAI社が開発・公開する大規模言語モデルを用いた高度対話型AI。言語理解・文章生成・質問応答・翻訳などに対応しており、様々な分野で注目を集めている。
※2)オープンな日本語データ:WikipediaおよびCommon Crawlを使用。
※3)CC BY-SA 4.0ライセンス:ライセンスについてはモデル公開ページの詳細を参照。
[問い合わせ先]
※個別の事例には答えられない場合がある。