Turing(チューリング)は1月22日、動画や画像の大規模データを効率的に圧縮しながら、AIに適した形式で高精度に保持できる技術を開発した(特許出願中)。
同技術では、局所的に重要情報を集約する学習時の工夫と、重要度に応じたデータの割り当てを組み合わせることで、自動運転AIやマルチモーダルAIなどに於ける高速かつ高精度なデータ活用を可能にした。
開発の背景は近年、画像やテキストなど複数種類のデータを同時に扱うマルチモーダル大規模言語モデル(MLLMs)が注目を集めており、大量のデータを入力する高度な開発ニーズがますます高まっていることがある。しかし、従来の画像データ埋め込み技術では、AI向けに最適化された形で効率良く情報を受け渡すことが難しいという課題があった。
そこでチューリングは、膨大なデータを効率良く圧縮しながらも必要な情報を高精度で保持できる仕組みを開発した。より具体的にはテキストや画像など多様な情報を、トークン(AIが処理するための最小単位)の列に変換し、それらを必要に応じて増減できる仕組み(可変長圧縮)を導入。これにより、まずは必要な画質や解析精度を維持しながら、データ容量を大幅に削減することが可能にした。
その中で、学習の段階でトークン列の末尾をランダムに削除し、その差異を比較してモデルを最適化する手法「Tail Token Drop」を導入することで、重要情報がデータ列の先頭に集約されるようにした。これにより、圧縮率を高めても肝心な部分を損ないにくい設計が実現している。
また、当該技術ではトークン列から画像を再構成でき、従来のJPEGやWebPなどの画像フォーマットと比較して小さいバイト数で視覚的に自然な画像を再構成することが可能。今後は、リアルタイム性や、通信コストが特に重要とされる自動運転やクラウド連携システムへの応用を拡張していきたい考えだ。
なお同技術については論文「One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression」で公開しており、自社のテックブログでも詳しく解説している。モデルファイルおよびソースコードは商用利用可能とした。(Apache License 2.0)
プロジェクトページ
https://turingmotors.github.io/one-d-piece-tokenizer/
テックブログ
https://zenn.dev/turing_motors/articles/6d77c5a3b3712e
概要図
当該技術の応用例
1. 自動運転
車載カメラからの映像を少ないトークンに圧縮することで、自動運転基盤モデルに視覚データを効率的に入力することが可能になる。大きなデータを入力した際の計算時間の増大を防ぐことで、大規模AIモデルがリアルタイムで高速に周囲の情報を認識・判断することが可能になる。
2. マルチモーダルモデル・世界モデル
技術でトークン化した画像・映像については、言語トークンと同様にMLLMsや世界モデルにそのまま入出力できることが期待される。文脈や情報量に応じてトークンサイズを調整することで、マルチモーダルモデル・世界モデルの学習・推論の負荷を軽減しながら、全体的な精度を維持することが可能。
チューリング 会社概要
会社名:Turing株式会社
所在地:東京都品川区大崎1丁目11−2 ゲートシティ大崎 イーストタワー4階
代表者:代表取締役 山本一成
設立:2021年8月
事業内容:完全自動運転技術の開発
URL:https://tur.ing/
採⽤情報は採用ページへ。