NTTによる大規模言語モデル「Tsuzumi」のデモも多数研究成果発表イベント「NTT R&D FORUM 2023」レポート


あつまれどうぶつの森	【EL福袋】ニンテンドースイッチ本体	Nintendo Switch Spor	Minecraft Nintendo S	マリオカート8 デラックス	桃太郎電鉄～昭和平成令和も定番！～	大乱闘スマッシュブラザーズ SPECIA	[Switch] Nintendo Sw	太鼓の達人ドンダフルフェスティバル	任天堂　Nintendo　Switchゲ	リングフィットアドベンチャー	スーパーマリオブラザーズワンダー	任天堂【Switch】リングフィット	任天堂【Switch】マリオカート8	任天堂【Switch】スーパーマリオブ	New ポケモンスナップ
5788円	48999円	5039円	3564円	5788円	5128円	6969円	2400円	5920円	4850円	7638円	5722円	7740円	5790円	5720円	5788円

NTTによる大規模言語モデル「Tsuzumi」のデモも多数　研究成果発表イベント「NTT R&D FORUM 2023」レポート
2023年11月17日 18:47 VTuber

Tweet Pocket

NTTグループは、11月13～17日にNTT R&D FORUM 2023を開催した。NTTの研究成果を発表するイベントで、通信からAIまで様々な分野の展示を見ることができた。

直前となる11月1日に、NTTが長年取り組んでいる自然言語処理のノウハウを投入した大規模言語モデル（Large Language Model：以下LLM）「Tsuzumi」を発表したばかりということもあり、Tsuzumiを利用した展示も数多く見られた。
最近はAITuberが話題になったり、ホロライブの博衣こよりさんがAIこよりと配信したりしていたが、これらに使われているのがLLMだ。LLM開発の世界最大手がOpenAI社であり、応用例として有名なのがChatGPTである。海外の大手ITの活躍が目立つ分野だが、日本企業による日本語に強いLLMとして開発されたのがTsuzumiというわけだ。

Tsuzumiは0.6Bまたは7BというLLMとしてはコンパクトなものでありながら高い性能を持つことがアピールされた。コンパクトであるということは、処理能力や消費電力が少なくて済むということである。
Tsuzumiは大企業向けに提供されるものであり、個人開発者やベンチャー企業が触れる機会は少ないと思われるが、NTTの研究成果は興味深いものばかりだった。
xRやAITuberを折っている人にとって興味深いものを、いくつかご紹介していく。
超軽量版tsuzumiを使って、画像認識から即座にアラートを生成する

Tsuzumiの活用事例の一つとして展示されていたのが、カメラの映像認識をし、その状況に対して取るべき行動を即座に提案するデモ。写真の通り、マスクと帽子をまとった暴漢が来たことをカメラが認識すると、即座に警告を出していた（写真の赤背景になっている部分）。

これは超軽量版Tsuzumiによる応答の速さによるもので、Tsuzumiを普通のノートPCで動かしていても、すぐに出力がされるとのことだった。
Tsuzumiが個人開発者やベンチャーに解放されることは直近ではなさそうだが、この水準の反応速度が一般化すれば、AITuberがスポーツやゲームプレイを実況するのもより盛り上がるかもしれない。
画像と音声の学習から、画像を使って音声を分離する
こちらは、二つの異なった音声が重なっているところから、画像を提示することで、画像に近い方の音声だけを取り出す展示。「女性が荷物を持って線路のそばで待っている」「便器の前に板が置いてある」（実際は英語）という二つの音声が重なったところに、トイレの写真を入力すると、後者の文章だけが分離されてくる、というものだった。

学習に際して、テキストデータを利用していないというのが面白かった。音声を文字起こししたり、画像にキャプションを付けたりしていない。音声と画像のペアを学習させることで、音声と画像についての特徴空間を作るというアプローチだった。
XR360度カメラで撮影した動画において、特定方面の音声を分離したりといった用途も想像できそうなので、XR技術者としても気になる技術かもしれない。
Another Me

いわゆるマジックミラー（ハーフミラー）にCGキャラクターを投影し、自分の姿も反射で映すことで、まるでキャラクターと相席しているような状況を作り出すデモ。右側に映っているのは、自分の声と姿を取り込んだアバターとすることもできる。投影技術とアバター作成技術の二つを掛け合わせたデモだった。
高輝度な映像が特徴で、左側に照明がある状況にもかかわらず、とても綺麗に映っていたのが印象的だった。バーチャルキャラクターを現実空間に召喚するアプローチは色々あるが、そこに「もう一人の自分」も呼び出すというのは、なかなか凝ったアイデアで面白い。
空中結像

ハーフミラーを組み合わせることで、空中結像させるデモ。ハーフミラーの向こうにあるディスプレイを動かすことで実現している。写真だと伝わりにくいが、実際に手を伸ばして触れたくなるほどだった。
XR技術者にも裸眼立体視や空中結像に興味を持つ人も少なくないと思うので、とても気になる技術だろう。
複数のLLMを高速光通信で接続して会議させる

NTTがIOWNと呼ぶ、次世代の光通信技術により、離れた場所にあるデータセンターのLLM同士を連携させる構想も披露されていた。展示されていたのは、特定の専門知識を持った複数のLLMに問いかけをし、それぞれの立場から回答させるというもの。
個性を持ったAIたちが連携して問題解決にあたるというのは、SFのようでもある。コラボ配信のメンバーにAIが加わるなんて未来も訪れるかもしれない。
（Text: Yuichi Matsushita）
●関連リンク・NTT R&Dフォーラム

XRレポート

投稿ナビゲーション
前の記事:クラブコスメチックス、バーチャルマーケットに初出展　ママ社員によるメタバース接客次の記事:月刊コロコロコミック12月号の漫画から全長20mの巨大恐竜が出現　NTTコノキュー「XR City」アプリのコンテンツ

...以下引用元参照
引用元：https://panora.tokyo/archives/74723

NTTによる大規模言語モデル「Tsuzumi」のデモも多数 研究成果発表イベント「NTT R&D FORUM 2023」レポート | PANORA

NTTによる大規模言語モデル「Tsuzumi」のデモも多数研究成果発表イベント「NTT R&D FORUM 2023」レポート | PANORA