株式会社ZOZO NEXT(本社:千葉県千葉市 代表取締役CEO:澤田 宏太郎)の研究開発組織「ZOZO研究所」は、当所研究員による2本の論文「Difference-of-submodular Bregman Divergence」と「Mastering Task Arithmetic: τJp as a Key Indicator for Weight Disentanglement」が、機械学習におけるトップカンファレンス「ICLR (The International Conference on Learning Representations) 2025」に採択されたことをお知らせします。「ICLR」は「NeurIPS (Neural Information Processing Systems)」「ICML (International Conference on Machine Learning)」と並ぶ、機械学習分野で最も権威のある学術会議の一つです。本研究成果は、当所研究員である川島 貴大ら、清水 良太郎らによるものです。
各種サービスで用いられる「全体の集合から、その部分集合を選び出すプロセス」について、多くの機械学習システムは間接的にインスタンス間の距離を測る尺度に強く依存する一方、離散的な性質をもった集合データ間で柔軟に距離を測ることは難しいという課題がありました。
本研究では集合データ間の距離を測る新たな尺度と、ニューラルネットワークを用いてその学習を実現するフレームワークの提案に向けて、以下3点の貢献をおこないました。
1. 集合間の新たな距離尺度の提案とその理論解析
連続空間におけるBregmanダイバージェンス(※1)をもとに集合版のBregmanダイバージェンスを考え、それが既存の尺度よりも高い表現能力をもつことを理論的に示しました。
2. 提案した集合間距離尺度の学習フレームワークの開発
置換不変ニューラルネットワーク(※2)を用いて、与えられた集合データがもつ特有の構造から提案する距離尺度を学習するためのフレームワークを提案しました。
3. 数値実験による有効性の検証
手書き文字データセット(MNIST)や点群データセット(ModelNet40)を用いて、提案した集合間距離尺度とその学習フレームワークの有効性を確かめました。特に点群データの解析においては、提案法によりCPUのみで学習可能な程度のごく小規模なニューラルネットワークモデルで最先端の深層学習モデルに匹敵する性能を実現しました。
(※1)Bregmanダイバージェンス(Bregman divergence):凸関数の性質を利用してインスタンス間の乖離度を測るための尺度。L2距離やKLダイバージェンスなど、統計学や機械学習で頻繁に現れる尺度を内包する。
(※2)置換不変ニューラルネットワーク(Permutation-invariant neural network):集合としての構造をもったデータを扱うことができるニューラルネットワークの一種。入力のアイテム列の順序が変化しても出力結果が変わらないという特徴をもつ。
本論文で使用したニューラルネットワークは極めて小規模なものであり、その精緻化や大規模化によって、さらなる精度向上が見込まれます。また、本研究で提案された技術は、各種サービスにおける幅広いサービスの向上に寄与することが期待できます。
・タイトル : 「Difference-of-submodular Bregman Divergence」
・著者 : 株式会社ZOZO NEXT/川島 貴大*、メルボルン大学/木村 正成氏*、統計数理研究所・理化学研究所AIP/相馬 輔准教授、日野 英逸教授(*共同筆頭著者)
・論文URL : https://openreview.net/forum?id=vr1QdCNJmN
近年、自然言語処理(NLP)や画像認識といった分野において、事前学習(※3)済み基盤モデルの利用が広がっています。しかし、これらのモデルを活用する際には、高い計算コストや拡張性の課題が顕在化しています。このような課題を解決するアプローチとして、モデル編集技術の一つである「タスク算術(※4)」(Task Arithmetic)が注目を集めています。この技術は、同一の事前学習済みモデルから各タスクへファインチューニング(※5)された複数のモデルの重みを加減算することで、複数タスクに対応するモデルや特定タスクの性能を制御するモデルを効率的に構築できるという利点があります。しかし、タスク間干渉の発生や実用に耐えうる性能の達成が困難であるといった課題が実用化の障壁となっていました。
本研究では、タスク算術の課題解決に向けて、以下3点の貢献をおこないました。
1. 新しい指標「τJP」の提案
事前学習モデルのヤコビ行列(※6)(モデルの重みパラメータに対する勾配)とタスクベクトルの積に着目し、これが重みの分離性(※7)(タスク間干渉を抑えるための指標)に因果関係をもつことを理論的に示しました。この指標は、タスク算術の性能向上に向けた新しい評価基準を提供します。
2. 干渉を抑制する正則化手法の導入
ファインチューニング時にτJPを最小化する正則化(※8)手法を提案しました。これにより、タスク間の干渉を明示的に抑制し、タスク算術の精度向上を実現しました。さらに、この手法はタスク間の係数調整の必要性を大幅に低減させ、実用性を向上させました。
3. 現実的な応用可能性の検証
公開されている事前学習モデルや、将来的に未知のタスクを学習するシナリオにおいても、この手法が有効であることを実証しました。本研究により、タスク算術が実用的な機械学習モデル編集技術として広く応用可能であることが明らかになりました。
(※3)事前学習:大量のデータを用いてモデルを一般的なタスクで学習させる過程。このプロセスにより、モデルは幅広い基盤的知識を獲得する。
(※4)タスク算術:複数のモデルの重みを加減算することで、新たな機能をもつモデルを効率的に構築する技術。
(※5)ファインチューニング:事前学習モデルを特定のタスクに適応させるための追加学習。比較的小規模なデータセットを用いておこなわれるが、昨今の巨大なモデルの追加学習には依然として膨大な計算コストが必要となる。
(※6)ヤコビ行列:モデルの出力が入力またはパラメータに対してどのように変化するかを示す数学的表現。
(※7)重みの分離性:タスク間の干渉を抑え、それぞれのタスクが独立に機能する状態。
(※8)正則化:モデルの過学習を防ぎ、性能を安定させるための手法。
本研究で提案された技術は、以下のような多様な側面での応用が期待されます。
・複数タスク対応モデルの効率的な構築
・バイアスの除去や公平性の確保
今後は、さらに大規模なモデルや新たな応用分野に対して技術を展開し、より実用的なツールとしての開発を進めていく予定です。
・タイトル : 「Mastering Task Arithmetic: τJp as a Key Indicator for Weight Disentanglement」(邦題:基盤モデルにおけるタスク算術の干渉指標 τJp の提案と効率的なモデル編集手法の実現)
・著者 : 東京科学大学/吉田 晃太朗氏、独立研究者/楢木 悠二氏、立命館大学/堀江 孝文氏、立命館大学・ProPlace/山木 良輔氏、株式会社ZOZO NEXT・カリフォルニア大学サンディエゴ校/清水 良太郎、株式会社ZOZO NEXT/斎藤 侑輝、カリフォルニア大学サンディエゴ校/Julian McAuley教授、モントリオール大学・Mila・ProPlace/長沼 大樹氏
・論文URL : https://openreview.net/forum?id=1VwWi6zbxs
ZOZO研究所は、「ファッションを数値化する」をミッションに掲げるZOZOグループの研究機関です。ZOZOグループが保有するファッションに関する膨大な情報資産を基に、ファッションを科学的に解明するための研究開発をおこなっています。ZOZO研究所は今後も最先端の機械学習技術をプロダクトに取り入れ、より利便性が高く公平性にも配慮したプロダクトの構築とサービスの向上を目指し、研究・開発に努めてまいります。
・所名 : ZOZO研究所(ZOZO RESEARCH)
・設立 : 2018年1月31日
・URL : https://research.zozo.com/
ZOZO研究所 : zozo-research@zozo.com
本件に関しては、こちらまでお問合せください。