2022.11.22

＜早稲田大学・ZOZO研究所共同研究成果＞曖昧なファッションの表現をAIが自動で解釈する技術を開発

＜発表のポイント＞

・Webサイト等でファッションを検索しようとすると、ファッション特有の曖昧な表現で説明されていることから、利用者が求める検索結果にたどり着くことが難しい。
・ユーザーからの質問は多岐にわたるとともに曖昧な表現も多く含まれることから、ファッションの売り手など専門家にとっても回答は容易ではない。
・これらの問題を解決するため、全身コーディネート画像とファッション特有の曖昧かつ多様な表現を自動的に学習・解釈し、それらの関係性を明らかにすることで、ユーザーからの抽象的な問いに対する回答を獲得できるAIを用いた新技術「Fashion Intelligence System」を開発した。
・新技術の導入により、ファッションに関するユーザーの着る服や購買するアイテムなどの選択・行動を支援することが期待されている。

早稲田大学（東京都新宿区、総長：田中愛治）大学院創造理工学研究科博士後期課程および株式会社ZOZO NEXT（本社：千葉県千葉市、代表取締役CEO：澤田宏太郎）の研究開発組織、ZOZO研究所に在籍する清水良太郎（しみずりょうたろう）、早稲田大学理工学術院の後藤正幸（ごとうまさゆき）教授、およびZOZO研究所の斎藤侑輝（さいとうゆうき）、松谷恵（まつたにめぐみ）による研究グループは、ファッションへのイメージをAIが自動で解釈し、ユーザーからの曖昧な問いに対して回答する「Fashion Intelligence System」という新たな技術を開発しました。

本研究成果は、オランダのエルゼビア社が発行する『Expert Systems with Applications』に2022年11月17日（現地時間）にVersion of Record（最終公開版）として公開されました。
論文名：Fashion Intelligence System: An Outfit Interpretation Utilizing Images and Rich Abstract Tags

(1) これまでの研究で分かっていたこと（研究の背景）

近年、消費者はSNSやECサイトを通じて、他者の服装・着こなしを参考にした上で、ファッションアイテムの購買活動を行うことが一般的になっています。そのため、オンライン上のユーザー行動を快適にすることは、ファッション業界を発展させるという意味でも重要です。
しかし、ファッションに対してユーザーが持つ嗜好やイメージは極めて曖昧で、通常「カジュアル」「フォーマル」「かわいい」といった曖昧な表現が用いられるため、専門家ではないユーザーがファッションを理解・解釈することは容易ではありません。

(2) 今回の研究で新たに実現しようとしたこと

例えば、
・「この服装をもう少しフォーマルにしたらどんな服装になるか？」
・「この服装はどれくらいカジュアルか？」
・「この服装をカジュアルにしている要素は何か？」
といった問いへの回答は、ユーザーにとっては難易度が高く、専門家でさえも決して容易に答えを提示することが出来ません。
このようなファッション分野特有の曖昧性は、ユーザーが新しいジャンルの服装に挑戦しづらくなるなど、ユーザーからファッションへの興味を深めることの妨げとなる可能性があります。
そこで本研究グループでは、これらの問いに対する回答を自動的に獲得することで、ユーザーの認識の幅を広げ、ファッションの解釈や興味喚起の一助となることを目指しています。

(3)新たに開発した技術

研究グループは、全身コーディネート画像と画像に付与された複数のタグ情報を同一の空間に写像し、この空間における画像とタグの座標（=埋め込み表現）を活用することで、ユーザーからの曖昧な問いに対する回答を獲得する Visual-Semantic Embeddingに基づく「Fashion Intelligence System」（※1）という新たな技術を開発しました。あわせて、この新たな技術に基づき、その様々な活用方法を本論文にて提案しました。

（※1）Visual-Semantic Embeddingとは、ある画像とその画像関連する情報（文章や単語など）を同一空間に写像する技術です。本研究では全身コーディネート画像と、その画像に付与されたタグの集合を写像の対象としています。この技術を活用した研究は多く存在しますが、それらと比較して本研究では「（複数のパーツの組み合わせにより構成されている）全身コーディネート画像」と「（ファッション特有の曖昧な表現を多く含んだ）タグの集合」という、単純な方法では対象とすることが難しい要素を、上手に扱うための様々な工夫が含まれています。

図2. 全身服装画像と画像に付与された複数のタグ情報を同一空間に写像するイメージ

＜Fashion Intelligence Systemについて＞

ファッションを自動的に解釈し、ユーザーと協働することで、ファッションに関する新しい知識の発見と新しい価値の創造を促進する仕組みです。従来の多くの研究は、ビジネスにおいてマーケティング戦略を立案するためのBusiness Intelligenceの枠を超えることが出来ませんでした。一方で、今回新たに開発した「Fashion Intelligence System」では、人々の好みや価値観、文化的背景によって評価やイメージが異なる「ファッション」を対象とした、新しい知識の生成と発見を想定しています。つまり、本システムはBusiness Intelligenceの枠組みを超えて、ビジネスにも寄与しながらユーザーのファッションに対する関心と認知を広げることができるのです。

(4) 研究の波及効果や社会的影響

この新たな技術を用いて得られた回答をユーザーに提示することで、ファッション特有の曖昧性を軽減し、ファッションに関するユーザーの着る服や購買するアイテムなどの選択・行動を支援することが期待されます。

図3において、例えば「オフィスカジュアル」がよくわからない場合、提案システムにおける画像並べ替え機能を用いることで、「オフィスカジュアル」タグが付与されている服装の中でもより「オフィスカジュアル」な服装と、そうではない服装を判断することができます。また、ユーザー自身が現在所有している服装に対して「もう少しカジュアルにしたい」と思ったとき、画像検索機能を用いることで、どのような服装が「少しカジュアルにした」服装に当てはまるかを把握することができます。この際、AAM機能（※2）を用いることで、検索された画像において「どのあたりがカジュアルなのか」は把握することができます。

（※2）Attribute Activation Map（AAM）機能とは、指定したタグが、指定した画像上のどの領域との関連度が高いかをヒートマップで提示する機能です。この機能により、「対象の服装のどの部分がカジュアルなのか？」を視覚的に理解することができます。

(5) 今後の課題

今回開発した提案システムは、比較的綺麗に撮影された画像、ある程度専門性を有するユーザーが付与したタグが揃ったデータセットでのみ機能します。どのようなユーザー投稿データに対しても適用できるように発展させていくことが今後の課題です。また、提案システムは、画像と画像に紐づく文章や単語などの情報が紐づいたデータを用いれば、建築物・アート・家具・料理などの分野に応用することが可能です。特に曖昧な表現で説明される分野への応用により、有効性を発揮すると考えています。

(6) 論文筆頭著者（清水良太郎）のコメント

「オシャレ」「フォーマル」「オフィスカジュアル」のように曖昧なファッション関連の表現により、いつどこで何を着るべきなのか、何がオシャレなのかなど自身で判断をすることは難しく、私自身もオシャレに苦手意識がありました。この提案システムで、同様の方たちが、少しでも快適にファッションを楽しむ世の中を実現できるよう、今後も研究を続けてまいります。

(7) 研究助成情報

研究費名：日本学術振興会（JSPS）科学研究費 (基盤研究A)
研究課題名：データ駆動型社会の基盤をなす次世代実験計画技術の開発と実証的評価
研究代表者名（所属機関名）：後藤正幸（早稲田大学、理工学術院）

(8) 論文情報

雑誌名：Expert Systems with Applications
論文名：Fashion Intelligence System: An Outfit Interpretation Utilizing Images and Rich Abstract Tags
執筆者名（所属機関名）：Ryotaro Shimizu*a & *b、Yuki Saito*b、 Megumi Matsutani *b、 Masayuki Goto*a （*a…Waseda University、*b…ZOZO Research）
掲載日時（現地時間）：2022年11月17日
掲載URL：https://www.sciencedirect.com/science/article/pii/S0957417422021856?via%3Dihub
DOI：10.1016/j.eswa.2022.119167

＜早稲田大学・ZOZO研究所 共同研究成果＞ 曖昧なファッションの表現をAIが自動で解釈する技術を開発