- 📫 How to reach me [email protected]
590shun / paper_challenge Goto Github PK
View Code? Open in Web Editor NEW読んだ論文のまとめ
読んだ論文のまとめ
Timnit Gebru, Jonathan Krause, Yilun Wang, Duyun Chen, Jia Deng, Erez Lieberman Aiden, Li Fei-Fei
Proceedings of the National Academy of Sciences
大量の画像を用いて、アメリカ200都市に対する各地域の社会・経済的特徴を推定する手法を提案した論文。いくつかの都市の労働データを使用して人口統計の推定値を作成できるモデルを訓練することによって、人口統計を推定する。
・一般利用が可能な画像を使用することによって、外観に対する主観的な認識を定量化する。
・アメリカ200都市に及ぶ3068の郵便番号と32986の投票区域から5000万枚のストリートビュー画像を収集、これに加えて車の注釈付き写真を使用することで自動車を認識する。
・画像と大統領選挙の投票データを用いて人種と教育のレベルの推定を行う。
・上の図は共和党あるいは**党の選好データを地域ごとに示したものである。この論文では、乗っている自動車の車種と有権者の選好には強い相関が存在することが明らかにされた。
記載なし?
ジオタグ関連の掘り下げ
Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, Cees G. M. Snoek
CVPR2020
複数の人物が写っている動画に対して、個人の行動だけではなく、グループ全体としての行動の認識に取り組んだ論文。Group Activity Recognitionのタスクで使用される2種類のデータセットを用いて従来研究との性能比較を行った。
従来研究として、各人物の関係性を示すActor Relation Graphを用いたグラフ畳み込みニューラルネットなどが挙げられるが、Transformer Encoderを導入したモデルを提案。また動的な情報としてRGBとOptical Flow、静的な情報として姿勢情報を導入しており、early fusionとlate fusionによる認識精度の比較を行い、その利点についても説明している。
Adria Arbues-Snaguesa, Coloma Ballester, Gloria Haro
一つのカメラからコートの位置や複数の人物を検出して、トラッキングする手法を提案した論文。
・コートの検出に関しては既存の手法を使用
→
・
Ryan Compton, David Jurgens, David Allen
IEEE Conference on Big Data 2014
SNS上にあるデータを収集・分析することによって、地域ごとの流行や社会不安について言及することができるようになったが、この論文では公開されているTwitterの情報のみを使用して、ユーザー位置の推定を行う手法を提案した。
・公開されているユーザーのツイートは膨大であるので、ユーザー間のやり取りで生まれる「@メンション」機能を用いて、位置推定に効果が期待できるツイートに絞るためのフィルタを適用した。
・位置情報が付与されているツイートの絶対偏差の**値が30kmを超えているものは除外している。
・GPS,プロフィール情報,提案手法の3パターンでユーザーの投稿頻度と位置情報が付加されているユーザーの割合との相関関係についても言及している。
・行動力のある(移動距離が大きい)ユーザーは位置推定が難しいので、人がどのように移動しているのかという統計情報も加味して検証していく必要がある。
・ツイートの投稿頻度が少ないユーザーがほとんどであり、推定が難しく、投稿が多いユーザーのデータに引っ張られやすい。
世界全体を見たときに、人の流れが分かるような手法を提案している論文を探してみたい。
Bardia Doosti
Hand Pose Estimationのsurvey論文。
データセットの紹介など諸々。
Mayu Otani, Yuta Nakashima, Tomokazu Sato, Naokazu Yokoya
2015 IEEE International Conference on Multimedia and Expo (ICME)
動画を編集して作られるブログである"Video Blog"に焦点を当て、動画とブログの文章の内容の類似性を考慮した最適化問題に落とし込むことで、要約した動画と投稿用の文の内容が合致するようにしている。
・動画要約のためのフレームワークを提案
・動画の範囲を指定するための基準を提案
→前フレームと比較していき、検出された物体の数が極小となったフレームをシーンの境界としている。
・動画の要約を最適化問題として定式化
・動画の移り変わりが自然とは言い切れない。スムーズにシーンが移り変わればさらなる内容の理解につながるのではないか。
・入力したテキストした文章から自動的に元の動画に対してアノテーションできる手法を考えたい。
関連研究で紹介されていたアメリカンフットボールの試合動画の要約の論文を読んでみたい。
ゲームスコアの変化が動画の要約に反映されるのかが気になる。
Takahiro Itazuri, Tsukasa Fukusato, Shugo Yamaguchi, Shigeo Morishima
SIGGRAPH 2017
上の図は、緑線がボールの移動、青線がおおよそのコートの位置を示したものである。
スポーツの種類は,得点頻度が多いものとそうでないものの2つに大きく分類することができるが、その中でも得点シーンが多いバレーボールの試合動画の要約手法を提案した論文。
ボールの移動とおおよそのコートの位置からラリーシーンの検出を行っている。
・従来研究では、コート内にある白線を検出することによって大体のコート位置を把握していたが、ラリーを追うことによる画角の移動に着目して以下の2ステップを踏んでいる。
①: クラスタ内からコートを検出してラリーのクラスタを決定
②: ①で決定したクラスタからコートを検出してラリーのショットを決定
・さらに要約に関して、視聴者が任意に定めた時間内に収まるように閾値が自動的に決定される。
・再生周波数(ピッチ)やラリーシーンの長さなどから、ラリーのランクは以下の式で求められる。
この値から"Adjusted R-squared"と呼ばれる評価指標が計算された。以下が結果のまとめである。
図中のTCRとはTemporal Compression Rate(元動画に対する時間圧縮率)のことである。ラリー回数が多いラリーシーンの方が高いランクで評価されるという結果も得られた。
この手法を改良し、ゲームの流れや時系列方向の繋がりを考慮した手法を考えたい。
論文内で挙げられていた河村氏の論文を見ておきたい。
Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan,Cees G. M. Snoek
グループ行動認識に関連する情報を選択的に抽出する"Actor-Transformer Model"を提案した論文。
・2Dの姿勢情報と3次元畳み込みによって抽出された特徴をそれぞれ静的・動的な表現としてTransformerに組み込んでいる。
・提案した手法を上に示した。主に3つの手順から成る。
①: 人物の特徴抽出(1次元ベクトルに変換)
②: グループの行動の集約
③: これらの融合
3D CNNは計算コストが高いので、ROIAlignを使用して人物の周りにN個のbounding boxが与えられた各人物の特徴を抽出し、ネットワークで入力したフレーム全体を1度だけ処理する。HRNetは姿勢推定のSoTAモデルである。
融合にはearly fusionとlate fusionがあるが、前者は静的・動的表現の両方にアクセスできるという利点がある。逆にlate fusionではそれぞれを個別に処理可能?
・提案したモデルがVolleyball DatasetとCollective Datasetのどちらでも最も高い性能を示した。
Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, Dima Damen
Colin Lea, Michael D. Flynn, Rene Vidal, Austin Reiter, Gregory D. Hager
CVPR 2017
Jan Trienes, Dolf Trieschnigg, Christin Seifert, Djoerd Hiemstra
WSDM 2020
Robert Wetzker, Carsten Zimmermann, Christian Bauckhage, Sahin Albayrak
WSDM 2010
ユーザー視点での新しいタグ付けモデルを提案した論文。ユーザーが割り当てたタグの意味を推測・理解して、新しいアイテムに対して割り当てたいタグを推測を行う。
・新しいタグ付けモデルを提案するために、
①個人によるタグ付けの意味
②①に対応するフォークソノミー(インターネット利用者が自ら複数のタグを自由に付与, 検索できるようにする分類方法)
これら2つのマッピングを導出する。そして、ユーザーが割り当てたタグの意味を推測し、新しいアイテムに割り当てたいタグを選択するだけではなく、タグの曖昧さ・同義のもの・言語の違いによる語弊の問題を解決することにつながる。
・フォークソノミーには、タグ付けできるユーザーの対象範囲に応じて2種類に分けることができるが、他のユーザーのアクティビティに関連づけられるように広範なものを選択している。
・上の図は、時間とともにURLのタグ分布がどのように移り変わるかを示している。共同でラベリングを行った場合は、ユーザーが異なっても特徴的で安定したタグのスペクトルが現れる。
・フォークソノミーを狭義の場合にも適用していく。
・ユーザーの関心の移り変わりがタグ付けの動作にどう影響していくかを調査する必要がある。
Shuo Wang, Richard Sinnott, Surya Nepal
Big Data2017
大規模データセットにおけるPOA(Place of Activity)の探索に対して、問題提起を行った論文。プライバシーを秘匿しながら、人物の追跡と活動場所の推定を行っている。
・教師なしのOmega/LocationEntropy(LE)-Clustering手法を適用している。
・上の図のC1で、重要と考えられる位置の情報に対して、摂動(Perturbation)を与えている。そして、位置情報を秘匿して次の工程に渡している。
Jianchao Wu, Limin Wang, Li Wang, Jie Guo,
CVPR 2019
従来手法で困難だった人物間の関係性を学習するモデルを提案した論文。
①人物間のappearanceと位置関係を同時に捉え、Actor Relation Graph(ARG)を提案。
②GCNの適用によって、人物の相互作用を対象とした関係推論が可能。
③学習したARGと関係性の特徴を可視化→人物の関係性に着目した推論が可能。
上に提案されたネットワーク構造を示した。まず、サンプリングされた動画フレームから人物の特徴ベクトルを抽出する。ここで、サンプリングされたフレーム内のバウンディングボックスの総数をNとしている。複数の人物間の関係性把握のため、複数のグラフを構築。
その後グラフの全ての出力は、人物関係の特徴ベクトルを生成するためにfusionされる。
最後に、元の特徴量と関係性の特徴量を集約し、集団のactionと個人のactionの分類器に投入している。
Xinjian Wu, Li Zhang, Fanzhang Li, Bangjun Wang
ICPR 2018
Yang Liu, Samuel Albanie, Arsha Nagrani, Andrew Zisserman
Bolei Zhou, Liu Liu, Aude Oliva, Antonio Torralba
ECCV 2014
3大陸21都市の衛星画像を使用して属性分析を行い、それらの都市のidentityの特徴付けを行った論文。
①都市の形態などに応じて7つの都市属性(建物の量、建物の種類、水量、緑地面積、交通網、スポーツ関連?、社会活動)を持ったデータセットを構築。
②画像の認識から、各都市の属性に応じたidentityを持つ画像を特定。
③画像を分類したあと、そこでの誤分類率を基にして、都市間の視覚的な類似性を分析。
対象となる属性と、その属性の画像が持つ位置情報を地図上にマッピングしたものが下の図である。(都市属性によって分布がバラバラであるのがわかる。)
これらを1つにまとめて色付けし、可視化したものが下の図。
ただ、画像の種類が多いので、精度的には微妙...?
A)は各都市間の類似度を示していて、同じ色のノードは同一クラスタに分布、エッジの太さは類似度の大小を表している。一方B)は2つの都市間の地理的距離と類似性には負の相関があることを示したもの。
Daphne Lopez, M. Gunasekaran, B. Senthil Murugan, Harpreet Kaur, Kaja M. Abbas
Big Data2014
インドのVelloreという都市における、インフルエンザの影響を予測するためのモデルの提案を行った論文。降雨量、気温、風速、湿度、人口のデータを地理的要素として回帰分析に含めている。
今後コロナを研究の題材として扱うなら精読してもいいかも...
Utkarsh Mall, Kevin Matzen, Bharath Hariharan, Noah Snavely, Kavita Bala
ICCV 2019
画像中に映っている人物のファションの属性から、長期的、または季節的なイベントの傾向を予測している論文。季節のイベントや前年度のトレンドを特徴付けるとともに、人々の服装に影響を与えるイベントを検出することでその目的を果たしている。
・時空間的にlocalizeされたイベントを特定するために画像を分析
・テキストの説明とキャプションからイベントが行われた背景について、自動で検出している
・上の図は、この論文でのアプローチを示したものである。
(a)複数の都市のインターネット画像の認識とスタイルを収集することで、時系列方向の傾向を把握することができる。
(b)傾向を解釈することができるモデルに対して、収集した画像から得られた傾向を当てはめ、特徴づけと予測を行う。
(c)モデルから逸脱した傾向が得られた場合、赤い点として識別している。
(d)それぞれのイベントに対して固有のスタイルとテキストを特定する。
・衛星画像で土地の利用がどのように変化しているかを調査していきたい。
Wang-Cheng Kang, Chen Fang, Zhaowen Wang, Julian McAuley
ICDM 2017
ユーザーと製品カテゴリを与えることによって、その人の好みに一致するファッション画像を生成する研究。
ユーザーの好みや購入した製品の履歴などの大量の履歴から,個人的な提案を行う。
・ファッションデザインの提案を目的として画像を学習することによって、既存のアイテムだけではなく、ユーザーの好みに合ったファッション画像を生成することもできるシステムを考案した。
ファッションに限らず、新しいデザインの構想にも役立つと考えられ、生成された画像の品質向上や細かいスタイルの制御だけでなく、ファッション画像以外のデータやコンテンツにも同様の考え方を適用することができるのではないかと考えられている。
Mohamed Kafsi, Henriette Cramer, Bart Thomee, David A. Shamma
WWW 2015
地域ごとの特徴を明らかにするために、新しい確率的階層モデルを提案した論文。空間情報を記述する際に、どのような要素が関与することで確率モデルにどのように現れるかを理解することが目的である。
・地域ごとの特徴を表面化させるために、確率的階層モデルGHM(GeoGraphical Hierarchy Model)を提案している。このモデルは、
①地理的な領域を具体的に記述している用語を検出
②都市ごとに特異な地域を検出しつつ、都市間の類似性をマッピング
という2つの役割を持っている。
・主観的な解釈を考慮すべき
・新しい概念クラスタを見つけ、その概要を説明する必要がある。
Ester Gonzalez-Sosa, Antitza Dantcheva, Ruben Vera-Rodriguez, Jean-Luc Dugelay, Franc ̧ois Bremond, Julian Fierrez
ICPR 2016
顔の特徴と身体の特徴を融合して画像内の人物の性別を推定する手法を提案した論文。この論文により、顔が低解像度のケースや、閉塞して見えないような画像の場合でも、性別を従来よりも高い精度推定できるようになったのは、大きな貢献と言える。
入力は人物が入った画像で、顔と身体の検出はそれぞれで行っている。
顔からの性別判定は特筆することはない。身体の方は、検出した画像を被写体とカメラの間の距離に応じて、"Far", "Medium", "Close"に分類している。
性別推定したあとは、それぞれで算出されたスコアを融合し、最終的な性別を決定している。
この結果FGE(Face Gender Estimation)とBGE(Body Gender Estimation)は、距離に応じて下のような認識精度となった。
黒破線が単純なスコアの合算によるものだが、距離が近いときにBGEよりも低い認識精度となった。
これを解決するために、被写体の頭と身体の比にオフセットを加えたものをスコアとして提案し、精度向上に成功した。これは、人間の頭の約7.5倍の長さが身長にあたり、画像に写っている胴体の長さによって、距離が分かるという原理に基づいている。(胴体があまり写っていなければ、カメラとの距離が近いということ。必然的にface:bodyの比は小さくなる)
Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkiä
Open Knowledge Base and Question Answering Workshop(OKBQA) 2017
DNNをベースとした動画内のセグメント検索手法を提案した論文。FGVR(Fine-Grained Video Retrieval)と呼ばれる、「動画クリップの中の1つ以上のsegmentを探索する」タスクを用いて、入力した文章と動画のフレームの関連性を評価する。
・LSTMを介した単語ベクトルと、ResNetや双方向性のLSTMなどを介して変換された動画フレームの特徴ベクトルの類似性から関連性のスコアを算出している。
・DNNの学習にはデータセットが不足してしまうが、ランダムに選択した動画のクリップを連結することによって、任意の数の動画と、対応するクリップを生成することができる。
より現実的な場面における動画シーンの識別・評価を行なっていく必要がある。
Mostafa S.Ibrahim, Srikanth Muralidharan, Zhiwei Deng, Arash Vahdat, Greg Mori
Chao Huang, Dong Wang, Shenglong Zhu, Daniel (Yue) Zhang
Big Data 2016
オンラインのソーシャルメディアから得られるまばらなデータからユーザーの自宅の位置を推定する手法を提案した論文。ユーザーが自主的にアップロードしたチェックポイントを活用して、自宅の位置を推測している。
・チェックポイントを活用するにあたって、2つの懸念事項が存在する。
①対象となるユーザーがその都市の住民であるかどうか
②チェック地点が位置の推定にどの程度有効であるか(例えば、地域に存在するセブンイレブンの方が、アメリカに1つしかないホワイトハウスよりも、自宅位置の推定にはるかに大きな影響力を持っていると考えられる)
・これらに加えて、観光客によるチェックの可能性を考慮しなくてはならないので、この論文ではそれらを「ノイズ」として扱っている。
・新しいフレームワークUHLI schemeの提案
訓練データなしで推定できるのは、今後様々な応用先が考えられそう?
Michael Gygli, Helmut Grabner, Luc Van Gool
CVPR 2015
教師あり学習のアプローチで動画の要約を行う手法を提案した論文。3つのobejectiveによる最適化で、複数の特性を持った要約を生成。
・以前読んできた動画要約の論文に似ているが、動画要約の掟?的なものがこの論文でもほぼ同義で書かれていた。
①要約するために開始と終了のシーンは見逃さないようにしたい
②冗長でないようにすると同時に、元動画の多様性を維持した上で、代表的?である必要がある(ここが直訳だとよくわからなかった)
・学習はヒンジ損失を最小化する形で行われる。[22]で提案された勾配降下法を用いて複雑な部分集合を近似的に学習している。
・下は学習アルゴリズムが特定の長さの要約にどのように適応されるかを可視化したものである。"interestingness", "representativeness", "uniformity"の3つのobjectiveから成る。
スポーツ系の映像への応用
もうちょい新しい論文読んだ方がいいかも...
Mohammadreza Zolfaghari, Gabriel L. Oliveira, Nima Sedaghat, Thomas Brox
Jianling Wang, Raphael Louca, Diane Hu, Caitlin Cellier, James Caverlee, Liangjie Hong
WSDM 2020
・季節や流行、ユーザー固有のイベントを考慮して、次に購入しそうな商品を予測する手法を提案した論文。
・(1)ユーザーの好みに対してOccasionを区別するパターンの識別、(2)購買の傾向の把握、(3)ユーザーの好みと様々な場面とのバランス調整、(4)頻発するイベントのモデル化、この4つを課題として取り組んでいる。
・上記の課題を解決するために3つのLayerを設計している。
①誕生日などのユーザー固有のイベントをモデリングしたAttention Layer
②クリスマスなど、多くのユーザーに対して繰り返し発生する季節的なイベントをモデリングしたAttention Layer
③①と②を踏まえ、ユーザーの本質的な好みとのバランスをとるGating Layer
それぞれのイベントに対して特徴付けと説明の付与のためにcontextの情報を追加する必要がある。
Katsuhiko Ishiguro, Akisato Kimura, Koh Takeuchi
IEEE ICDM2012
ソーシャルメディアによって配信・やりとりされる画像を分析するために有用な情報源とされているのが、"Social Curation Service"であり、これを使用することでSNS画像を理解し、データマイニングに役立てることができるが、画像の特徴量よりも優秀なcorpaseから得られた特徴量を使用することによって、「画像を見ずに画像の内容を理解する」ことを試みた。
SNSに投稿されたツイートやそれに添付された画像を収集すことで、"Curation List"を独自に作成した。このCuration Listへのアクセス回数が増加すれば画像の表示回数も必然的に増加すると仮定。
使用したデータは以下の3つ。
・Curation Listのタイトルと概要
・ツイートの文章および画像に対するユーザーのコメント
・画像へのハイパーリンクを持つ全てのツイート
これら3つのデータから最終的に6つのテキスト特徴を得て、組み合わせごとに性能比較した。
・提案したSocial Curation Listから得たテキスト特徴と、画像から得られた特徴との最適な適合手法が存在しない。
・さらに膨大なデータセットや画像検索のタスクの調査が必要
・自然言語処理や音声処理などへの応用
なし
Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne heikkilä
CVPR 2019
動画要約の評価指標について言及した論文。
従来の手法では、
①人間の主観的な評価が多いため、評価をもとに結果を再構成することが難しい
②どの場面が重要なのかを示す「重要度」の設定が難しい
という2つの課題が存在する。
この内、前者の評価の仕方について問題提起を行っている。
・動画の中で視覚的に変化が大きい箇所を、動画の切り替わりとして分割する手法はKTS(Kernel Temporal Segmentation)と呼ばれているが、この分割した動画のセグメントの順序をランダムに並び替えたものをRandomized KTSとして提案している。
この結果、他の既存手法と比較しても平均あるいは最大のF1 scoreが大差なかったことを実験結果として示した。
・重要度を図る指標として「予測結果と、アノテーターによる参照結果の相関」から、重要度のランク付けを行う方法を提案した。
・クラスタリングベースなどアプローチには適していないので、様々な用途に対応させる必要がある。
・より大規模なデータセットが必要
なし
Vidya Muthukumar, Tejaswini Pedapati, Nalini Ratha, Prasanna Sattigeri, Chai-Wah Wu, Brian Kingsbury, Abhishek Kumar, Samuel Thomas, Aleksandra Mojsilovic, Kush R. Varshney
人種や性別の違いによって顔画像の分類精度が大きく異なることは以前から指摘されていたが、その根底となる原因は解明されていなかった。
特に黒人女性の分類精度が低く、顔のどの部分が認識や分類の精度に関わってくるかを明らかにしている。
・本論文で述べられているPPB Datasetは既存データセットと比較して性別の分布のバランスが取れている。
・元画像の顔の肌の色を変えて検証したが、大きな影響は見られなかった。
・誤分類が多い黒人女性は髪が短い人が多い。→髪を除去して分類しても変わらず、精度に影響はないことが分かった。
Heng-Tze Cheng, Zakaria Haque, Lichan Hong, Mustafa Ispir, Clemens Mewald, Illia Polosukhin, Georgios Roumpos, D Sculley, Jamie Smith, David Soergel, Yuan Tang, Philipp Tucker, Martin Wicke, Cassandra Xia, Jianwei Xie
KDD 2017
機械学習の簡素化のためのフレームワークを提示した論文。実際に研究環境と実運用環境で使用した経験について議論、コードの頑健性や開発スピードについて言及。
Noam Shazeer, Azalia Mirhoseini, Krzystof Maziarz, andy Davis, Quoc Le, Geoffrey Hinton and Jeff Dean
ICLR 2017
Michele Merler, Nalini Ratha, Rogerio S. Feris, John R. Smith
arXiv 2019
Tianlu Wang, Jieyu Zhao, Mark Yatskar, Kai-Wei Chang, Vicente Ordonez
ICCV 2019
vision認識のタスクにおいて、性別などの内在的なバイアスを測定するフレームワークの提案を行った論文。vision系のシステムでは誤った相関を捉えがちで、人物が写った画像の場合、対象となる物や行動のラベルと過度に関連付けることで、社会的なステレオタイプを増幅させる可能性がある。
・「画像中に●●があると▲▲もある可能性がある」という考え方・概念を"leakage"と論文中で表現している。leakageはmodelとdatasetに分けられる。
・dataset leakage
全体での精度がaとなるような関数rを用いて摂動することによって、ある性能でのデータセットのleakageと定義している。
・model leakage
モデルMの予測値を通じてgiに関する情報をリークするデータセットの割合[%]と定義している。
上のように、モデルとデータセットのリークの同じ精度aでの差をモデルpでの増幅度と定義している。
2つのデータセットで、F1値の減少を極力抑えながらバイアス増幅度の大幅な削減に成功した。
Min-Hsuan Tsai, Charu Aggarwal, Thomas Huang
WSDM 2014
画像検索のランキングを提示するためのフレームワークを提案した論文。提案されたものは、タグやテキストだけでなく、人物と画像間のつながりを示すもの、そして画像特徴を組み合わせるフレームワークである。
・SNSにあげられた画像はその人物と画像をつなぐ重要な情報である。
・ユーザー同士のつながりや関係性を示すものとして、「いいね」を使用
・画像検索とランキング処理の改善を目的とした"Social Rank"を提案
しっかりと読み込めていないので、必要があれば読み直すこと。
Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming
Zhong Ji, Kailin Xiong, Yanwei Pang, Xuelong Li
教師ありでの動画要約のモデルを2つ提案した論文で、Encoder-Decoderを用いた構造によってTVSumとSumMeの2つのデータセットにて0.8〜3.0%のF値の改善を達成した。
・上に提案したモデルの構造を示した。まずEncoderでは動画のフレーム単位でのシーケンスを生成する。次にAttentionベースのDecoderでは、重要度スコアのシーケンスを生成する。
これらとは別に動画から得られた視覚的なシーケンスとDecoderの出力からkeyshotを生成している。
ここで、Encoderでは双方向性のLSTM(BiLSTM)を採用している。LSTMが向いているのは、特定のフレームの周辺での文脈情報が得られるからである。
・動画フレームの特徴Vtと隠れ状態のSt-1は対応関係にあり、これの積の取り方でA-AVSとM-AVSの2つに分けて実験を行っている。
・結果として既存手法よりも提案した手法A-AVS, M-AVSともに改善。中でもTVSumの方が大きく改善しているが、これはSumMeよりもカテゴリ内の関連性が近いからだと考えられる。
学習データの不足を解決するために、転移学習やGANのアプローチを用いたデータセットの拡張をしていきたい。
Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Naokazu Yokoya
ACCV2016
動画のセグメントとテキストの記述を共通の意味空間にマッピングし、動画の要約を行う論文。
既存手法のベースラインを5つ挙げ、動画ごとに性能の比較を行った。
・"Contrastive Loss"と呼ばれる、動画とそれに関連する文章のユークリッド距離を近づける(そうでないものは遠ざける)ように設計された損失関数により、特定のラベルを予測するようにトレーニングされた既存手法とは異なり、文章ベースでトレーニングされる。
・意味空間では、動画のセグメントがクラスタごとに分類されており、意味空間の各クラスタの中心に対応する動画のセグメントをサンプリングすることによって、動画の要約を生成している。
・一定長のセグメントを抽出する場合、元動画が短いとf-measureスコアが低くなってしまう。([12], [19]で解決可能?)
・重要でないシーンも意味空間内にクラスタを形成するため、この論文のように各クラスタから代表してセグメントを抽出すると、重要でない部分が長く続いてしまい、要約内容が不十分になってしまう恐れがある。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.