Giter VIP home page Giter VIP logo

paper_challenge's Introduction

paper_challenge's People

Contributors

590shun avatar

Watchers

 avatar

paper_challenge's Issues

Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States

論文情報

著者

Timnit Gebru, Jonathan Krause, Yilun Wang, Duyun Chen, Jia Deng, Erez Lieberman Aiden, Li Fei-Fei

投稿先

Proceedings of the National Academy of Sciences

論文のリンク

pdf

概要

image

大量の画像を用いて、アメリカ200都市に対する各地域の社会・経済的特徴を推定する手法を提案した論文。いくつかの都市の労働データを使用して人口統計の推定値を作成できるモデルを訓練することによって、人口統計を推定する。

論文のポイント

・一般利用が可能な画像を使用することによって、外観に対する主観的な認識を定量化する。
・アメリカ200都市に及ぶ3068の郵便番号と32986の投票区域から5000万枚のストリートビュー画像を収集、これに加えて車の注釈付き写真を使用することで自動車を認識する。
・画像と大統領選挙の投票データを用いて人種と教育のレベルの推定を行う。
image

・上の図は共和党あるいは**党の選好データを地域ごとに示したものである。この論文では、乗っている自動車の車種と有権者の選好には強い相関が存在することが明らかにされた。

課題・展望など

記載なし?

次に読んでみたい関連論文

ジオタグ関連の掘り下げ

Actor-Transformers for Group Activity Recognition

論文情報

著者

Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, Cees G. M. Snoek

投稿先

CVPR2020

論文のリンク

pdf

概要

image
複数の人物が写っている動画に対して、個人の行動だけではなく、グループ全体としての行動の認識に取り組んだ論文。Group Activity Recognitionのタスクで使用される2種類のデータセットを用いて従来研究との性能比較を行った。

論文のポイント

従来研究として、各人物の関係性を示すActor Relation Graphを用いたグラフ畳み込みニューラルネットなどが挙げられるが、Transformer Encoderを導入したモデルを提案。また動的な情報としてRGBとOptical Flow、静的な情報として姿勢情報を導入しており、early fusionとlate fusionによる認識精度の比較を行い、その利点についても説明している。

課題・展望など

次に読んでみたい関連論文

A Novel Model for Multi-label Image Annotation

論文情報

著者

Xinjian Wu, Li Zhang, Fanzhang Li, Bangjun Wang

投稿先

ICPR 2018

論文のリンク

pdf

概要

新しい画像アノテーションモデルの提案をした論文。Natural Scenes, Corel-5K, IAPRTC-12, ESP-Gameの4つのデータセットを使用。

論文のポイント

1枚の画像に対して、場所、建物・樹木などの複数の物体を対象としてラベルが付与されている。
image

課題・展望など

次に読んでみたい関連論文

Single-Camera Basketball Tracker through Pose and Semantic Feature Fusion

論文情報

著者

Adria Arbues-Snaguesa, Coloma Ballester, Gloria Haro

投稿先

論文のリンク

pdf

概要

一つのカメラからコートの位置や複数の人物を検出して、トラッキングする手法を提案した論文。

論文のポイント

・コートの検出に関しては既存の手法を使用
→ 

課題・展望など

次に読んでみたい関連論文

Geotagging One Hundred Millon Twitter Accounts with Total Variation Minimization

論文情報

著者

Ryan Compton, David Jurgens, David Allen

投稿先

IEEE Conference on Big Data 2014

論文のリンク

pdf

概要

image
SNS上にあるデータを収集・分析することによって、地域ごとの流行や社会不安について言及することができるようになったが、この論文では公開されているTwitterの情報のみを使用して、ユーザー位置の推定を行う手法を提案した。

論文のポイント

・公開されているユーザーのツイートは膨大であるので、ユーザー間のやり取りで生まれる「@メンション」機能を用いて、位置推定に効果が期待できるツイートに絞るためのフィルタを適用した。
・位置情報が付与されているツイートの絶対偏差の**値が30kmを超えているものは除外している。
・GPS,プロフィール情報,提案手法の3パターンでユーザーの投稿頻度と位置情報が付加されているユーザーの割合との相関関係についても言及している。

課題・展望など

・行動力のある(移動距離が大きい)ユーザーは位置推定が難しいので、人がどのように移動しているのかという統計情報も加味して検証していく必要がある。
・ツイートの投稿頻度が少ないユーザーがほとんどであり、推定が難しく、投稿が多いユーザーのデータに引っ張られやすい。

次に読んでみたい関連論文

世界全体を見たときに、人の流れが分かるような手法を提案している論文を探してみたい。

Hand Pose Estimation: A Survey

論文情報

著者

Bardia Doosti

投稿先

論文のリンク

pdf

概要

Hand Pose Estimationのsurvey論文。
データセットの紹介など諸々。

論文のポイント

課題・展望など

次に読んでみたい関連論文

Textual description-based Video Summarization For Video Blogs

論文情報

著者

Mayu Otani, Yuta Nakashima, Tomokazu Sato, Naokazu Yokoya

投稿先

2015 IEEE International Conference on Multimedia and Expo (ICME)

論文のリンク

pdf

概要

動画を編集して作られるブログである"Video Blog"に焦点を当て、動画とブログの文章の内容の類似性を考慮した最適化問題に落とし込むことで、要約した動画と投稿用の文の内容が合致するようにしている。
image

論文のポイント

・動画要約のためのフレームワークを提案
・動画の範囲を指定するための基準を提案
→前フレームと比較していき、検出された物体の数が極小となったフレームをシーンの境界としている。
・動画の要約を最適化問題として定式化

課題・展望など

・動画の移り変わりが自然とは言い切れない。スムーズにシーンが移り変わればさらなる内容の理解につながるのではないか。
・入力したテキストした文章から自動的に元の動画に対してアノテーションできる手法を考えたい。

次に読んでみたい関連論文

関連研究で紹介されていたアメリカンフットボールの試合動画の要約の論文を読んでみたい。
ゲームスコアの変化が動画の要約に反映されるのかが気になる。

Court-Aware Volleyball Video Summarization

論文情報

著者

Takahiro Itazuri, Tsukasa Fukusato, Shugo Yamaguchi, Shigeo Morishima

投稿先

SIGGRAPH 2017

論文のリンク

pdf

概要

image

上の図は、緑線がボールの移動、青線がおおよそのコートの位置を示したものである。

スポーツの種類は,得点頻度が多いものとそうでないものの2つに大きく分類することができるが、その中でも得点シーンが多いバレーボールの試合動画の要約手法を提案した論文。
ボールの移動とおおよそのコートの位置からラリーシーンの検出を行っている。

論文のポイント

・従来研究では、コート内にある白線を検出することによって大体のコート位置を把握していたが、ラリーを追うことによる画角の移動に着目して以下の2ステップを踏んでいる。
①: クラスタ内からコートを検出してラリーのクラスタを決定
②: ①で決定したクラスタからコートを検出してラリーのショットを決定

・さらに要約に関して、視聴者が任意に定めた時間内に収まるように閾値が自動的に決定される。
・再生周波数(ピッチ)やラリーシーンの長さなどから、ラリーのランクは以下の式で求められる。
image
この値から"Adjusted R-squared"と呼ばれる評価指標が計算された。以下が結果のまとめである。
image
図中のTCRとはTemporal Compression Rate(元動画に対する時間圧縮率)のことである。ラリー回数が多いラリーシーンの方が高いランクで評価されるという結果も得られた。

課題・展望など

この手法を改良し、ゲームの流れや時系列方向の繋がりを考慮した手法を考えたい。

次に読んでみたい関連論文

論文内で挙げられていた河村氏の論文を見ておきたい。

Actor-Transformers for Group Activity Recognition

論文情報

著者

Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan,Cees G. M. Snoek

投稿先

論文のリンク

pdf

概要

image

グループ行動認識に関連する情報を選択的に抽出する"Actor-Transformer Model"を提案した論文。

論文のポイント

・2Dの姿勢情報と3次元畳み込みによって抽出された特徴をそれぞれ静的・動的な表現としてTransformerに組み込んでいる。
image

・提案した手法を上に示した。主に3つの手順から成る。
①: 人物の特徴抽出(1次元ベクトルに変換)
②: グループの行動の集約
③: これらの融合

3D CNNは計算コストが高いので、ROIAlignを使用して人物の周りにN個のbounding boxが与えられた各人物の特徴を抽出し、ネットワークで入力したフレーム全体を1度だけ処理する。HRNetは姿勢推定のSoTAモデルである。
融合にはearly fusionとlate fusionがあるが、前者は静的・動的表現の両方にアクセスできるという利点がある。逆にlate fusionではそれぞれを個別に処理可能?
image

・提案したモデルがVolleyball DatasetとCollective Datasetのどちらでも最も高い性能を示した。

課題・展望など

次に読んでみたい関連論文

I Tag, You Tag: Translating tags for advanced user models

論文情報

著者

Robert Wetzker, Carsten Zimmermann, Christian Bauckhage, Sahin Albayrak

投稿先

WSDM 2010

論文のリンク

pdf

概要

ユーザー視点での新しいタグ付けモデルを提案した論文。ユーザーが割り当てたタグの意味を推測・理解して、新しいアイテムに対して割り当てたいタグを推測を行う。

論文のポイント

・新しいタグ付けモデルを提案するために、
①個人によるタグ付けの意味
②①に対応するフォークソノミー(インターネット利用者が自ら複数のタグを自由に付与, 検索できるようにする分類方法)
これら2つのマッピングを導出する。そして、ユーザーが割り当てたタグの意味を推測し、新しいアイテムに割り当てたいタグを選択するだけではなく、タグの曖昧さ・同義のもの・言語の違いによる語弊の問題を解決することにつながる。
image
・フォークソノミーには、タグ付けできるユーザーの対象範囲に応じて2種類に分けることができるが、他のユーザーのアクティビティに関連づけられるように広範なものを選択している。
image
・上の図は、時間とともにURLのタグ分布がどのように移り変わるかを示している。共同でラベリングを行った場合は、ユーザーが異なっても特徴的で安定したタグのスペクトルが現れる。

課題・展望など

・フォークソノミーを狭義の場合にも適用していく。
・ユーザーの関心の移り変わりがタグ付けの動作にどう影響していくかを調査する必要がある。

次に読んでみたい関連論文

Privacy-protected place of activity mining on big location data

論文情報

著者

Shuo Wang, Richard Sinnott, Surya Nepal

投稿先

Big Data2017

論文のリンク

pdf

概要

大規模データセットにおけるPOA(Place of Activity)の探索に対して、問題提起を行った論文。プライバシーを秘匿しながら、人物の追跡と活動場所の推定を行っている。

論文のポイント

image
・教師なしのOmega/LocationEntropy(LE)-Clustering手法を適用している。
・上の図のC1で、重要と考えられる位置の情報に対して、摂動(Perturbation)を与えている。そして、位置情報を秘匿して次の工程に渡している。

課題・展望など

次に読んでみたい関連論文

Learning Actor Relation Graphs for Group Activity Recognition

論文情報

著者

Jianchao Wu, Limin Wang, Li Wang, Jie Guo,

投稿先

CVPR 2019

論文のリンク

pdf
code

概要

image

従来手法で困難だった人物間の関係性を学習するモデルを提案した論文。

論文のポイント

①人物間のappearanceと位置関係を同時に捉え、Actor Relation Graph(ARG)を提案。
②GCNの適用によって、人物の相互作用を対象とした関係推論が可能。
③学習したARGと関係性の特徴を可視化→人物の関係性に着目した推論が可能。

image

上に提案されたネットワーク構造を示した。まず、サンプリングされた動画フレームから人物の特徴ベクトルを抽出する。ここで、サンプリングされたフレーム内のバウンディングボックスの総数をNとしている。複数の人物間の関係性把握のため、複数のグラフを構築。
その後グラフの全ての出力は、人物関係の特徴ベクトルを生成するためにfusionされる。
最後に、元の特徴量と関係性の特徴量を集約し、集団のactionと個人のactionの分類器に投入している。

課題・展望など

次に読んでみたい関連論文

A Novel Model for Multi-label Image Annotation

論文情報

著者

Xinjian Wu, Li Zhang, Fanzhang Li, Bangjun Wang

投稿先

ICPR 2018

論文のリンク

pdf

概要

論文のポイント

課題・展望など

次に読んでみたい関連論文

Recognizing City Identity via Attribute Analysis of Geo-tagged Images

論文情報

著者

Bolei Zhou, Liu Liu, Aude Oliva, Antonio Torralba

投稿先

ECCV 2014

論文のリンク

pdf

概要

3大陸21都市の衛星画像を使用して属性分析を行い、それらの都市のidentityの特徴付けを行った論文。

論文のポイント

・手順は次の通り。
image

①都市の形態などに応じて7つの都市属性(建物の量、建物の種類、水量、緑地面積、交通網、スポーツ関連?、社会活動)を持ったデータセットを構築。
②画像の認識から、各都市の属性に応じたidentityを持つ画像を特定。
③画像を分類したあと、そこでの誤分類率を基にして、都市間の視覚的な類似性を分析。

対象となる属性と、その属性の画像が持つ位置情報を地図上にマッピングしたものが下の図である。(都市属性によって分布がバラバラであるのがわかる。)
image
これらを1つにまとめて色付けし、可視化したものが下の図。
image
ただ、画像の種類が多いので、精度的には微妙...?
image
A)は各都市間の類似度を示していて、同じ色のノードは同一クラスタに分布、エッジの太さは類似度の大小を表している。一方B)は2つの都市間の地理的距離と類似性には負の相関があることを示したもの。
image

課題・展望など

次に読んでみたい関連論文

Spatial big data analysis of influenza epidemic in Vellore, India

論文情報

著者

Daphne Lopez, M. Gunasekaran, B. Senthil Murugan, Harpreet Kaur, Kaja M. Abbas

投稿先

Big Data2014

論文のリンク

pdf

概要

インドのVelloreという都市における、インフルエンザの影響を予測するためのモデルの提案を行った論文。降雨量、気温、風速、湿度、人口のデータを地理的要素として回帰分析に含めている。

論文のポイント

課題・展望など

次に読んでみたい関連論文

今後コロナを研究の題材として扱うなら精読してもいいかも...

GeoStyle: Discovering Fashion Trends and Events

論文情報

著者

Utkarsh Mall, Kevin Matzen, Bharath Hariharan, Noah Snavely, Kavita Bala

投稿先

ICCV 2019

論文のリンク

pdf

概要

画像中に映っている人物のファションの属性から、長期的、または季節的なイベントの傾向を予測している論文。季節のイベントや前年度のトレンドを特徴付けるとともに、人々の服装に影響を与えるイベントを検出することでその目的を果たしている。

論文のポイント

・時空間的にlocalizeされたイベントを特定するために画像を分析
・テキストの説明とキャプションからイベントが行われた背景について、自動で検出している
image
・上の図は、この論文でのアプローチを示したものである。
(a)複数の都市のインターネット画像の認識とスタイルを収集することで、時系列方向の傾向を把握することができる。
(b)傾向を解釈することができるモデルに対して、収集した画像から得られた傾向を当てはめ、特徴づけと予測を行う。
(c)モデルから逸脱した傾向が得られた場合、赤い点として識別している。
(d)それぞれのイベントに対して固有のスタイルとテキストを特定する。

課題・展望など

・衛星画像で土地の利用がどのように変化しているかを調査していきたい。

次に読んでみたい関連論文

Visually-Aware Fashion Recommendation and Design with Generative Image Models

論文情報

著者

Wang-Cheng Kang, Chen Fang, Zhaowen Wang, Julian McAuley

投稿先

ICDM 2017

論文のリンク

pdf

概要

image
ユーザーと製品カテゴリを与えることによって、その人の好みに一致するファッション画像を生成する研究。
ユーザーの好みや購入した製品の履歴などの大量の履歴から,個人的な提案を行う。

論文のポイント

・ファッションデザインの提案を目的として画像を学習することによって、既存のアイテムだけではなく、ユーザーの好みに合ったファッション画像を生成することもできるシステムを考案した。

課題・展望など

ファッションに限らず、新しいデザインの構想にも役立つと考えられ、生成された画像の品質向上や細かいスタイルの制御だけでなく、ファッション画像以外のデータやコンテンツにも同様の考え方を適用することができるのではないかと考えられている。

次に読んでみたい関連論文

Describing and Understanding Neighborhood Characteristics through Online Social Media

論文情報

著者

Mohamed Kafsi, Henriette Cramer, Bart Thomee, David A. Shamma

投稿先

WWW 2015

論文のリンク

pdf

概要

地域ごとの特徴を明らかにするために、新しい確率的階層モデルを提案した論文。空間情報を記述する際に、どのような要素が関与することで確率モデルにどのように現れるかを理解することが目的である。

論文のポイント

image

・地域ごとの特徴を表面化させるために、確率的階層モデルGHM(GeoGraphical Hierarchy Model)を提案している。このモデルは、
①地理的な領域を具体的に記述している用語を検出
②都市ごとに特異な地域を検出しつつ、都市間の類似性をマッピング
という2つの役割を持っている。

課題・展望など

・主観的な解釈を考慮すべき
・新しい概念クラスタを見つけ、その概要を説明する必要がある。

次に読んでみたい関連論文

Image-based Gender Estimation from Body and Face across Distances

論文情報

著者

Ester Gonzalez-Sosa, Antitza Dantcheva, Ruben Vera-Rodriguez, Jean-Luc Dugelay, Franc ̧ois Bremond, Julian Fierrez

投稿先

ICPR 2016

論文のリンク

pdf

概要

顔の特徴と身体の特徴を融合して画像内の人物の性別を推定する手法を提案した論文。この論文により、顔が低解像度のケースや、閉塞して見えないような画像の場合でも、性別を従来よりも高い精度推定できるようになったのは、大きな貢献と言える。

論文のポイント

下に提案された構造を示す。
image

入力は人物が入った画像で、顔と身体の検出はそれぞれで行っている。
顔からの性別判定は特筆することはない。身体の方は、検出した画像を被写体とカメラの間の距離に応じて、"Far", "Medium", "Close"に分類している。
性別推定したあとは、それぞれで算出されたスコアを融合し、最終的な性別を決定している。
この結果FGE(Face Gender Estimation)とBGE(Body Gender Estimation)は、距離に応じて下のような認識精度となった。
image

image

黒破線が単純なスコアの合算によるものだが、距離が近いときにBGEよりも低い認識精度となった。
これを解決するために、被写体の頭と身体の比にオフセットを加えたものをスコアとして提案し、精度向上に成功した。これは、人間の頭の約7.5倍の長さが身長にあたり、画像に写っている胴体の長さによって、距離が分かるという原理に基づいている。(胴体があまり写っていなければ、カメラとの距離が近いということ。必然的にface:bodyの比は小さくなる)

課題・展望など

次に読んでみたい関連論文

Video Question Answering to Find a Desired Video Segment

論文情報

著者

Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkiä

投稿先

Open Knowledge Base and Question Answering Workshop(OKBQA) 2017

論文のリンク

pdf

概要

image
DNNをベースとした動画内のセグメント検索手法を提案した論文。FGVR(Fine-Grained Video Retrieval)と呼ばれる、「動画クリップの中の1つ以上のsegmentを探索する」タスクを用いて、入力した文章と動画のフレームの関連性を評価する。

論文のポイント

・LSTMを介した単語ベクトルと、ResNetや双方向性のLSTMなどを介して変換された動画フレームの特徴ベクトルの類似性から関連性のスコアを算出している。
・DNNの学習にはデータセットが不足してしまうが、ランダムに選択した動画のクリップを連結することによって、任意の数の動画と、対応するクリップを生成することができる。

課題・展望など

より現実的な場面における動画シーンの識別・評価を行なっていく必要がある。

次に読んでみたい関連論文

changing fashion cultures

論文情報

著者

投稿先

ああああ

論文のリンク

pdf

概要

image

論文のポイント

課題・展望など

次に読んでみたい関連論文

Towards Unsupervised Home Location Inference from Online Social Media

論文情報

著者

Chao Huang, Dong Wang, Shenglong Zhu, Daniel (Yue) Zhang

投稿先

Big Data 2016

論文のリンク

pdf

概要

image

オンラインのソーシャルメディアから得られるまばらなデータからユーザーの自宅の位置を推定する手法を提案した論文。ユーザーが自主的にアップロードしたチェックポイントを活用して、自宅の位置を推測している。

論文のポイント

・チェックポイントを活用するにあたって、2つの懸念事項が存在する。
①対象となるユーザーがその都市の住民であるかどうか
②チェック地点が位置の推定にどの程度有効であるか(例えば、地域に存在するセブンイレブンの方が、アメリカに1つしかないホワイトハウスよりも、自宅位置の推定にはるかに大きな影響力を持っていると考えられる)
・これらに加えて、観光客によるチェックの可能性を考慮しなくてはならないので、この論文ではそれらを「ノイズ」として扱っている。
image

・新しいフレームワークUHLI schemeの提案

課題・展望など

訓練データなしで推定できるのは、今後様々な応用先が考えられそう?

次に読んでみたい関連論文

Discovering Fair Representations in the Data Domain

論文情報

著者

Novi Quadrianto, Viktoriia Sharmanska, Oliver Thomas

投稿先

CVPR 2019

論文のリンク

pdf

概要

公平性の実現のために、不公平な結果を緩和するデータ表現を学習

論文のポイント

入力ドメインからターゲットドメインへのマッピングの学習を提案
image
CelebA datasetの男性画像のうち、眼と唇に対する変換を行ったあとも正しく分類できた画像とその残差画像の一例を上に示している。

課題・展望など

実験条件が分かりづらかったので、知見を深めてからもう一度読み直したい

次に読んでみたい関連論文

Video Summarization by Learning Submodular Mixtures of Objectives

論文情報

著者

Michael Gygli, Helmut Grabner, Luc Van Gool

投稿先

CVPR 2015

論文のリンク

pdf

概要

image

教師あり学習のアプローチで動画の要約を行う手法を提案した論文。3つのobejectiveによる最適化で、複数の特性を持った要約を生成。

論文のポイント

・以前読んできた動画要約の論文に似ているが、動画要約の掟?的なものがこの論文でもほぼ同義で書かれていた。
①要約するために開始と終了のシーンは見逃さないようにしたい
②冗長でないようにすると同時に、元動画の多様性を維持した上で、代表的?である必要がある(ここが直訳だとよくわからなかった)

・学習はヒンジ損失を最小化する形で行われる。[22]で提案された勾配降下法を用いて複雑な部分集合を近似的に学習している。
image
image
・下は学習アルゴリズムが特定の長さの要約にどのように適応されるかを可視化したものである。"interestingness", "representativeness", "uniformity"の3つのobjectiveから成る。
image
image

課題・展望など

スポーツ系の映像への応用

次に読んでみたい関連論文

もうちょい新しい論文読んだ方がいいかも...

Look, Listen and Learn

論文情報

著者

Relja Arandjelovic, Andrew Zisserman

投稿先

論文のリンク

pdf

概要

論文のポイント

課題・展望など

次に読んでみたい関連論文

Time to Shop for Valentine's Day: Shopping Occasions and Sequential Recommendation in E-commerce

論文情報

著者

Jianling Wang, Raphael Louca, Diane Hu, Caitlin Cellier, James Caverlee, Liangjie Hong

投稿先

WSDM 2020

論文のリンク

pdf

概要

image
・季節や流行、ユーザー固有のイベントを考慮して、次に購入しそうな商品を予測する手法を提案した論文。
・(1)ユーザーの好みに対してOccasionを区別するパターンの識別、(2)購買の傾向の把握、(3)ユーザーの好みと様々な場面とのバランス調整、(4)頻発するイベントのモデル化、この4つを課題として取り組んでいる。

論文のポイント

image
・上記の課題を解決するために3つのLayerを設計している。
①誕生日などのユーザー固有のイベントをモデリングしたAttention Layer
②クリスマスなど、多くのユーザーに対して繰り返し発生する季節的なイベントをモデリングしたAttention Layer
③①と②を踏まえ、ユーザーの本質的な好みとのバランスをとるGating Layer

課題・展望など

それぞれのイベントに対して特徴付けと説明の付与のためにcontextの情報を追加する必要がある。

次に読んでみたい関連論文

Towards Automatic Image Understanding and Mining via Social Curation

論文情報

著者

Katsuhiko Ishiguro, Akisato Kimura, Koh Takeuchi

投稿先

IEEE ICDM2012

論文のリンク

pdf

概要

ソーシャルメディアによって配信・やりとりされる画像を分析するために有用な情報源とされているのが、"Social Curation Service"であり、これを使用することでSNS画像を理解し、データマイニングに役立てることができるが、画像の特徴量よりも優秀なcorpaseから得られた特徴量を使用することによって、「画像を見ずに画像の内容を理解する」ことを試みた。
image

論文のポイント

SNSに投稿されたツイートやそれに添付された画像を収集すことで、"Curation List"を独自に作成した。このCuration Listへのアクセス回数が増加すれば画像の表示回数も必然的に増加すると仮定。
使用したデータは以下の3つ。

・Curation Listのタイトルと概要
・ツイートの文章および画像に対するユーザーのコメント
・画像へのハイパーリンクを持つ全てのツイート

これら3つのデータから最終的に6つのテキスト特徴を得て、組み合わせごとに性能比較した。

課題・展望など

・提案したSocial Curation Listから得たテキスト特徴と、画像から得られた特徴との最適な適合手法が存在しない。
・さらに膨大なデータセットや画像検索のタスクの調査が必要
・自然言語処理や音声処理などへの応用

次に読んでみたい関連論文

なし

Rethinking the Evaluation of Video Summaries

論文情報

著者

Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne heikkilä

投稿先

CVPR 2019

論文のリンク

pdf

概要

image
動画要約の評価指標について言及した論文。
従来の手法では、
①人間の主観的な評価が多いため、評価をもとに結果を再構成することが難しい
②どの場面が重要なのかを示す「重要度」の設定が難しい
という2つの課題が存在する。
この内、前者の評価の仕方について問題提起を行っている。

論文のポイント

・動画の中で視覚的に変化が大きい箇所を、動画の切り替わりとして分割する手法はKTS(Kernel Temporal Segmentation)と呼ばれているが、この分割した動画のセグメントの順序をランダムに並び替えたものをRandomized KTSとして提案している。
この結果、他の既存手法と比較しても平均あるいは最大のF1 scoreが大差なかったことを実験結果として示した。
・重要度を図る指標として「予測結果と、アノテーターによる参照結果の相関」から、重要度のランク付けを行う方法を提案した。

課題・展望など

・クラスタリングベースなどアプローチには適していないので、様々な用途に対応させる必要がある。
・より大規模なデータセットが必要

次に読んでみたい関連論文

なし

Understanding Unequal Gender Classification Accuracy from Face Images

論文情報

著者

Vidya Muthukumar, Tejaswini Pedapati, Nalini Ratha, Prasanna Sattigeri, Chai-Wah Wu, Brian Kingsbury, Abhishek Kumar, Samuel Thomas, Aleksandra Mojsilovic, Kush R. Varshney

投稿先

論文のリンク

pdf

概要

人種や性別の違いによって顔画像の分類精度が大きく異なることは以前から指摘されていたが、その根底となる原因は解明されていなかった。
特に黒人女性の分類精度が低く、顔のどの部分が認識や分類の精度に関わってくるかを明らかにしている。

論文のポイント

・本論文で述べられているPPB Datasetは既存データセットと比較して性別の分布のバランスが取れている。
image

・元画像の顔の肌の色を変えて検証したが、大きな影響は見られなかった。
image

・誤分類が多い黒人女性は髪が短い人が多い。→髪を除去して分類しても変わらず、精度に影響はないことが分かった。

課題・展望など

次に読んでみたい関連論文

TensorFlow Estimators: Managing Simplicity vs. Flexibility in High-Lebel Machine Learning Frameworks

論文情報

著者

Heng-Tze Cheng, Zakaria Haque, Lichan Hong, Mustafa Ispir, Clemens Mewald, Illia Polosukhin, Georgios Roumpos, D Sculley, Jamie Smith, David Soergel, Yuan Tang, Philipp Tucker, Martin Wicke, Cassandra Xia, Jianwei Xie

投稿先

KDD 2017

論文のリンク

pdf

概要

機械学習の簡素化のためのフレームワークを提示した論文。実際に研究環境と実運用環境で使用した経験について議論、コードの頑健性や開発スピードについて言及。
image

論文のポイント

課題・展望など

次に読んでみたい関連論文

Diversity in Faces

論文情報

著者

Michele Merler, Nalini Ratha, Rogerio S. Feris, John R. Smith

投稿先

arXiv 2019

論文のリンク

pdf

概要

論文のポイント

課題・展望など

次に読んでみたい関連論文

Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations

論文情報

著者

Tianlu Wang, Jieyu Zhao, Mark Yatskar, Kai-Wei Chang, Vicente Ordonez

投稿先

ICCV 2019

論文のリンク

pdf

概要

vision認識のタスクにおいて、性別などの内在的なバイアスを測定するフレームワークの提案を行った論文。vision系のシステムでは誤った相関を捉えがちで、人物が写った画像の場合、対象となる物や行動のラベルと過度に関連付けることで、社会的なステレオタイプを増幅させる可能性がある。

論文のポイント

・「画像中に●●があると▲▲もある可能性がある」という考え方・概念を"leakage"と論文中で表現している。leakageはmodelとdatasetに分けられる。
・dataset leakage
image
image
全体での精度がaとなるような関数rを用いて摂動することによって、ある性能でのデータセットのleakageと定義している。
・model leakage
image
モデルMの予測値を通じてgiに関する情報をリークするデータセットの割合[%]と定義している。
image
上のように、モデルとデータセットのリークの同じ精度aでの差をモデルpでの増幅度と定義している。

image
image
2つのデータセットで、F1値の減少を極力抑えながらバイアス増幅度の大幅な削減に成功した。

課題・展望など

次に読んでみたい関連論文

Ranking in Heterogeneous Social Media

論文情報

著者

Min-Hsuan Tsai, Charu Aggarwal, Thomas Huang

投稿先

WSDM 2014

論文のリンク

pdf

概要

image

画像検索のランキングを提示するためのフレームワークを提案した論文。提案されたものは、タグやテキストだけでなく、人物と画像間のつながりを示すもの、そして画像特徴を組み合わせるフレームワークである。

論文のポイント

image

・SNSにあげられた画像はその人物と画像をつなぐ重要な情報である。
・ユーザー同士のつながりや関係性を示すものとして、「いいね」を使用
・画像検索とランキング処理の改善を目的とした"Social Rank"を提案

課題・展望など

次に読んでみたい関連論文

しっかりと読み込めていないので、必要があれば読み直すこと。

SlowFast Network for Video Recognition

論文情報

著者

Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming

投稿先

論文のリンク

pdf

概要

論文のポイント

課題・展望など

次に読んでみたい関連論文

Video Summarization with Attention-Based Encoder-Decoder Networks

論文情報

著者

Zhong Ji, Kailin Xiong, Yanwei Pang, Xuelong Li

投稿先

論文のリンク

pdf

概要

教師ありでの動画要約のモデルを2つ提案した論文で、Encoder-Decoderを用いた構造によってTVSumとSumMeの2つのデータセットにて0.8〜3.0%のF値の改善を達成した。

論文のポイント

image
image

・上に提案したモデルの構造を示した。まずEncoderでは動画のフレーム単位でのシーケンスを生成する。次にAttentionベースのDecoderでは、重要度スコアのシーケンスを生成する。
これらとは別に動画から得られた視覚的なシーケンスとDecoderの出力からkeyshotを生成している。
ここで、Encoderでは双方向性のLSTM(BiLSTM)を採用している。LSTMが向いているのは、特定のフレームの周辺での文脈情報が得られるからである。
image

・動画フレームの特徴Vtと隠れ状態のSt-1は対応関係にあり、これの積の取り方でA-AVSとM-AVSの2つに分けて実験を行っている。
image

・結果として既存手法よりも提案した手法A-AVS, M-AVSともに改善。中でもTVSumの方が大きく改善しているが、これはSumMeよりもカテゴリ内の関連性が近いからだと考えられる。

課題・展望など

学習データの不足を解決するために、転移学習やGANのアプローチを用いたデータセットの拡張をしていきたい。

次に読んでみたい関連論文

Video Summarization using Deep Semantic Features

論文情報

著者

Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Naokazu Yokoya

投稿先

ACCV2016

論文のリンク

pdf

概要

image

動画のセグメントとテキストの記述を共通の意味空間にマッピングし、動画の要約を行う論文。
既存手法のベースラインを5つ挙げ、動画ごとに性能の比較を行った。

論文のポイント

・"Contrastive Loss"と呼ばれる、動画とそれに関連する文章のユークリッド距離を近づける(そうでないものは遠ざける)ように設計された損失関数により、特定のラベルを予測するようにトレーニングされた既存手法とは異なり、文章ベースでトレーニングされる。
・意味空間では、動画のセグメントがクラスタごとに分類されており、意味空間の各クラスタの中心に対応する動画のセグメントをサンプリングすることによって、動画の要約を生成している。

課題・展望など

・一定長のセグメントを抽出する場合、元動画が短いとf-measureスコアが低くなってしまう。([12], [19]で解決可能?)
・重要でないシーンも意味空間内にクラスタを形成するため、この論文のように各クラスタから代表してセグメントを抽出すると、重要でない部分が長く続いてしまい、要約内容が不十分になってしまう恐れがある。

次に読んでみたい関連論文

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.