Comments (6)
em..整个是根据你的通道数和分辨率设定的,因为在您的实验里开启了MHSA后,可学习的位置编码是相对固定的维度,导致了tensor维度会错,两种解决方式:一种参考我添加的swin,自己手动调整;其次是在函数里写成动态更新分辨率,因为出了swin和我手头项目太多就搁置了优化 看时间我后会更新这个问题;目前的代码里是默认取消了,因为多头注意力机制在深层的使用是为了降低计算量,且那个位置的编码信息可能对模型的影响不大了
from yolo_research.
from yolo_research.
非常感谢您的解答,我尝试一下您说的方案。关于位置编码我看很多论文加上位置编码检测效果往往会更好,所以想看看跑跑看看。
…
------------------ 原始邮件 ------------------ 发件人: "positive666/yolov5" @.>; 发送时间: 2022年3月10日(星期四) 下午3:52 @.>; @.@.>; 主题: Re: [positive666/yolov5] 您好,请问下mhsa使用位置编码,调试显示content和position维度相同,但运行会报维度不匹配的问题是什么原因呢 (Issue #4) em..整个是根据你的通道数设定的,因为在您的实验里开启了MHSA后,可学习的位置编码是相对固定的维度,导致了tensor维度会错,两种解决方式:一种参考我添加的swin,自己手动调整;其次是在函数里写成动态更新分辨率,因为出了swin和我手头项目太多就搁置了优化 看时间我后会更新这个问题;目前的代码里是默认取消了,因为多头注意力机制在深层的使用是为了降低计算量,且那个位置的编码信息可能对模型的影响不大了 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.***>
这个不好说,因为你提的这个思路 我去年就是这么想的 但是后来我想了下,在模型深层的Positon embeds 也许没有那么重要 我认为混合的形式其实本质上意义不大, 浅层的CNN也许可以做的很好了 如果不用swin的话 那么sA也只能作为深层用了 因为SWIN设计也只是仿照CNN的层次化 对于featuremap核心还是sA的作用和positon emebeds,但是这个是特殊情况,所以深层我认为没有必要,理论上应该推翻,直接一个全transformer的backbone才有挑战 类似和swin一样。 swinv2的位置编码方式也是从新把1.0的推翻了
from yolo_research.
from yolo_research.
嗯您分析的很有道理,不过位置编码这块的解释性还是挺弱的,还是要在一些通用型数据集上验证一下。直觉上我觉得深层学到的这些语义之间的相对关系对网络还是很有帮助的,比如BOTNet和CotNet这两篇论文在检测任务上的实验
…
------------------ 原始邮件 ------------------ 发件人: "positive666/yolov5" @.>; 发送时间: 2022年3月10日(星期四) 下午5:47 @.>; @.@.>; 主题: Re: [positive666/yolov5] 您好,请问下mhsa使用位置编码,调试显示content和position维度相同,但运行会报维度不匹配的问题是什么原因呢 (Issue #4) 非常感谢您的解答,我尝试一下您说的方案。关于位置编码我看很多论文加上位置编码检测效果往往会更好,所以想看看跑跑看看。 … ------------------ 原始邮件 ------------------ 发件人: "positive666/yolov5" @.>; 发送时间: 2022年3月10日(星期四) 下午3:52 @.>; @.@.>; 主题: Re: [positive666/yolov5] 您好,请问下mhsa使用位置编码,调试显示content和position维度相同,但运行会报维度不匹配的问题是什么原因呢 (Issue #4) em..整个是根据你的通道数设定的,因为在您的实验里开启了MHSA后,可学习的位置编码是相对固定的维度,导致了tensor维度会错,两种解决方式:一种参考我添加的swin,自己手动调整;其次是在函数里写成动态更新分辨率,因为出了swin和我手头项目太多就搁置了优化 看时间我后会更新这个问题;目前的代码里是默认取消了,因为多头注意力机制在深层的使用是为了降低计算量,且那个位置的编码信息可能对模型的影响不大了 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.> 这个不好说,因为你提的这个思路 我去年就是这么想的 但是后来我想了下,在模型深层的Positon embeds 也许没有那么重要 我认为混合的形式其实本质上意义不大, 浅层的CNN也许可以做的很好了 如果不用swin的话 那么sA也只能作为深层用了 因为SWIN设计也只是仿照CNN的层次化 对于featuremap核心还是sA的作用和positon emebeds,但是这个是特殊情况,所以深层我认为没有必要,理论上应该推翻,直接一个全transformer的backbone才有挑战 类似和swin一样。 swinv2的位置编码方式也是从新把1.0的推翻了 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.>
em.这个结论我也是参考别人的,忘记了是参考哪个文章的实验了,不过现在还是CNN主流 swin也好 GFLOPs还是大了点( 目前使用角度的话 就是作为插件层自己设计使用的话是最好训练最容易出成果的 ) 理论上都强调自注意力层的长距离依赖 还有就是其实你想提高模型特征提取的性能 可以多做shortcut和残差的设计 就现在设计要考虑实用性角度:有效且同时减小Gflops
from yolo_research.
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.
from yolo_research.
Related Issues (20)
- 怎样修改v8的数据加载 HOT 1
- 怎样将yolov8的检测头和损失函数融合到yolov5的源码中 HOT 1
- AttributeError: 'LoadStreams' object has no attribute 'auto' HOT 1
- 有關分割部分 HOT 2
- yolov7-pose训练回归关键点只有15个 HOT 5
- involution HOT 2
- train yolov5_SwinV2.yaml HOT 2
- 你好,请问你的数据集真能跑通吗?同样的YOLOV5s,我用一模一样的数据集跑甚至无法收敛 HOT 4
- 語意分割跟物件偵測是否可能同時顯示出來? HOT 10
- pose/cfg/yolov7-w6-pose.yaml 这个文件在哪 HOT 2
- YOLOv7训练问题 HOT 6
- 请问yolov8的代码和文章近期会更新吗 HOT 2
- 为什么采用yolov5-p6.yaml的修改版本训练不起来?(mAP50才0.00095) HOT 4
- backbone中C3替换为C3TR报错,TypeError: empty(): argument 'size' must be tuple of ints, but found element of type float at pos 2 HOT 1
- 在YOLOv5中如何得到模型的推理时间(或者说FPS)? HOT 4
- AttributeError: 'V8_Detect' object has no attribute 'na' HOT 2
- v8的训练似乎无法加载预训练权重 HOT 2
- Good attempt, fw of the modified code doesn't work a t all.....; HOT 2
- 123 HOT 1
- yolov8s-seg 热力图 HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from yolo_research.