对神经网络某一层做了小改进，效果却提升显著，可以发论文吗？

2024-07-14 08:30| 来源: 网络整理| 查看: 265

链接：https://www.zhihu.com/question/426235983

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

如果是这样，工作量是不是太少了？你怎么看

作者：心照璧https://www.zhihu.com/question/426235983/answer/1535074659

先排除把test集train了的滑稽情况，那么接下来就是讲故事。故事讲得好不好和你改进大不大其实没有特别必然的关系，可能映射到代码里就几行。

故事的核心是一个具体的技术问题，它被用来justify整篇文章的工作。只要有了好的问题和合理有效的解决方案，具体技术改进小、方法简单、甚至把别的领域中的现成方法搬过来（比如AssembleNet把遗传算法搬来神经架构搜索也没人说不好）都可以被视为大道至简，反而方法复杂问题trivial很可能成为负面典型。

有了问题之后，接下来引言和方法就是你的方法怎样解决了这个技术问题。实验部分循常规做消融实验、和SOTA对比、多数据集等，但这些只是飙指标的一部分，还不足以有最好的说服力，因为道理还没讲透。

作为0202年的锅炉工，读/审文章最烦的就是玄学伪问题+无针对性的full package方法，这些论文哪怕在接受的论文中都偏偏占了大头。怎么把自家孩子和这些论文区分开呢？问题justify方法是最基本的；问题本身也需要被justify。引言空间有限，你在Discussion中反而有充分的空间来做这件事。好的讨论可以大幅度增加工作的可信性，尤其是证明所提出的问题是真问题，所提出的方法是针对性方法。在讨论中，可以添加更加有说服力的实验，证明你提的这个技术问题是存在的，并证明它确实对现存方法造成了影响，而你的方法能够针对性解决，从而突出你的方法带来的重要意义。

证明方式包括：

（1）做Case study，但它可以selective，所以说服力是最弱的，适合放在开头给一个直观印象；

（2）做夸大实验，在实验中设计机制放大这个技术问题，证明你的方法效果不受夸大实验的影响，而现存工作受影响比较明显；比如向标签中添加更多随机噪声，证明你的方法之所以在常规实验中指标比SOTA高是因为抗噪能力强。

（3）做反向实验，证明用你的方法做和原本意图相反的事情，会造成最严重的破坏。比如用你所提出的Active Learning方法选择简单样本而非困难样本，此时效果比别的Active Learning效果差，证明你的选择策略更加高级。

这些讨论做完以后如果你的故事还能自圆其说（大部分论文都不能，所以如果你能做完应该会很有信心），那审稿人基本上就无话可喷只有accept，读者也不仅拜服而且能真正学得点好处。

作者：石在https://www.zhihu.com/question/426235983/answer/1532558451

假设楼主这个小改进对效果的提升是真实的，并不是由于错误的实现/测试导致的，那么能不能发论文最关键在于:

这个小改进的原创性如何，有没有人已经做过？

这个小改进对效果的提升有多明显，是微弱的提升还是直接能超过SOTA不少？

这个小改进能应用到多大的范围内，是只能在这一个数据集/这一个模型上使用，还是能广泛应用到很多不同的任务上？

如果上面的如果上面的回答有一个是负面的，那么小改进可能确实很难发一篇高质量论文。但是要是都是正面的，虽然idea简单，并不影响贡献的大小。

比如像batch norm，layer norm各种归一层，adam，rmsprop之类的优化器，relu，gelu等激活函数，都是小改进的正面案例。

作者：大黄鸭 https://www.zhihu.com/question/426235983/answer/1530551533

我觉得最主要的不是改进大小的问题，如果你的改进很小，但是你的insight很好并且提升显著，这才是最牛逼的论文，毕竟大道至简。

作者：夜星辰https://www.zhihu.com/question/426235983/answer/1535466699

我想起来我之前问我老师一个事，我发现对方论文有一层没加激活函数，我加了激活函数效果变好了能不能发论文？（现在看来这是什么憨批问题）

然后自然是被语重心长的教导，希望你多看论文，你看别人是怎么在论文中写贡献的，或者novelty的，看个10来篇，你就知道什么是技术的改进了。

所以你懂的，下一件事是去下载十几篇相关领域论文，然后读一下。

作者：雍宏巍 https://www.zhihu.com/question/426235983/answer/1536573428

如果小的改进真的提升很明显，而且在很多网络下都是有提升的，那就好考虑背后的原理到底是什么了。改进不在大小，简单且work的方法，背后还能找到深层次的理解，同时这些理解可以帮助我们外延我们的方法，那么这就是一个好的工作。

作者：大白杨https://www.zhihu.com/question/426235983/answer/1539942945

当然可以了，比如把原始resnet的relu从两支输出的相加之后移到相加之前，这个改动够小了吧，提高也够明显吧？难道没发顶会？

关键故事讲清楚，然后确定你的改动是通用的（也就是对多数benchmark都work），这两点保证之后多做一些ablation，我认为就差不多了。

作者：白夜不大行https://www.zhihu.com/question/426235983/answer/1535269835

我不是题主这个方向的，但是对于小改进效果提升显著这个问题，我有些自己的看法。

我们有的时候过于中二了，常常认为自己发现了别人没有发现的点子，然后幻想着自己取得了巨大的科研发现，从此发paper，成为学术大牛，走上人生巅峰。

但是，经过这几年读研的学习，我发现事情不是这样的。大家脑子都不笨，凭什么只有我能发现这一个小细节呢？经过时间的证明，凡事出现上述情况的，要么是我自己的实验方法或者论证方法是错误的，要么就是这一细节其实早已被发现，但是我文献阅读量不足，没有意识到这一点。

所以，搞科研，还是必须要一步一个脚印，实事求是的好。

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 mthler」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓

【本文地址】

公司简介

联系我们