音视频经典论文解读–背景

为什么要读经典论文？

在音视频领域，有大量的论文冒出来，如果你想每一篇都跟进，显然不现实。但是对一些经典论文，必须做到了熟于胸，能看懂、能实现，能深刻了解背后的思想。但是这些经典论文读起来，并不那么轻松，因为里面对很多专业背景一略而过，对于很多新手来说，大部分内容都让人看不懂。

原因很简单，很多论文在撰写之初，并不是为初学者而写的，对读者的学科背景与知识作了大量的假设，再加上语言障碍（大量科技文献都是用英文写就的，并且也未必是纯正的英语，夹杂大量的专业词汇），想真正读懂并不容易。其次，在阅读中遇到困难的时候，我们不知道应该从哪里、向谁寻求帮助，虽然有 Google 大法，可是 Google 出来的东西依然是碎片化严重。沈向洋博士就总结过，读论文为什么这么难[1]：

首先，大多数科研论文本身写的不是特别好，大多数作者的母语并不是英语，而英语又是学术界的官方语言，所以一些作者在论文语言把控上欠缺火候。……文章写得不好只是一个客观原因，论文难读的第二个原因，是读论文时读者需要对论文主题有很深的背景知识储备。第三个原因是在阅读中遇到困难的时候，我们不知道应该从哪里、向谁寻求帮助。第四个原因是读完论文以后，如果我想继续深挖这个主题或者探索研究方向，除了去问导师以外，还可以向谁寻求意见呢？第五个原因，是当今世界有太多的诱惑和干扰，不像我们以前“两耳不闻窗外事、一心只读圣贤书”，在这个有互联网的世界里，长时间专注是一件很困难的事情。

这五个原因，都会引起所有读者的共鸣，内心有一万匹马奔腾而过：“说得真……（此次省略三个字）的太对了！”。

可是，不管有多困难，只有把基础的理论打扎实，把基础的论文读透，后续碰到这些领域新的论文，读起来才能势如破竹、税不可挡，写起作业来才能高屋建瓴、得心应手！

应该选哪些论文仔细读呢？

我们可以试问一下自己：音视频领域的论文，有多少是我们自己真正读懂了的呢？

我在一次偶尔读过《图灵的秘密》[2]一书之后，对该书作者 Petzold 的写作方式，惊为天人，就应该像他一样把经典论文嚼碎了给大家理解。为了让大家能读懂图灵五十年前的论文，作者仔细地介绍了图灵的生平、学科背景、相关的数学知识，从而自然而然地对图灵论文进行了介绍。图灵有关可计算性的论文经常被大家挂在嘴边，图灵对计算机科学的贡献也经常被大家挂在嘴边，图灵的这篇著名论文也经常被大家拿来证明某某观点，可是论文的原文有谁真正读过呢？Petzold 这种一究本源的态度，的确值得所有人学习。

受此启发，我冒出一个想法，把一些经典的音视频相关论文，挑一些我感兴趣，并且觉得在某一领域具体开创性或是终结性的论文，仔细拆解开来，帮助初学者理解，也帮助我自己好好读一遍。除了介绍技术性细节以外，还尽可能介绍一下作者、学科的相关历史知识，权当加点趣味性与八卦性。

论文的挑选原则，就是挑某一个领域最重要的论文。而最重要的论文的标准是什么呢？微软亚洲研究院计算视觉组负责人华刚博士说过[3]： >沈向洋博士2001年在西安交大做报告提到的一个观点：最好的研究员发现新问题；好的研究员创造新方法解好问题；一般的研究员跟随别人的方法解问题——大家在多次这里看到“新”这个关键词，创新是研究的本质。 > > 有了这些铺垫，我们首先定义什么是最好的研究。通常认为一个领域中对于某一个问题最好的研究工作有三种：第一篇论文 (The First Paper)，最好的一篇论文 (The Best Paper)，以及最后一篇论文(The Last Paper)。这第一篇论文的含义是说这篇论文率先提出了一个好的问题和方向。最好的一篇论文是什么？那一定是开创性地提出了一种解法，启发了最终解决这个问题的途径。至于最后一篇论文，那一定是彻底把这个问题解决了，从此以后这个问题不再需要继续做进一步的研究。

基于这个标准，我就挑音视频的一些细分领域里的第一篇论文、最好的一篇论文或是最后一篇论文，仔细分析给大家听，尤其是把背后的知识背景介绍清楚，适合零基础的技术人员来理解，起码可以按照我的介绍，知道应该找哪些文献来读，轻松、舒服地把该领域的内容给学会。

最后说一下，读懂一篇论文的最好方法，就是把它提到的方法实现一遍。动手在科学技术领域里，永远是最佳学习方法。你认为自己读懂以后，最好做一个书面或口头展示，并且用代码实现一遍。这样你会发现，只有能把东西写清楚或者说明白才算是真正深刻理解到位，而只有把东西用代码实现出来才是真正对细节了如指掌。

可以讨论哪些主题呢？

我初步想好的主题会是这些：

图像特征点
信息熵理论
音视频质量技术，如SSIM、VMAF等
图像/视频前后景分离
音频VAD算法
音频效果器算法

如果你有感兴趣的主题，也可以回复本文章，我会对大家感兴趣的主题进行收集，等我有空我就写出来，也当是给我自己一个学习的机会。

参考文献

[1]

沈向洋 and 华刚, “沈向洋、华刚：读科研论文的三个层次、四个阶段与十个问题,” 知乎专栏. Jul. 2020. Accessed: Jan. 10, 2022. [Online]. Available: https://zhuanlan.zhihu.com/p/163227375

[2]

C. Petzold, 图灵的秘密: 他的生平, 思想及论文解读. 北京: 人民邮电出版社, 2012.

[3]

华刚, “如何做好计算机视觉的研究？.” Accessed: Jan. 10, 2022. [Online]. Available: https://www.msra.cn/zh-cn/news/features/do-research-in-computer-vision-20161205