音视频经典论文解读–背景
为什么要读经典论文?
在音视频领域,有大量的论文冒出来,如果你想每一篇都跟进,显然不现实。但是对一些经典论文,必须做到了熟于胸,能看懂、能实现,能深刻了解背后的思想。但是这些经典论文读起来,并不那么轻松,因为里面对很多专业背景一略而过,对于很多新手来说,大部分内容都让人看不懂。
原因很简单,很多论文在撰写之初,并不是为初学者而写的,对读者的学科背景与知识作了大量的假设,再加上语言障碍(大量科技文献都是用英文写就的,并且也未必是纯正的英语,夹杂大量的专业词汇),想真正读懂并不容易。其次,在阅读中遇到困难的时候,我们不知道应该从哪里、向谁寻求帮助,虽然有 Google 大法,可是 Google 出来的东西依然是碎片化严重。沈向洋博士就总结过,读论文为什么这么难[1]:
首先,大多数科研论文本身写的不是特别好,大多数作者的母语并不是英语,而英语又是学术界的官方语言,所以一些作者在论文语言把控上欠缺火候。……文章写得不好只是一个客观原因,论文难读的第二个原因,是读论文时读者需要对论文主题有很深的背景知识储备。第三个原因是在阅读中遇到困难的时候,我们不知道应该从哪里、向谁寻求帮助。第四个原因是读完论文以后,如果我想继续深挖这个主题或者探索研究方向,除了去问导师以外,还可以向谁寻求意见呢?第五个原因,是当今世界有太多的诱惑和干扰,不像我们以前“两耳不闻窗外事、一心只读圣贤书”,在这个有互联网的世界里,长时间专注是一件很困难的事情。
这五个原因,都会引起所有读者的共鸣,内心有一万匹马奔腾而过:“说得真……(此次省略三个字)的太对了!”。
可是,不管有多困难,只有把基础的理论打扎实,把基础的论文读透,后续碰到这些领域新的论文,读起来才能势如破竹、税不可挡,写起作业来才能高屋建瓴、得心应手!
应该选哪些论文仔细读呢?
我们可以试问一下自己:音视频领域的论文,有多少是我们自己真正读懂了的呢?
我在一次偶尔读过《图灵的秘密》[2]一书之后,对该书作者 Petzold 的写作方式,惊为天人,就应该像他一样把经典论文嚼碎了给大家理解。为了让大家能读懂图灵五十年前的论文,作者仔细地介绍了图灵的生平、学科背景、相关的数学知识,从而自然而然地对图灵论文进行了介绍。图灵有关可计算性的论文经常被大家挂在嘴边,图灵对计算机科学的贡献也经常被大家挂在嘴边,图灵的这篇著名论文也经常被大家拿来证明某某观点,可是论文的原文有谁真正读过呢?Petzold 这种一究本源的态度,的确值得所有人学习。
受此启发,我冒出一个想法,把一些经典的音视频相关论文,挑一些我感兴趣,并且觉得在某一领域具体开创性或是终结性的论文,仔细拆解开来,帮助初学者理解,也帮助我自己好好读一遍。除了介绍技术性细节以外,还尽可能介绍一下作者、学科的相关历史知识,权当加点趣味性与八卦性。
论文的挑选原则,就是挑某一个领域最重要的论文。而最重要的论文的标准是什么呢?微软亚洲研究院计算视觉组负责人华刚博士说过[3]: >沈向洋博士2001年在西安交大做报告提到的一个观点:最好的研究员发现新问题;好的研究员创造新方法解好问题;一般的研究员跟随别人的方法解问题——大家在多次这里看到“新”这个关键词,创新是研究的本质。 > > 有了这些铺垫,我们首先定义什么是最好的研究。通常认为一个领域中对于某一个问题最好的研究工作有三种:第一篇论文 (The First Paper),最好的一篇论文 (The Best Paper),以及最后一篇论文(The Last Paper)。这第一篇论文的含义是说这篇论文率先提出了一个好的问题和方向。最好的一篇论文是什么?那一定是开创性地提出了一种解法,启发了最终解决这个问题的途径。至于最后一篇论文,那一定是彻底把这个问题解决了,从此以后这个问题不再需要继续做进一步的研究。
基于这个标准,我就挑音视频的一些细分领域里的第一篇论文、最好的一篇论文或是最后一篇论文,仔细分析给大家听,尤其是把背后的知识背景介绍清楚,适合零基础的技术人员来理解,起码可以按照我的介绍,知道应该找哪些文献来读,轻松、舒服地把该领域的内容给学会。
最后说一下,读懂一篇论文的最好方法,就是把它提到的方法实现一遍。动手在科学技术领域里,永远是最佳学习方法。你认为自己读懂以后,最好做一个书面或口头展示,并且用代码实现一遍。这样你会发现,只有能把东西写清楚或者说明白才算是真正深刻理解到位,而只有把东西用代码实现出来才是真正对细节了如指掌。
可以讨论哪些主题呢?
我初步想好的主题会是这些:
- 图像特征点
- 信息熵理论
- 音视频质量技术,如SSIM、VMAF等
- 图像/视频前后景分离
- 音频VAD算法
- 音频效果器算法
如果你有感兴趣的主题,也可以回复本文章,我会对大家感兴趣的主题进行收集,等我有空我就写出来,也当是给我自己一个学习的机会。