0x01 论文审稿
好文章的基本要求是什么
- 写得好:重点鲜明、用词精准、不然看不懂
- 结构好,文章整体的逻辑自洽、观点鲜明、研究问题有价值等
- 任务背景:奠定文章基调和研究范围,明确研究对象 (What is its research scope)
- 研究问题:深入分析并阐明问题是什么、诱发原因,以及问题的价值,辅以引文或统计数据为支撑 (What is the problem and why it important)
- 研究现状:全面总结现有研究及其不足和不足的原因,辅以引文或统计数据为支撑。(How well it can be solved and Why it is challenging)
- 解决方法:不局限于创新性的新方法,旧法新用也OK,关键需要指明用什么方式解决哪个问题 (How you solve)
- 实验设计:整体实验需要保证实验设置的合理性和正确性。AI大类中的文章是以实验为导向,以实验来验证猜测,所以实验设置的合理性和正确性是关键,需要对本文的所有研究问题和Claim进行实验验证 (Making sure every problem/claim is well-supported. Variable-controlling is the KEY)。建议:不满足合理性和正确性的实验设置一定Reject。
- 实验结果:并不是只有SOTA才是好文章,实验结果不好也可以是好文章。关键是要分析实验结果的原因、带来有价值的结论。要注意的是,实验任然需要照应本文的研究问题 (Writing is cheap, show me your exp.)
- 总结好:不仅仅conclusion章节,在文章的每一处conclusion、claim等地方都需要保证不进行夸大(Over-claim),用词严谨,每一处conclusion、claim等地方都需要有实验或citation的支撑。
- 有价值的contribution:在文章contribution能通过实验进行充分论证的前提下,一篇好文章需要对该领域的后续研究,提供有价值的contribution,这些contribution应该独创的、通用性较好的、可复现的、不over-claim的
- 拒绝抄袭,拒绝学术不端的行为。审稿的时候,要简单检索下本文题目和本文相关领域,核验本文是否抄袭,是否一稿多投,是否不满足匿名要求,是否有相似文章或者更好的文章,但本文没有引用、分析和对比的情况等等。如果本文有提供代码,务必检查实验设置。
- 合理性:是针对本文的研究问题和解决方法而言的,不同文章的具体要求项目不一样,比如baseline选择,metric选择,implementation合理、research question设置、dataset选择等等都需要仔细斟酌。
- 正确性:是针对所有论文都应该满足,比如模型训练细节(比如那些训练模型没用validation set的不合格论文应该被减分),超参分析(尤其是对超参多的算法,必须有超参分析),实验结果的有效性(尽量汇报多次实验的均值和方差,至少有3个测试数据集),这些用于验证该算法真的有效,而不是在单一数据集上过拟合。更多的建议可以看下图。
好文章的加分项
- Idea创新,解决了通用性强、紧迫性强的科学问题
- Method创新,通用性强
- 提供理论证明其有效性,比如什么情况下,对什么有效,效果上限下限是什么;算法稳定性、收敛性等
- 代码开源、模型开源、方法可复现
- and so on
审稿意见写作要点,排名不分先后
原则 | 说明 | 案例 |
---|---|---|
表达精炼、准确 | 观点清晰,表述准确,让别人能理解到自己 | Authors solve the Problem. 含有肯定的语气;Authors try to solve the Problem. 含有失败的语气,只是尝试去解决,可能没成功;The data set proposed in this paper has a practical significance, and can solve the existing data shortage, the lack of availability of dialogue system and other requirements. (自己写得over-claim) |
表述逻辑 | 英文写作重点在前,讲究主从有别,即主前从后,先果后因 ,用主词的关联建立起Topic。 | As for datasets in transport domain, the existing datasets are insufficient for NLP task, as they are monolingual in nature and support single language. Towards the data insufficience, authors propose a XXX. (主词关联) |
三次角色(作者、评审人、作者) | 1. 以作者的视角读文章,理解论文;2. 以评审人的视角写观点,称述自己;3. 以作者视角读评审,通过反驳评审意见的方式,让评审意见更难以反驳 | Does this reduce the availability of the conversational system? Authors should try to argue that this practice does not have a significant impact. (容易反驳) |
有理有据 | 论文评审一定要有理有据,清楚作者Claim了什么,对文章的话进行反驳 | However, in my opinion, these defects are too minor to affect the overall quality of the dataset. (需要给出evidence) |
建议の写法:
- Summary:
- 总结这篇论文的Task,Problem,How to Formalize,以及Conclusion。
- 写出你的审稿意见,以及得出这个意见的最重要因素(比如,文章要拒,说出为什么不好;要收,说出好在哪里;拿不准的话,表达清楚你的困惑)
- Strong Points
- 总结论文的contribution,但不要原文抄袭。锻炼总结能力
- Weak Points
- 问题最严重的点写在最前
- 说缺点一定要一语中的,让作者心服口服(参考表格中三次角色部分)
- Suggestions(可选)
- 针对论文的不足,给出可行的建议
0x02 论文写作
Main Principles
个人觉得,研究的核心是从问题到结论,写作的核心是从结论到问题。因此,一个最标准的写作准则(当然有更高阶的论文架构啦)是:
- 前期准备
- 列出自己的结论/Contributions
- 根据结论/Contributions,反推出它们涉及的研究背景和研究问题。这里的背景和问题不能太泛,多余的信息会给读者带来理解成本(甚至产生误会)
- Introduction
- 第一段:写你总结好的研究背景,要能引出研究问题
- 第二段:写你总结好的研究问题。现有方法,问题是什么,为什么会有这个问题(这里是紧密围绕你的方法的key idea来写),不解决这个问题会怎么样
- 第三段:你怎么做。你方法的概述(怎么做来实现什么),进一步分点概述你方法的核心(讲述的顺序要和第二段里说的问题一一对应),最后拔高你的方法的价值
- 第四段:怎么验证的。概述你的实验设置,取得什么结果(只说核心结果)
- 相关工作
- 解释为什么要survey这几个topic
- 每个相关工作的topic的最后,要argue与你工作的差异
- 如果你与相关工作的区别不是那么明显,或者有明显区别但是不容易几句话论述清楚,那可以把相关工作放到总结章节的前面
- 你的实验里不可能对比完世界上所有的baseline,这就需要相关工作章节了,你要说明你和这几类的方法都不一样,所以,不能在这个章节罗列方法,要summarize
- 你的方法
- 每个section要和introduction中对你的方法核心模块介绍的顺序一一对应
- 解释你的方法/模块怎么解决问题的
- 你的实验
- 实验设置的合理性一定要在baseline,dataset,metric的地方反复强调
- 要写RQ,并且RQ的顺序和introduction里的问题顺序对应。
- 每个section一定要总分结构。第一段要写出本实验用来干啥,得到了什么结论。其他段落分开讨论
- 进一步讨论(可选)
- 用来讨论你的limitation,避免被审稿人发现,但自己失去了解释机会
- 总结、Abstract
- 这两个不是写类似的东西
- Abstract是全文的index,它可以是写得没有上下文(可能只看它会让人看不懂)。The abstract is indexed so you need to make your contributions come out within the 1st sentence
- 总结要写的更拔高一些,第一段强调针对什么问题,取得了什么效果。第二段拔高,你的方法有什么更高的价值,对这个研究community有什么帮助。但是不能吹的过大!
执行方案
If your introduction isn’t electively conveying the following points, consider revising it signilicantly, Re-evaluate theogic of your introduction and reorganize it for greater clarity.
General Method
- Entity Identification: Begin by identifying all entities in your introduction
- Tree Structure: Organize these entities in a hierarchical tree structure, clarifying parent nodes
- Core Entity Focus: Identify your core entities (the main concepts you are exploring).
- Pruning and Refining:
- Core Entity Count: Aim for a maximum of 2-3 core entities to avoid overwhelming the reader
- Distance from Root: Keep the distance from the root of the tree to your core entities as short as possible(ideally within two “hops”) for clarity.
- Smooth Transitions: Ensure that the connections between entities in the introduction flow logically andsmoothly. (This might involve using transitional phrases and maintaining a clear narrative structure. juslearn the English Writing on bilibili)
- Introduction Order: The order in which you introduce entities in the introduction should mirror thestructure of your tree.
Customized Methods for Research Problems
- Background and Scope: Clearly explain the research background and the specifc tasks you are addressingClarify your research scope.
- Method Review and Question: Conduct a thorough review of existing methods. Identify your researchquestion and how it relates to those existing methods. Ensure your core entities are directly related to theresearch question.
- Method Explanation and Problem-Solving: Apart from the detailed introduction of your method, presenits key idea in one concise sentence and show how it addresses the research problem.
- Experimental Focus: In the experimental section, emphasize the findings of your research. Do not overlyemphasize that your method is SOTA, which is less interesting.
Tips
- 两个关键字Articulate和 Propose。表达态度要诚恳,Propose即是提出方法(propose a method),也是求婚(propose to sb.),没有人有义务去费尽心思的思考你的论文究竟要表述什么,审稿人只负责“看着你,说Yes或者No”,不是上下大量想象你和你论文的价值。
- 两个关键字Precise 和 Defensible。表述是严谨的,精准的,一个字不多,一个字不少。要做到滴水不漏,预判别人的理解难点,不给别人反驳自己的机会。
- 一个关键字Strict Logic。行文逻辑要前后呼应,承上启下,切记呼应的距离too far;不overclaim,每个claim都要有solid evidence
- General to Specific 或者 Specific to General?
- G-S:当人们理解S比较费力的时候,通过G过渡一下,层层进行
- S-G:先说具体的小事,当人家理解之后,G来推广,一般用于提取/重述重点
- 一个关键词Level of details。写introduction的时候,要弄清楚什么该说,什么不该在intro里说。过于细节的事不说
- 两个关键词persuasive和impressive。论文写作的阴暗面,它不是在称述实事,是让人接受你的观点。
- 行文逻辑要满足好论文的基本要求(见上)
- 合理利用每个section的开头。除非放不下了,一般不建议有empty head。每个section的开头可以用来承上启下,建立本章节与全文的联系是什么
- 突显工作量:1)题目、章节题目等都很重要,要用来突出你工作的中心。比如关键词可以反复出现;2)跨章节的重点对应。intro,方法,实验等章节中的论述顺序要完全一致;3)一个段落最好是总分总或总分结构的,重点突出。
- 八股句式:是什么、怎么做、有什么好处/坏处