The author said this is not a plagiarization

halala Wed Apr 17, 2013 5:47 pm

Paper [1] is listed in the reference list of paper [1].
However, it is never mentioned in the paper [2]. How can they do that with \(Latex\)? (In fact, there is a small trick , see https://fuckit.longluntan.com/t30-how-to-add-a-not-cited-paper-to-the-reference-list-in-latex#34 pig

)
And the experimental results is believed to be intentinally made comparable with paper [1].

Some of the authors of paper[1] and paper[2] are said to be very famous in their area.

[1] “User Browsing Models: Relevance versus Examination”, KDD 2010
http://users.cis.fiu.edu/~lzhen001/activities/KDD_USB_key_2010/docs/p223.pdf
Ramakrishnan Srikant Sugato Basu Ni Wang Daryl Pregibon
Google Research
{srikant, sugato, niwang, daryl}@google.com

[2] "Characterizing Search Intent Diversity into Click Models", WWW 2011
Characterizing Search Intent Diversity into Click Models
Botao Hu1;2, Yuchen Zhang1;2, Weizhu Chen2;3, Gang Wang2, Qiang Yang3
Institute for Interdisciplinary Information Sciences, Tsinghua University, China1
Microsoft Research Asia, Beijing, China2
Hong Kong University of Science and Technology, Hong Kong3
{botao.a.hu, zhangyuc}@gmail.com, {wzchen,gawa}@microsoft.com,{wzchen,qyang}@cse.ust.hk
http://research.microsoft.com/pubs/145119/www2011.pdf

One of the co-author of paper [2] said:

感谢各位的关注，关于写作方法是否存在问题这一点，这里先暂且不论。我同意应该在正文中提及[1]，但由于论文已发，我个人不倾向修改。但不排除在协商的前提下修改的可能性。

有一点说明的是，虽然[1]和[2]二者有某种程度上的相似性，[2]中的方法并非依附于[1]的改进。具体来说,[1]认为在一个网页里，每个链接被点击的概率正比于由其他链接被点击的次数所决定的一个系数。而在我们的模型中，我们认为每个网页都有一个独立的搜索需求变量，它以一种图模型的方式影响网页上的全部点击。诚然，这个模型使得链接之间的点击存在正相关，从而产生类似于[1]的效果。但由于二者从概念上的本质区别，它们的功能也有很大区别：

1. [2]中链接之间的互相影响并不像[1]那样简单地决定于其他链接的点击次数，还受到用户浏览次序、其他链接质量等其他因素的影响。

2. [1]只是给出了点击概率的一种特定表述形式。而我们的模型具有很强的一般性。它并不是定义了一个具体的点击概率，而是给出了一个框架，可以与前人提出的绝大多数用户浏览模型嵌套使用，从而构造更合理的模型。而我们的训练算法也是针对这种一般性设计的。[2]的第4.4节介绍了与UBM模型的嵌套，第5节的实验部分我们分别测试了与UBM和DBN模型嵌套后的效果。

3. [1]的模型只能用于推测Log上链接的质量，而[2]的模型除了这个功能之外，还可以用于预测未来搜索页面上各个链接的点击率（4.3.2节）。从应用角度[2]具有[1]没有的功能。

:概括来说，[1]介绍了一种使点击存在正相关的建模方法，这是一个有意义的成果。而[2]从另一个角度提出了一个不同的建模框架，具有严格的数学解释、可用于提高任意已知模型的合理性、可以预测未来点击、并存在通用的训练方法。点击之间的正相关效果，只是[2]的副产品之一，并不能仅仅由于这一点相似性，就说[2]是一个基于[1]的增量式工作。

以上观点都可以通过仔细阅读论文[1]和[2]得到证实。

Another of the co-author says that the mode in paper[1] is WRONG! :

我是[2]的coauthor之一。

[1]的论文模型基本就是错的，怎么仅仅是瑕疵呢。
你看公式(10), 条件概率形成了闭环，就不是标准的bayesian network。
具体来说当只有两个C事件的时候，(10)定义了这么一个东西：
Pr(C_1 | C_2) = something.
Pr(C_2 | C_1) = something.

这根本不是bayesian network（要求是个有向无环图），你看他的定义互相depend啊。
所以这个joint概率空间，没有normalization的话，加起来根本不是1。

如果非要这么定义的话，这其实是一个markov network。但从他的inference方法来看，根本没有当成markov network来做，
而是当成bayesian network来做。这根本就是完全错误的。（以上的概念定义在 http://www.amazon.com/Probabilistic-Graphical-Models-Principles-Computation/dp/0262013193 可以查到)

怎么当时reviewer会收这篇文章呢。可能跟[1]的有一个作者是当年的KDD的area chair有关吧。呵呵。

再说到剽窃问题。[2]的文章在建模上根本没有用到[1]的概念，在图模型上完全不一样。
[2]在R_i和C_i之间加了一层Bernoulli binary value information need N_i，
[1]是直接定义 C_i | C_{\ne i} 的条件概率。
这个有啥一样的？
出发点就不同。

我觉得之所以楼主有怀疑，是因为化简后算出来的东西，好像都是加了个discount系数（因为[1]加一个Bernoulli binary variable ，最后算出来像是加个系数）。但因为出发点完全不同，系数本质上是完全不同的东西，甚至系数的share的范围是完全不一样的：[1]的系数是在session之间共享的(between)。[2]的系数都是临时的，只在session中(inside)。
从本质的出发点，到最后的model，甚至连系数的共享范围都不一样，到inference都没有啥相似性。
换句话说，这种怀疑就像是觉得只要一个模型最后的公式长的像乘上个系数，就说是都是一样的。难道概率建模这个东西，最后不都是一堆factor的乘积么。这种怀疑非常的可笑，莫名其妙。

And the informer replies:

我从主客观都说说我的看法吧。

就我个人主观的判断，我不同意你的看法。我已经说过，[1]的这个"instance relevance"是个highly non-trivial的想法。就我的看法，大多数点击率模型（也就是[1]之前的工作）都是非常自然的想法：10个研究者想这个问题，9个都会这么想。[1]的idea属于10个研究者，未必有1个会想到的点子。所以，就我个人的观点，[1]最大的research贡献，也是最精彩的部分在于Section 3。之后其实都是engineering work，不论是谁，都会想出大同小异类似的模型。另外，你说的关于“闭环”的问题，完全是自己设个假靶子。[1]从来没有说自己用了graphical model或者bayes。公式（6）或者（10）只是一个constraint，最后model解出来自然会是自洽的。

你可以无视我上面的个人观点，下面的客观描述是重点，也是我质疑的原因：

（1）很多回帖的人已经说了，如果要引[1]的话，那么[2]从section 1开始就不是现在这种写法，而是要强调和[1]不同的地方，你可以把你前面说的反驳放在section 1。至于审稿人是同意你的看法还是和我的判断一样，那是完全另外一回事。关键是没有理由避而不谈。

(2)同样，如果你在正文里引用了[1],那么你的section 3就变得完全没有必要，因为你在论证[1]已经论证过的结论。

（3）同样，如果你在正文里引用了[1]，那么在实验部分就完全不应该是现在这种写法，任何一个审稿人第一反应都会是要求和[1]的结果做比较。另外，诛心的说，你的实验数据，给人的第一感觉就是故意避开和[1]有可比性，比如你的Figure 7（Log-Likelihood improvement），在[1]中横轴是position，而[2]中偏偏要来个frequency。

至于你这么组织文章以后，是不是真的能体现出比[1]好（对此我有保留），决定权在审稿人。但是，从作者角度，如此行文是操守的问题。

Most observers thought that both of the two sides should use their intelligence in a more constructive way.