AI学者也用维基百科“打广告”?这个词条有点可疑

  • 时间:
  • 浏览:159
  • 来源:世界杯买球盘口网址app

到场:张倩、泽南、蛋酱

维基百科上的词条内容,可能会被人修改并谋取私利,而且这一情况就发生在 AI 学术圈。

「遇事不决先谷歌」已经是现在许多人查找信息的尺度起手了。如果搜索一个词条,百科网站的效果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息,虽然可能不够严谨,但也被许多人作为重要的信息、知识泉源。

不外,最近人工智能的研究者在维基百科上发现了不少「夹藏私货」的词条,好比 Reddit 网友发现的「SGD(随机梯度下降)」一词。

这位发帖者表现,ta 原来计划读一些关于梯度下降的资料,但却发现维基百科有关这一主题的词条就像一条广告。

为什么这么说呢?我们先来看一下这个词条的结构。除了通例的配景、示例、应用等先容外,词条还包罗 SGD 的「扩展和变体」,这部门列出了 RMSProp、Adam 等知名算法和一些「二阶方法」。

「SGD」词条的结构。上图为历史版本,新版本不包罗图中的 5.7。历史版本链接:https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=945132087

问题就出在这部门「扩展和变体」。要按说,能和 RMSProp、Adam 并列,这里列出的方法肯定都不差。但发帖者却发现,这部门包罗了一篇比力冷门的论文(上图中的 5.7),文中提到了一种基于 Kalman 的随机梯度方法。

词条历史版本中对上述方法的先容。

上文中提到的论文。数据泉源:Google Scholar。

这是一篇 2016 年的论文,被引用量只有 22 次。要知道,与其并列的 Adam 在 Google Scholar 上的引用量高达 3 万 9 千多次。

这事儿就很是可疑了,于是他决议进一步挖掘信息。这是一篇 2017 年 2 月添加的文章,被添加进词条的时候,该论文的引用量似乎是 0,添加者是一位用户名为「Vp314」的用户。凑巧的是,论文作者的 gmail 用户名也是「Vp314」。

而且,这位用户对「SGD」词条的唯一孝敬就是添加他的这项技术:第一次是将「Kalman-based Stochastic Gradient Descent」添加到「扩展和变体」;第二次是稍加改动;第三次是被删除之后重新添加,被删的理由是「最近险些没有被学术界引用。」「这个词条泛起在维基百科上使其看起来像是一种成熟的技术,但其实并不是。」

「梯度下降」这种观点在机械学习领域肯定是必须要懂的知识,修改这个词条颇有点修改教科书的意味。更令人担忧的是,这很可能仅仅是被个体研究员/学者恶意修改内容的一小部门。

机械学习领域自我宣传的竞争已经到了这样的水平,不禁令人叹息。

其实在维基百科上,另有许多类似的奇葩操作,或许只是我们都没发现。

好比有一位留言者回忆起自己读大学的时候,他的室友乐成编辑了维基百科词条,说自己是网球的发现者。在这之后,有一些文章和书籍在援引质料时,就真的将此人视为网球发现者……

固然,这种开玩笑并未给窜改者本人带来直接利益,更多的人或者机构会使用词条来获取商业利益。

「如果你对维基百科足够相识,就会发现这内里充满了政治、小我私家偏见、SEO 内容、学术广告等等。相比其他,IT 领域的词条内容质量还算可以的,因为这个领域的人都醒目盘算机(emmm 这么说似乎上世纪 90 年月的说法),他们一般都市检查泉源或者屏蔽垃圾内容。可是其他科学领域的词条会更糟糕,充斥着大量的无用内容。」

这位留言者认为,在事实正确性和清晰度方面,维基百科甚至还不如高中教科书,更不能和正规的百科书籍相提并论。

早在 2005 年,《Nature》就曾对维基百科和代表传统百科全书的《大英百科全书》各自全书间的 41 篇科学内容做过观察,最后得出结论,在科学文章这一领域,维基百科与《大英百科全书》有着相似的准确度,但两者在内容上都有一定水平上的「严重缺失」。但至少,《大英百科全书》无法让任意一小我私家「自由编辑」。

有一位留言者提到,他最近听说了一种针对维基百科词条优化的「收费服务」,用度或许是 600 美元或者更多,可能让你拥有、撰写维基百科的词条,同时实时修改其他任何人所做的编辑。你甚至可以使用这项服务撰写支持或阻挡某小我私家/看法/机构的文章,然后公布相关报道和文章作为参考泉源。

这类事情在其他领域也经常发生,一位留言者是信号处置惩罚领域的研究者,他指出,许多页面上的参考文献和方法都不是最新技术,而且内容也时常堕落。如果运气好,你可能还会尴尬偶遇自己的同事在维基百科上「自吹自擂」。

他还提到了一个不算 ML 领域但也很有意思的事,2007 年的 Asilomar 大会上,他遇见了 James D. Johnston,James 曾经担任微软音频工程师,此前在 AT&T 贝尔实验室声学研究部事情过。

其时 James 在会上揭晓了一篇标题为《感知音频编码的生长史实时间线》的正式论文。James 说他写这篇论文的起因,其实是因为维基百科页面的错误。每次 James 试图更正维基百科页面的时候,都市被问「您对此相识几多?」,然后每次都市被拒。

现在,在维基百科上共有凌驾 110 万个词条。除学者之外,许多公司和组织都有投入资金和精神在维基百科上编辑对自己有利信息的情况。虽然从久远来看,人们总是会倾向于阅读真正有价值的内容,但代表特定利益的内容总是令人难以接受的,而且有时候它们还会停留在网页上很长一段时间。

看来在查找重要内容的时候,我们还需要越发严谨,至少要使用差别的信息泉源举行一些对比。在这方面,你有更好的方法吗?

参考链接:

https://www.reddit.com/r/MachineLearning/comments/fhveru/d_researcherprofessor_possibly_using_wikipedia/

本文为机械之心报道,转载请联系本民众号获得授权。

------------------------------------------------