Google新闻排名算法探究

        自2002年推出以来,Google News已成为Web上最大的新闻内容聚合器。在去年9月《大西洋月刊》的一篇文章中,Google News的主管曾说该网站收集的新闻来源超过5万个,每周的独立访客超过10亿。该网站完全由计算机生成,每天都会收集和展示从全球数千个新闻来源的头条新闻。

Google新闻排名算法探究

        Google甚少透露相关的算法和规则,只是说为了保证显示的内容质量会定期调整新闻排名。据信,Google自2003年以来已经三次调整了排名算法

        Computerworld 在美国专利办公室网站查询时碰巧发现了Google去年的一项专利申请—《改进新闻文章排名的算法与系统》,专利申请号为20120158711。通过对申请文档的分析,从中可以了解到Google对新闻故事排名的一些指标。这些指标决定了哪些新闻可以被放在Google News的显著位置。

        专利申请中运用了超过12项指标来对其他网站的新闻文章进行排名。包括新闻网站定期产生的新闻数量、新闻来源的平均长度、新闻来源新闻报道的重要性、突发新闻得分、使用模式、舆论意见、流通量、相关新闻组织的员工数量、新闻来源的办事处数量、新闻报道的广度、新闻中使用的原创命名实体的数量、国际多样性、甚至还包括写作风格。

        以下就是部分算法规则

用原创文章数或原创句子数来衡量新闻来源的质量

用“故事规模得分”确定某组织一周、一个月或更长时间撰写的原创文章的重要性。比方说,如果D是关于哥伦比亚航天飞机失事的文章,而相关主题的其他不同文章还有500篇,那么这个故事的规模就是500

突发新闻得分的计算是通过衡量新闻来源发布重大事件的速度来确定的,而新闻机构(尤其是未受广泛引用的那些)制作高品质、原创内容的能力,则可以通过故事提及人物的数量等来衡量

        哥伦比亚大学新闻学院的教授Sree Sreenivasan称,技术世界有很多不透明的地方。此项专利申请可以让人了解像Google这样的公司是如何选择在线内容并对其排名的。他指出,Google用来判断新闻来源质量的某些指标,跟编辑用来确定某出版物是否值得信任是一样的。

        比方说员工数量和受众多样性。故事长度也是一个好指标。尽管乍一看似乎Google对量的重视程度要高于质。但事实上许多高品质的媒体现在制作的内容都比以往要多。这反映了当前新闻业的现实。

由于此前Google对新闻文章的热度评定经常引起媒体公司的争议,这份文档也许能澄清部分事实。不过,Google在电子邮件回复中称专利申请不代表产品就是这么做的。

来源:36氪

广告合作
QQ群号:707632017

温馨提示:

1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。

2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

热门教程

  • Z-Blog教程
    Z-Blog教程
    ZBlog教程分享ZBlog安装教程、ZBlog建站教程和ZBlog使用教程等相关教程,包括如何创建...
  • WordPress教程
    WordPress教程
    WordPress教程提供了关于WordPress的基础知识和技巧,包括安装、设置、发布内容、选择主...
  • CSS教程
    CSS教程
    CSS教程提供了关于如何使用CSS来设计和美化网页的基础知识和技巧,包括选择器、样式规则、盒模型、布...
  • 宝塔面板教程
    宝塔面板教程
    宝塔面板教程是一个致力于向用户传授宝塔面板的使用技巧和知识的学习资源,旨在帮助用户快速上手和充分利用...
  • PHP教程
    PHP教程
    PHP教程提供了关于PHP语法、变量、函数、流程控制等概念的详细指导,同时介绍了常见的Web开发技术...

3个月免费VPS

亚马逊云科技

阿里云