BOBTY利用机器和深度学习来创造和分发内容,今日头条创造了一个类似于社交网络的参与度的产品但没有社交关系图。

  今日头条是字节跳动的旗舰产品之一,它可能是你从未听说过的最大的应用程序,中国每天有超过1.2亿人使用它。然而,头条最有趣的不是人们在一个地方消费各种各样的内容而是头条如何提供服务。没有任何明确的用户输入,社会关系网络,或产品购买历史依赖,头条为每个用户提供一个个性化的,高质量的内容,由机器和深度学习算法支持。

  头条的算法不仅仅是分发内容,它还创造了内容:在2016年奥运会期间,一个头条机器人撰写原创新闻报道,比传统媒体更快地发布重大事件的报道。机器人写的文章的阅读速度(阅读量和印象量)与人类作者平均以较慢的速度和较高的成本完成的文章一致。

  用户平均每天花在头条的时间超过74分钟,一半以上的时间都花在看短视频上,再加上每天超过100亿的视频浏览量,头条成为了中国的(当然还有它提供的一切)。

  头条是怎么做到的?尤其是没有像阿里巴巴、百度和腾讯这样规模庞大的消费平台?事实上头条并没有把它的增长归因于任何一个因素,而是它在上市之初所做的许多战术和战略决策之间的相互作用。

  头条于2012年推出,通过使用机器和深度学习算法来获取和显示用户最感兴趣的内容。头条的底层技术通过用户的使用来了解读者——点击、刷新、每篇文章花费的时间、用户每天阅读的时间、暂停、评论、与内容和位置的交互——但不需要用户的任何明确输入,也不建立在他们的社交关系上。如今,每一个用户都被测量了数百万个维度,结果是每个用户每次打开应用程序时都能得到一个个性化的、广泛的、高质量。

  对于一个初创公司来说,时机是一切,但要想打造一款让人上瘾的应用程序,就需要刻意努力。头条的时机是偶然的,但它利用这个独特的时刻是刻意的。随着智能手机在中国的普及,智能手机普及率从2010年的几乎为0%增长到了2014年的65%,头条抓住了这个趋势。此外,许多最大的内容提供商还没有开发移动应用程序或移动端的网站,这意味着真正的移动优化信息和娱乐很少。到2012年年中,中国安卓平台上仅有6款重要新闻应用。其中四个是对现有新闻门户网站的直接扩展,移动优化有限,另外两个是聚合器,它们完全依赖缓慢和客观的编辑输入来决定要显示什么新闻。此外,中国观众对内容(包括文章和视频)的需求没有被微信和微博等有效满足。微信是作为信使推出的,至今仍是一个封闭的社交网络,即分享仅限于朋友。

  头条凭借一款简单易用、个性化、信息量大、令人上瘾的移动应用,抓住了这个空白期。从一开始,头条非常容易开始使用,只需要下载一次。没有必要创建一个帐户和密码,将其链接到社交媒体(除非用户希望如此),或者提供关于兴趣或偏好的信息。该应用程序的简单设计也使得它的使用直观,没有事先的知识或教程。对于任何一个应用程序来说,从下载到DAU的初始投入都是非常困难的。由于气馁、困惑或烦恼,在流程的每一步都会失去用户。

  《今日头条》的名称和图标都很吸引用户,从而帮助了出色的用户增长。这也是各种新闻文章第一次集中在一个地方。从很早的时候,头条就跟踪了每个用户的信息——他们的点击、刷新、每篇文章所花费的时间以及驱动推荐引擎的位置。推出一个月后,头条成为了一个个性化的新闻聚合器,它的几个用户。这是当时唯一一款设计精巧的产品,它的发展很快。推出后仅仅4个月,他们就有了100万的日活。当新网民的移动时间还没来得及抢占的时候,头条给了他们一些可以“做”的事情。头条在第一年几乎每周更新一次应用程序,因为它不断地创新、迭代和改进其特性和算法,这使得随着时间的推移,保留率得到了提高。

  在随后的几年里,用户在移动设备上的关注份额的竞争急剧增加,从2012年到2015年,中国可用的移动应用程序数量增加了两倍多。但头条的早期领先意味着,当竞争对手到来时,它已经有了重要而有价值的立足点。

  你可以拥有世界上所有的算法,但是没有上瘾的产品就没有数据,没有数据,任何算法都无法使系统变得更好。简单地说,用户使用你的产品越多,他们贡献的数据就越多。他们提供的数据越多,你的产品就越聪明。你的产品越聪明(例如,更好的个性化、推荐),它就越能为你的用户提供更好的服务,他们也就越有可能经常回来,贡献更多的数据,从而形成一个良性循环。BOBTY

  通过建立一个上瘾的产品,头条从他们的用户生成参与数据。这些数据被输入到头条的算法中,进而进一步提高了产品的质量。最终,公司计划利用这个良性循环来优化他们称之为“内容生命周期”的每个阶段:创建、管理、推荐和交互。

  自从书面语言发明以来,内容创造一直是人类的专属领域。头条想改变这种状况。它是从人工智能小鸣机器人开始的,到目前为止,它已经在这个平台上发表了8000多篇文章。它在2016年奥运会期间首次亮相,与传统媒体相比,它在重大事件上的报道发布速度更快(赛事结束后约2秒)。事实上,机器人撰写的文章的阅读速度(阅读和印象)与人类作家平均以较慢的速度和较高的成本制作的文章保持一致。

  首先,写奥运会比赛结果的报道需要数据,头条从三个方面收集数据:【a】奥运会组织的实时分数更新,【b】最近收购的一家图像采集公司的图像,以查找相关的视觉媒体,以及[c]监测有关奥运会的实时文本评论。它还从乒乓球、网球、羽毛球和女足这四项运动开始,从技术角度来看,这四项运动更容易概括(乒乓球、网球和羽毛球是回合制运动,与其他运动相比,这些运动的规则更简单。对女足高质量数据源的独特访问使第四场比赛得以覆盖。)

  其次,头条必须弄清楚如何结合这三个来源的数据,以确保内部一致和相关的故事。这是一个更大的挑战,甚至比访问和解释的数据放在第一位。任何选定的图像都需要与事件的结果相关,也要适合评论中的要点。这反过来要求头条的人工智能团队将自然语言处理能力与上下文图像识别相结合。最后,他们结合了一种基于语法的表示法来生成故事模板,一种从实时文本评论中选择相关句子的排序算法,以及一种将所有这些结合在一起的图文匹配算法。该系统还使用卷积神经网络来分析候选图像中的内容。通过对历史数据的训练,模型能够为故事选择最相关和最具视觉吸引力的图像。他们还建议将现有的故事总结成更深入的故事序列,以便更好地学习文章。The该系统利用递归神经网络计算句子的向量表示,并将这些句子向量输入到一个排序模型中,为每一篇文章挑选简明的摘要。

  这些努力的成果——里约奥运会期间发表了450篇500-1000字的故事——取得了巨大成功。他们的阅读速度(阅读量除以印象量)与人类作家以较慢的速度和较高的成本制作的作品不相上下。头条已经将这一能力扩展到超过8000个故事,目前为止,它正在努力弥补一些技术上的漏洞,使人类作家的形象得以识别。

  头条早期的一个主要订阅驱动力是“软新闻”——比如名人八卦、流行文化和生活方式文章。这不是意外。与官方新闻(由知名国有新闻来源发布)相反,软内容在互联网上的大量个人网站上传播。简言之,没有访问内容的中心位置:寻找内容的用户将不得不投入有意义的时间访问不同的站点,并且无法保证他们获得最有趣的信息。头条改变了。在拥有、集中和优化分发的过程中,它将用户查找内容所需的时间减少到几乎为零,并增加了他们阅读最有趣故事的信心。为用户创造了真正的价值。

  从本质上讲,内容管理是一个两面性的问题:除了为用户提供内容外,策展人还必须找到内容。首先需要访问网站,识别故事,收集相关元数据。第二个需要不断更新故事的中央存储库,并创建尽可能多的个性化版本。这两种任务都是过程密集型任务,算法比人类有明显的优势。头条推出时在这个领域唯一有意义的竞争是由人工编辑处理这项工作的门户网站,而头条对算法的使用使其在人工竞争中占据了主要优势。

  头条可以更快、更低的成本收集更多的内容,在企业中创造一个主要优势,因为客户价值与内容质量、相关性和刷新率直接相关。算法的使用也意味着每个用户都可以拥有自己的、基于兴趣的、不断更新的个人资料——这是任何一个人类编辑都没有时间去做的事情。

  头条还使用算法来识别和过滤低质量的内容。一个内容分发平台的好坏取决于它分发的内容。大量分发饼干式内容(如报纸、杂志)的时代已经过去了。在头条的世界里,分销平台只服务于用户感兴趣的内容,而虚假报道和垃圾邮件往往是媒体行业的主要问题。

  内容推荐是头条最著名的特色,也是其成功和声誉的重要来源。在内容生命周期的这一阶段使用机器和深度学习算法是头条与众不同的原因,也是推动用户持续增长和保持的关键。

  推荐引擎试图解决的问题很简单:平台可以向每个用户推荐哪些最有可能导致持续参与的文章?这是一个具有重大后果的问题——人工智能团队已经认识到,100条头条新闻是一个保留门槛(不长期保留的用户在看到大约100条头条新闻后往往会急剧下降)。这也是一个人类不适合回答的问题:没有一个人类编辑能够定期、快速地为每一个应用程序的新用户确定最佳的标题集。

  尽管问题很简单,但解决办法很复杂。对于每一个新用户,头条融合了来自三个关键领域的信号,以创建一个feed,它希望它能吸引用户,并将用户推到100个标题阈值以上:

  用户档案:最初是基于应用程序对用户人口统计信息(年龄、地点、性别和社会经济地位)的理解而建立的

  内容:为了了解文章的内容,头条转向自然语言处理来判断文章是否有趋势,是长是短,以及文章的时效性(有些文章是常青的,有些文章的半衰期很短)

  然后,底层算法必须在用户的配置文件、其自身的内容概要文件和上下文之间确定最强的统计匹配,并且它必须持续地这样做。这种匹配是为了优化用户阅读(点击)的文章百分比和用户完成文章的百分比(通过在页面上花费的时间来衡量)。当用户第一次打开应用程序时,系统会使用配置文件中的基本数据进行匹配:例如,硅谷的用户可能更倾向于点击有关技术的文章。系统还确保显示各种各样的文章,以评估用户的兴趣/兴趣,可以帮助用户发现以前未知的内容并测试他们的潜在兴趣。随着应用程序对这些信息的进一步收集和完善。这个引擎学习速度很快——对于大多数用户来说,不到一天就可以成功地学习到他们的兴趣(80%的阅读率表明这一点)。其结果是强大的用户保留率(45%),这与社交网络类似,是世界上单用户应用程序花费时间最多的一种。

  随着头条的发展,平台上的互动越来越成为其用户价值主张的核心。头条使用底层算法来帮助实现有意义的连接,而不是让用户自己去寻找对方。最重要的莫过于最近开发的问答功能,人工智能团队的任务是开发一个匹配引擎,将提问者与能够回答问题的人联系起来。头条最近在ACL大会上发表了一篇论文,鼓吹这些结果。他们提出的“基于大规模知识库的条件聚焦神经问答方法”在108K个问题的数据集上达到了75.7%的准确率,并且比目前的技术水平(比基准数据集上的记忆网络和LTG-CNN方法要好)高出11.8%。

  头条的底层技术不仅创造了更好的用户体验,而且有助于加强公司的竞争护城河。更具吸引力的内容和交互意味着用户将在平台上花费更多的时间,他们在平台上花费的时间越多,算法的使用就越好。系统越智能,它就越能更好地分发内容,吸引更多的内容创作者。这反过来又驱使更多的用户使用这个平台。因此产生了一种强大的数据网络效应——系统的能力随系统规模呈指数级增长。从那时起就有竞争对手推出了(尤其是在看到头条的成功之后),但是一直很难与头条推荐引擎的准确性和有效性相匹配,导致头条持续快速增长。

  应用程序努力从内容聚合转移到内容目的地并不少见。然而,要做到这一点,从品牌和创意战略来看,这是一项极具挑战性的工作。这是头条是怎么做到的。头条为平台上的内容贡献者提供了两个显著的好处。

  通过收入分享的强大激励,使作家能够从很早就赚钱。2014年,头条推出激励计划,吸引更多内容创作者加入该平台。从提供办公空间、工具、每月最低担保(如果达到某些关键里程碑(如文章数量、阅读率)到通过货币化分享收入。自2014年以来,头条开始通过广告赚钱,这使得与内容贡献者分享收入的机会成为可能。

  这正是头条推出的功能,但随着它的发展,头条已经过渡到一个更深层次的内容生成、消费和连接平台。如今,它拥有超过80万个头条账号——专业媒体、博客作者和有影响力的人,他们利用这个平台与头条用户分享文章、图片和视频。更多的用户通过微头条分享短文。其结果是今日头条的内容种类繁多,从新闻到股票,从科学到人际关系。前20个类别只占内容供应量的60%,没有任何一个类别贡献超过10%的内容。

  与其他平台相比,更大、更相关的受众直接转化为内容贡献者的品牌影响力。几乎所有贡献者都在所有平台上创建和分发内容。但对于许多投稿人来说,由于强大的推荐引擎,他们有能力吸引更多来自头条的流量。一个例子是“欢子电视台”。这个创作者创造了关于中国农村的人们的生活和风俗习惯的短片。他的每段视频平均浏览量为70万次,而他的微信公众号的浏览量还不到头条的1/40。头条使投稿人的长尾能够比中国任何其他平台更无缝地接触到他们最相关的受众。

  头条没有固执于其核心格式(如列表、长格式内容和新闻),而是在数据建议的情况下迅速扩展到其他格式。2015年,在中国大多数视频平台都专注于长格式视频的时候,头条增加了视频功能,并开始在其平台上支持PGC短视频内容(通常为1-5分钟)。2014年,随着连通性和基础设施的显著改善,头条观察到视频内容的供应量有所增加。此外,头条推出了一些激励计划,以促进其平台上的视频内容创作。从文本到图像再到视频的转变与迄今为止大多数美国平台所看到的相似。

  2016年3月晚些时候,头条推出了头条视频(现更名为西瓜视频),这是一款独立的PGC短视频应用程序,采用与头条相同的算法引擎。与书面内容类似,底层算法根据用户的兴趣图向他们推荐最相关的视频。头条现在是PGC短视频内容的“去平台”。每个用户每天74分钟的使用时间中,超过一半的时间用于观看短格式视频,而头条每天的视频浏览量接近100亿次。

  头条在短时间内(上市5年,开始盈利3年),收入达到了前所未有的规模,值得注意的是,他们没有利用任何消费者社会关系或产品购买历史。头条今年的收入有望超过150亿人民币(超过22亿美元),这是互联网历史上收入增长最快的应用之一。

  在头条所做的许多事情中,有一个元素比其他任何元素都更为核心:它善于识别用户希望看到的内容。因此,它的商业模式与这一优势完美契合,这是恰当的。头条通过将相关广告与用户匹配,在内容定位背后使用相同的专有技术,从而产生收入。这有三个重要好处:

  第一,它减少了货币化对用户体验的影响——而且可能实际上改善了体验!用户通常认为广告是对他们的体验的侵扰和侮辱,但与用户偏好一致的广告就不那么容易了。在提供与用户兴趣高度相关的广告时,头条在许多方面起到了产品发现机制的作用。

  第二,它提高了头条向广告商收取的费用。广告中的一个关键问题是如何有选择地将你的广告放在最有潜力的客户面前,而广告商则花费无数的时间和大量的金钱来有效地锁定目标。头条的技术,解决了这一定位问题,代表了一个解决方案,并节省了广告商支付一大笔溢价。

  第三,由于主要用例是阅读和查看内容,用户更容易接受看到相关的目标广告,因此有更多的库存可供广告商使用。

  这三个因素的结合使得头条的点击率比竞争对手好得多。第三方调查数据估计,头条的CTR比同行高出200%。

  头条正在逐步实现他们的最终目标,这基本上是抹去搜索的概念,只提供聚合的、超相关的内容。我们已经看到内容聚合器在美国来来往往,但它可能是一个尚未到来的想法,更好的算法将是成功的催化剂。Facebook和Twitter都是当今美国新闻消费的重要来源。另一家巨头是谷歌,该公司在7月份宣布,其移动应用程序中的feed将增加其对机器学习的使用,以更好地向用户展示他们将发现的最相关和最有趣的信息——一个包含所有类型新闻的提要。