网站首页 > 网站运营> 文章内容

不一味迎合用户知乎想用AI算法打造智能社区

※发布时间:2018-5-14 3:35:52   ※发布作者:habao   ※出自何处: 

  众所周知,知乎是一个知识分享平台,各行各业的从业者在这里分享自己领域的知识,来这里的人也是抱着学习的态度,希望有所收获。随着知乎平台的规模越来越大,包含的信息量呈井喷式爆发,如何为用户更好地服务,让每个人在这里能更容易地找到自己感兴趣的内容并进行分享,对海量的信息和用户进行管理和,成为一项艰巨的挑战。我们都知道知乎是一个知识平台,却不一定有多少人了解它还是一个背靠 AI技术的智能社区,生产—消费—连接—社区管理全链条中都有 AI技术的支持。

  2011年 1月 26日,知乎正式上线运营。经过将近八年的发展,截止今年 3 月,知乎注册用户数已达 1.4 亿(以 18-35岁人群为主),平均日活跃用户量超过 3400 万,人均日访问时长 1 小时,月累计页面访问量达到 230 亿,累计产生提问数 2300 万,回答数近 1 亿。

  知乎合伙人兼高级副总裁李大海表示,知乎的研发团队在年初进行了一次重构,分成了「中台」和「前台」两种角色。前台的团队是业务团队。中台的团队则是在横向支撑业务的发展,具体来说,在技术中台中,由技术平台团队和移动平台团队来基础架构和大数据;基础算法团队负责提供 AI 方向的算法框架甚至具体实现;安全和反作弊团队负责基础安全和反作弊相关的工作;QA 保障工程质量,而数据分析团队的职责,是帮助业务团队从大数据中提取 insight。

  其中,知乎的机器学习团队将知乎逐步变成一个“智能社区”,在生产—消费—连接—管理的全链条中以 AI 作为技术支撑。

  知乎是一个 ugc平台,用户在这里提出问题,回答问题,形成用户感兴趣的内容。在内容生产的过程中,AI的应用主要是在问题由上。李大海告诉 AI前线记者,在去年年底之前,知乎的问题回答还全部都是通过用户邀请用户来完成的,但之后改变了做法,增加了应用机器学习模型的自动由,也就是自动邀请,通过算法找到最合适回答某个问题的人。机器学习模型的效果明显,“自从上线了自动由技术,知乎的回答量提升了 300%,这得益于深度的内容和用户建模。”李大海说道。

  每个来到知乎的用户都有不同的需求,而且随着平台的发展,涌入的用户和内容越来越多。那么,知乎是如何了解每个用户的需求,并为进行用户个性化推荐的?详细的算法机制是什么呢?

  李大海告诉 AI前线,知乎和业界的通行做法一样,建立了一套可以同时应用在内容和用户上的标签系统,根据每个用户过去的阅读历史来打标签。同时,知乎在给用户推荐内容的时候,不断地探索用户的兴趣边界,帮助用户发现更大的世界,给用户打上更多的标签。

  但是,这种方法有一个弊端,即从逻辑上来说,它只能预测用户平稳的兴趣变化,但用户的兴趣改变,或突然兴起,却是知乎无法预料的,比如用户忽然想学钢琴,知乎是没办法在第一时间了解的。知乎正在考虑增加基于状态转移的兴趣预测,来尽可能地解决这个问题。举个例子,如果用户近期一直在搜索孕期的各种知识,那么知乎可以试着在几个月后预测她(他)可能会对新生儿护理感兴趣。

  近年来,关于企业采用不当的推荐算法,导致不良的导向的问题时有发生,例如今日头条因为推荐低俗内容被约谈多次,YouTube因为儿童“邪典视频”被各大和家长,Facebook的广告模式支持假新闻......反观这些平台所用的算法,大多使用的算法是所谓的“母爱算法”,即用户喜欢什么样的内容,系统就推荐给用户什么,就像母亲溺爱孩子一样,从而导致“信息茧房”的产生。虽然从一定程度上来说,算法本身只是“”地反映了用户的需求,但却会导致平台的价值观逐渐偏离社会主流价值观,用户(包括儿童)的心理健康,不正常的思想,引起社会问题。

  据了解,YouTube作为全球最大的视频网站,可能出于压力的原因,最近已经将其旗下的一款以儿童为目标受众的程序 YouTube kids app的推荐方式由算法改为人工挑选和审核。这不禁引人反思,难道推荐算法不灵了吗?这种算法问题是不可避免的吗?知乎又是怎么解决这个问题的?

  对此,李大海称:“有关于这个问题我们是有深入思考的,理想的推荐算法应该是母爱算法和父爱算法的结合。所谓父爱算法,就是不断通过优质的内容引导用户去探索他的兴趣边界,发现更大的世界,让用户既能获得感兴趣的内容也能获得有帮助的内容。这个对于知乎和知乎的用户来说尤其重要,这就是我们的核心。因此我们在父爱算法上花的精力尤其的多,其中包括优质内容的识别、推荐算法召回排序方式的优化,以及运营同事对于分发的干预。”像 YouTube“儿童邪典视频”的泛滥主要是由于其采用的算法参数比较单一,比如推荐的依据就是点击量、观看时长等,这样很容易导致推荐的内容“一条道走到黑”,而知乎采用的算将更多参数作为推荐内容的依据,“用优质的内容引导用户去探索兴趣边界,发现更大的世界”。

  李大任于 2017年加入知乎,负责搜索、内容推荐和 AI模型三块的业务。李大任加盟知乎之后,在三块业务中进行的探索包括首页 Feed流推荐的召回和排序、内容模型(自动给问题分类、绑话题)、用户模型(通过用户的关注关系对用户进行隐式表示,计算用户之间的亲密度和专业度)等,为用户带来更好的内容“消费”体验。以首页为例,采用了上述做法之后,整体的内容分发量提升了 200%,人均时长提升了 45%,CTR提升了 26%。

  语义分析和理解目前是 NLP中比较重要且有难度的问题,知乎在语义分析和理解的工作就是在内容模型方面。知乎社区积累了很长时间的用户行为,包括点赞、反对、举报、绑定话题、修改话题等。这些行为某种程度上是对文本语料的一种标注,通过这种有监督的文本语料,知乎能学习到更好的语义表示,对于语言的理解可以达到一个更高的层次。“比如我们使用了两千万的问题和话题的 Pair对,通过 DocTag2Vec的模型学习词语的语义表示,并应用到了问题话题绑定、话题推荐、广告推荐等场景中。另外,我们还在应用这种语义的表示重建我们的话题层次结构和关系,这将有利于我们做更精准的内容推荐。”

  在商业化场景中,机器学习和深度学习的应用效果也比较明显。如在广告 CTR预估系统中应用了语义表示之后,CTR提升了 15%以上。在知乎效果广告 CPC(Cost Per Click,以每点击一次计费)模式下,点击率 CTR预估和召回机制是两个重要的机器学习应用场景。李大任告诉 AI前线,知乎的效果广告业务在 CTR预估模型方面,目前主要在采用 GBDT+FM的混合模型来构建,为达到更好的效果,也正在尝试应用 end to end的大规模深度学习网络;在召回方面则使用了多种机器学习技术,如使用 CNN对知乎用户及内容进行主题分类,使用 word2vec进行 word embedding,用于相关性过滤,等等。

  为了更好地在用户之间建立联系,知乎会根据用户在知乎阅读的内容和关注的用户,建立一个超大规模的异构图,之后使用 Graph Embedding方面的模型,对用户进行隐式表示的学习。通过这些表示,知乎能更精准地计算出两个用户之间的亲密度、兴趣的相似度,从而给用户做更准确的推荐,让用户更多地在社区里发生连接。

  整个知乎社区管理的“大脑”,是一套名为瓦力的算法系统。它以知乎社区管理规范为标准,对违规内容进行评估处理。自上线至今,瓦力已经过多次的迭代更新,被应用多个使用场景中。

  目前,瓦力有多个算法模型在实时运行,主要应用于不友善、答非所问、低质提问、低俗、违法违规等方面的治理。目前,这个系统可以做到:实时筛查并处理社区新生产内容中的不友善因素;结合知友们的举报,在 0.3 秒内识别判断被举报内容是否包含不友善因素,并做出相应处理;每天清理约 5000 条新产生的「答非所问」内容,以及此前现存的近 120 万条「答非所问」内容,还能实时对社区内提问进行筛查,每天处理约 900 条、求医问药类的低质提问;能够识别图文、违法违规、垃圾广告等内容。

  为提升低质内容的识别效率,知乎先后上线了文本识别、图片识别、不友善评论和回答识别、广告识别等。这些自动识别的背后都是深度学习的模型发挥着巨大的作用,以广告识别为例,上线了 Bi-LSTM-CRF 的序列化标注的深度学习模型之后,相比之前的规则系统,准确和召回提升了十个点以上。

  尽管瓦力在各个维度进行的社区治理准确度已超过 90%,但却是无法取代人工的,知乎也没有将内容和社区管理的任务全部集于算法一身,而是采用算法 +人工的方式。对瓦力处理的内容,知乎会每天进行质检,同时也有专门的团队对于用户进行复核和响应。

  除了瓦力外,知乎还有反作弊系统悟空,和瓦力一样也可以提供 7*24 小时的服务,提升用户的使用体验,社区氛围。

  据 AI前线了解,知乎小管家目前是一个真人团队在管理,李大任告诉 AI前线,这个部分不用机器人来取代人工的原因在于考虑到用户的感受,因为用户可能会不知道当你在和小管家交流时,在线上另一端的是一个人还是机器,这会影响到用户的体验。

  现在,很多企业和平台在采用 AI时非常钟情于一种模式,即一方面公司通过自有平台进行研发,另一方面与拥有研发和师资力量的高校进行合作,把与业务相关但研发周期较长的项目放到高校中去进行。这样做的好处是在提高了自身的技术优势的同时,又能给高校学生一些真正的实践机会,对于双方都是双赢。

  对于这种产研结合的模式,李大海也表示,“工业界和学术界结合一下,常好的事情,学术界缺少海量的真实数据,以及现实场景中的真实问题,而企业由于资源和业务优先级的原因,一些前沿的、长期来说重要的工作,又不能马上开展起来。在这种情况下,两者的合作是一个双赢的事情。”

  知乎也在积极探索这种模式。一方面,知乎了一个对用户信息进行脱敏的数据集,所有科研机构都可以直接使用这个数据集来进行研究;另一方面,知乎与大学智能技术与系统国家重点实验室、大学语言计算与互联网挖掘实验室的老师进行了一些合作,其中就包括语义分析和理解方面的研究合作。

  知乎作为一个内容平台社区,工程师们的工作很大一部分集中在自然语言处理上,但是随着用户的需求和审美不断提高,对于一个网站或平台的视觉要求也在不断提高。在计算机视觉方面,知乎也进行了一些尝试。

  现在,当用户打开知乎页面时看到的不只有文本信息,还有文章的封面图,以及文章中的一些插图,以增强趣味性,避免单调乏味。知乎利用 ResNet进行低俗图片的识别,准确率达到 90%以上。这大大地提升了人工审核的效率,每天可以自动过滤数千张以上的低质图片,同时还可以识别单色图、表情包,以及给图片质量进行打分,封面图的美观性。

  知乎在接下来的主要目标,是构建一个智能社区。AI 已经深度参与到知乎社区内容分享和流通的每一个环节,让更多有价值的问题被提出,让最适合回答的用户被邀请,让更多分享见解、经验的被激励,让更多专业、认真的知识被推荐,让更多人的好奇心被满足,让 1 亿 4000 万注册用户甚至数亿网民连接到一起。

  “每个脑中的知识、经验、见解,总是另一群人非常想知道的东西,而知乎所做的一切,都是为了创造一种前所未有的「连接」,满足彼此的需求。这是我们的初心,也是长久的愿景。

  李大海,知乎合伙人兼高级副总裁,曾任谷歌中国软件工程师。从谷歌离职后连续创业,分别在云壤、豌豆荚担任技术管理工作。

  

相关阅读
重庆学习网zslpsh,0755深圳房产人才招聘网,拾年网90后,anedc股票,最新电影下载淘娱淘乐,重庆中学生网高考,重庆中学生网高考,学习重庆方言网,重庆中学生学习方法,重庆俗语网,中学生网zslpsh,0755深圳交友网,重庆初中生,贵州重庆方言网,025新闻网,西南重庆方言歌曲,025南京交友网,重庆农家乐美女,观赏蟹种类zadull,云南重庆方言网,重庆中学学习网,028成都交友网,推广taoyutaol,西南四川方言网,观赏龟论坛zadull,四川重庆方言网,022天津交友网,重庆中学生网家长,鹦鹉鱼zadull,重庆俗语,电影淘娱淘乐,taoyutaole娱乐,华夏视讯网,0755深圳旅游招聘,昆明重庆方言网,淘娱淘乐影视,www.00game.net,观赏鱼zadul,重庆高考zslpsh,重庆中学生网高考,027房产招聘网,坝坝舞wagcw,西南重庆方言网,贵州重庆方言网,重庆言子儿网,热带鱼zadull,重庆高考zslpsh,0755深圳旅游招聘网,淘娱淘乐影视网,0571.361.cm,重庆方言学习网,028成都新闻,异形观赏鱼种类,影视网淘娱淘乐,最新电影下载淘娱淘乐,0773桂林论坛,拾年网80后动画片,观赏蟹论坛zadull,观赏龟繁殖教程,重庆一中zslpsh,重庆俗语网,广场舞wagcw,观赏虾的种类zadull,观赏鱼观赏虾观赏龟,西南方言网,观赏鱼之家论坛zadull,战争前线辅助00game,西南重庆方言小说,重庆中小学zslpsh,推广taoyutaol,战争前线论坛00game,0871交友网,025南京新闻网,重庆言子儿网站,娱乐taoyutaole,022天津交友网,025新闻网,重庆中学生网学习,022天津交友网,重庆方言歌网,www.120.cm健康网,anedc股票,重庆初中生