方向1：机器学习及其相关应用研究™„件一... · 用人工智能在现实世界中的落地。导师简介：导师...

附件一：

2018 年度腾讯“犀牛鸟精英人才培养计划”课题方向方向 1：机器学习及其相关应用研究课题 1.1：用户行为时间序列分析及建模

利用各种机器学习算法（包括深度学习、图学习、强化学习等）和大规模计算集

群对万亿级数据进行分析，探索有效的用户行为建模工具（如用户分割、内容推

荐、异常检测、可视化等），以帮助提高用户体验和系统效率。

导师简介：分别获得浙江大学生物医学工程学士、控制理论与工程硕士、美国德

州大学阿灵顿分校计算机科学博士学位，期间在微软亚洲研究院和 IBM T. J.

Watson 研究院担任访问学生和研究实习生，并在主要相关会议杂志（ICML、

NIPS、CVPR、ICCV、AAAI、IJCAI、SIGKDD 等）上发表论文 30 余篇。曾先

后服务于两家美国创业公司并作为主要数据科学家帮助其分别在 NASDAQ 和

NYSE 成功上市。曾就职于滴滴。目前任腾讯专家研究员。

课题 1.2：大规模分布式深度学习中的训练加速与结构学习

本课题围绕以下两项内容开展研究：1. 深度学习模型的压缩与加速：通过对深

度学习模型的参数和/或梯度进行量化或者稀疏化，降低模型在存储和运行时的

空间占用，加快模型在推断时的计算速度；2. 深度学习模型的结构学习：针对

大规模数据场景调研更加有效的深度学习神经网络结构，并能够自动进行学习，

降低深度学习的调研成本与提升模型的精度。

导师简介：导师 1: 中国科学院自动化研究所博士毕业。目前主要研究方向是深

度学习和分布式学习，特别是量化方法在两者中的应用，从而加快模型的训练和

推断效率。

导师 2: 毕业于北京航空航天大学，先后在百度和腾讯从事多年机器学习方向工

作。目前主要研究领域是机器学习平台搭建、大规模分布式系统设计、深度学习、

超参数学习、在线学习、Boosting 等方面研究。

课题 1.3：迁移学习及大规模图算法的并行加速

本课题围绕以下两项内容开展研究：1. 基于 Aspect 的推荐系统可以提高推荐的

覆盖率和准确率。由于标注 Aspect 数据耗费巨大，所以希望提出迁移学习算法

从已有的标注数据领域迁移知识到未标注数据领域，以提高搭建 Aspect-based

推荐系统的效率；2. 传统图论算法的并行化加速一直以来都是并行化算法研究

的热点课题，例如 MBE（Maximal Biclique Enumeration）问题等。就 MBE

问题而言，传统的解决方案主要采用基于 DFS 的串行算法。如何使用并行算法

解决 MBE 至今依然是一个开放问题。

导师简介：导师 1：香港科技大学博士。主要的研究方向为迁移学习理论及应用，

以及异构数据融合。博士期间有多篇论文发表在 KDD、AAAI、IJCAI 等 top-tier

会议上。曾担任 IJCAI、AAAI、PAMI、SDM、TCSVT 等会议以及期刊的审稿

人。

导师 2：香港中文大学系统工程与工程管理系博士。主要研究方向是图理论及数

据挖掘，基于图的大规模分布式机器学习，社交网络分析与推荐系统。在数据库

数据挖掘顶级会议 KDD、WWW 以及 CIKM、DASFAA 发表论文（一作 4 篇）。

曾经担任 KDD、WWW、CIKM、WSDM、SDM 等会议以及 VLDBJ、TKDE 等

期刊审稿人。

课题 1.4：强化学习在物理世界中的核心算法和应用研究

近年来，强化学习已经在虚拟世界游戏、模拟等领域（Alpha Go，CMU Poker，

OpenAI DOTA2）取得突破性进展，但是在现实物理世界中鲜有应用。如何打

通虚拟世界和现实物理世界的桥梁，将在虚拟模拟器里训练得到的模型有效部署

到现实世界中，或直接在现实世界中进行高效强化学习训练，并将相应核心算法

落地到普通用户的生活场景中，是一项有挑战性的重要课题，其成果将有助于通

用人工智能在现实世界中的落地。

导师简介：导师 1：腾讯专家研究员。美国威斯康辛大学麦迪逊分校博士毕业。

加入腾讯之前就职于美国硅谷英特尔研究院担任高级研究科学家。所提出的 DC

Flow 光流算法曾获世界第一，在 CVPR/IICCV/ICML 等顶级会议上发表了超过

10 篇论文。目前的研究兴趣为深度增强学习和计算机视觉。

导师 2：腾讯专家研究员。美国南加州大学博士毕业。加入腾讯之前曾在美国

University of Central Florida 任教。在 CVPR/ICCV/NIPS/ICML/ICLR 顶级会

议上发表了近 20 篇论文。目前的研究兴趣为深度增强学习和计算机视觉。

课题 1.5：强化学习在游戏 AI 中的核心算法研究

最近几年，强化学习在限定场景的游戏 AI（如 Atari，Vizdoom，Alpha Go，

OpenAI Dota2）中已经取得突破性进展, 如何搭建通用的游戏 AI 平台，使其能

在多个智能体参与的复杂策略游戏（如星际，王者荣耀）中对不完整的游戏场景

进行准确估计和理解，与不同智能体进行协作，作出长远游戏策略规划，共同取

得团队胜利，是一项有挑战性的重要课题，其成果将有助于推动强化学习在游戏

AI 中的进步。

导师简介：腾讯高级研究员。清华大学博士毕业。加入腾讯之前分别于康奈尔大

学和罗格斯大学从事博士后研究工作。在包括 ICML 在内的业内顶级会议上发表

了多篇论文。目前的研究兴趣为深度增强学习和计算机视觉。

课题 1.6：面向信息安全的海量社交关系链计算

微信或者 QQ 的社交网络对用户的了解，一个重要的用户画像信息就是社交关

系。以微信 8 亿活跃用户的社交关系为例，最完整的表达是 8 亿*8 亿的邻接矩

阵。但这在我们用来做分析或者机器学习任务时显然是非常不方便的，且计算成

本非常高。Network Embedding 是一种图特征的表达学习方法，将网络中的

节点映射为向量空间的一个向量，通过将关系网络转换成低维空间的向量，来提

升关系计算的效率。Network Embedding 的几个代表性算法包括 2014 年的

Deepwalk、2016 年 KDD 文章 Node2vec，以及 2015 年微软发表的 LINE。

但是开源的算法在实际应用过程存在性能问题和功能问题。本项目主要是研究高

效的、满足业务应用需求的关系计算算法并实现。

导师简介：意大利机器学习博士毕业，博士论文发表于 ACL（long paper），一

直致力于机器学习在实际业务场景中的落地应用，具体包括电商、资讯、O2O

及信息安全等方面。

课题 1.7：基于深度神经网络的转化建模和转化率预估优化

互联网广告场景中，转化率预估已经成为影响广告投放效果的一个重要策略环

节。由于不同广告主行业不同，各自对转化的定义也不同，转化类型可能包括注

册账号、付费下载、下单购买等。在这种场景下，如何建模转化率预估问题是很

有挑战的。我们希望有一个统一的建模，尽可能利用上所有的广告行为数据，同

时避免不同类型的转化数据相互影响，对不同类型的转化都能良好地预估。

导师简介：毕业于上海交通大学计算机应用技术专业，主要从事数据挖掘、机器

学习相关研究，共发表国际会议论文 6 篇，其中两篇为第一作者，分别发表在

CIKM 和 AAAI。目前主要负责社交广告中转化率的预估并参与转化优化相关策

略，相关项目获得公司技术突破奖。

课题 1.8：MOBA 游戏中的 AI 研究

MOBA（Multiplayer Online Battle Arena）类游戏是近年来市场上最为火热

的游戏类型，无论是《英雄联盟》、《王者荣耀》都有数以亿计的游戏用户，相关

电竞比赛全球关注。MOBA 类游戏吸引用户的主要点是在于其丰富多变的游戏

角色、技能组合和战略战术配合，而这种实时、高自由度、复杂的游戏也给人工

智能技术的研究提供了一个很好的环境。如何利用现有的人工智能技术，在

MOBA 类游戏中，实现正常的角色操作，以至于达到接近甚至超过人类玩家的

水平，是一个非常有挑战的课题，也是本项目主要关注的问题。

导师简介：本科毕业于复旦大学，博士毕业于新加坡国立大学计算机学院。博士

期间的主要工作是文档图像的处理。随后在新加坡国立大学担任博士后，主要负

责机器学习在医学图像的应用。加入腾讯前曾在新加坡资讯通信研究院担任研究

员，负责机器学习在智能交通系统和文字识别等领域的应用。目前主要工作方向

是人工智能在游戏上的应用和探索。

课题 1.9：面向自动发音评测及反馈的深度神经网络算法研究

自动发音评测是计算机辅助语言学习（CALL）的核心模块之一。传统的评测体

系中的语音模型是基于语音识别建立，因而忽略了评测任务的特定需求，造成对

不标准发音评测的困难。同时，传统的评测算法基于一些特定的声学和发音特征，

这些特征的识别提取需要大量的训练和数据，造成实际应用的困难。本课题旨在

探索构建面向发音评测的 DNN 算法，实现从语音到评测结果端到端的映射，提

高评测结果与人工评测的相关性，进而实现发音的评估和指导性的反馈。

导师简介：本科硕士毕业于清华大学，博士毕业于美国麻省理工学院，研究方向

为超大规模数值模拟、统计分析、随机模拟、优化算法、模型的预测和不确定性

分析，在 SIAM 上发表应用数学论文数篇。目前负责深度学习模型的优化算法改

进，以及语音评测技术的开发及算法研究。

课题 1.10：多模态样本的低维编码

样本的低维编码一直是机器学习领域关注的基本问题，也是很多实际应用急需的

技术，如在 NLP 领域的词编码(Word Embedding)。在过去几十年里，基于贝

叶斯推断的生成模型(Generative Model) 取得了很大的成功，其中生成模型用

来描述样本从低维到观测空间的映射过程。近些年，在学习观测样本的概率分布

方面，生成对抗网络(Generative Adversarial Network, GAN)受到了极大关注。

不过在处理多模态(multi modes)样本时，GAN 常常会遇到难以训练的状况。

在本课题中，我们将探讨基于 GAN 的多模态样本的低维编码问题。

导师简介：腾讯杰出科学家，曾就读及工作于复旦大学（本科），清华大学（硕

士），普林斯顿大学计算机系（博士），加州理工大学（博士后），香港中文大学

（助理教授，副教授）。现担任 Theoretical Computer Science 及 International

Journal of Quantum Information 杂志编委。主要研究方向为量子和经典的随

机算法，复杂性分析，分布式协议设计，以及上述理论在大规模数据处理，机器

学习和人工智能基础研究中的应用。

方向 2：量子计算

课题 2.1：量子机器学习算法

在解决某些大规模机器学习任务上，量子算法展现出了有指数级的运算优势。了

解在什么样的任务和条件下量子计算机有优势，优势有多大，是量子计算最重要

的研究领域之一。学生在联合培养期间将通过研究已知的量子算法，在导师的带

领下和团队成员的合作中开发新的高效量子机器学习算法。







方向 3：语音技术课题 3.1：结合预测网络的端到端自适应语音识别系统

目前的端到端语音识别系统缺少很好的自适应能力和鲁棒性，只有在训练数据很

大的情况下性能才能与 Hybrid 系统匹敌，因而对于长尾的情况识别率不高。在

这个项目里，我们结合语音和语言的预测来自动寻找说话人和环境信息并用这些

信息快速的对端到端系统进行自适应。导师简介：IEEE Fellow, ACM 杰出科学家，腾讯杰出科学家。曾在微软工作多

年。主要方向为语音识别。发表过 2 本专著和 170 余篇论文。

课题 3.2：针对鸡尾酒会问题的鲁棒多说话人语音识别系统

语音识别虽然在某些场景下已经达到了不错的性能，但是在真实复杂的噪声场景

下，系统性能急剧下降，离系统实用还有很大差距。这其中，处理那些多人混叠

的语音又格外具有挑战性。因而本课题期望利用一些高级的深度学习方法，比如

PIT 排列不变性训练、DPCL 深度嵌入分离表示等，并结合多麦克风处理技术和

说话人快速自适应方法，来提升系统在处理多人混叠语音上的识别性能。

导师简介：现任腾讯专家级科学家，之前在上海交通大学任职。目前专注语音识

别，说话人识别，深度学习等。发表过近百篇论文。

课题 3.3：低资源下的复杂社交场景语音信息安全重点技术

本研发全面面向互联网复杂信道场景，在跨语言多语种环境下，UGC 的关键词

识别，语音可能是一段低资源的外语，也可能是复杂信道场景下采集的远讲，也

有可能是最近非常火的直播。对这类复杂社交场景，低资源下的语音进行关键词

唤醒和关键词检索技术的研究，主要表现在：1. 低资源跨语种的神经网络声学

模型的适配方法：有效利用现有的使用充足语言数据训练的神经网络声学模型，

在只具备有限目标语言数据的条件下，基于各种的模型适配相关技术，训练得到

性能与现有模型接近的目标语言的神经网络声学模型。2. 神经网络计算性能优

化：一个方向是对庞大的网络参数集进行不同角度的量化或者是子空间聚类，从

而压缩参数的表示精度或是表示数目，实现计算加速的目的。希望能结合语音关

键词领域进行 n-bit 量化神经网络的相关研究与实现。

导师简介：博士毕业于中科院自动化所，毕业后加入杜比实验室（Dolby

Laboratory）,先后负责语音前端（单多通道增强，回声和混响消除，声源定位），

下一代语音编解码器 TCS，语音的鲁棒传输，会议实时语音识别和关键词检索等

项目。在各类国际语音会议和刊物中发表论文 17 篇，美国专利 10 余项。目前

研究兴趣在低资源小语种关键词检索，解码器加速，互联网音频单通道增强等。

课题 3.4：语音与音乐处理技术

基于神经网络进行单通道语音增强的处理，着力于解决鸡尾酒会等用传统信号处

理难以解决的单通道语音增强问题，智能地对歌声进行修复，将本来不在节奏或

者跑调的歌声通过对声音的各语音特征的调整；语音转换相关技术的研究，通过

语音处理改变一个人的语音个性特征，使之具有另一个人的语音特征，但同时保

持原有的语义信息不变。

导师简介：腾讯专家工程师，毕业于北京理工大学，先后就职于中兴通讯、腾讯

科技，10 余年语音相关技术研发经验，在实时语音通信各项技术上均有深入研

究，有多篇信号处理与网络相关技术专利。近年来积极探索新技术，在基于神经

网络的语音增强、语音转换、声音美化等技术上都进行了深入探索与不错的技术

积累，团队在 Interspeech 等语音顶会也发表了相关领域的论文。

方向 4：自然语言处理课题 4.1：基于语义分析和知识推理的深度文本理解技术及其应用

研究和探索基于语义分析和知识推理的深度文本理解技术以及其在开放域聊天

等场景中的应用。

导师简介：毕业于清华大学计算机科学与技术系，曾任微软亚洲研究院主管研究

员和阿里巴巴集团资深算法专家。目前主要研究方向为语义理解和智能人机交

互。曾在 ACL、EMNLP、WWW、SIGIR、CIKM、AAAI 等国际会议上发表论

文 20 多篇，曾多次担任 ACL、EMNLP、WWW、AAAI 等会议的程序委员会委

员以及 TOIS、TKDE 等期刊的审稿人。

课题 4.2：基于深度神经网络的文本生成技术及其应用

研究和探索基于深度神经网络的文本生成技术以及在自动对话生成，文本风格生

成上的应用等。

导师简介：毕业于中国科学技术大学，曾任微软亚洲研究院主管研究员。目前任

腾讯专家研究员，主要研究方向为对话交互和文本生成。曾在 EMNLP、WWW、

KDD 等国际会议上发表多篇论文。

课题 4.3：自然语言处理在腾讯信息安全中的应用

如何表示文章和句子是目前自然语言处理（NLP）研究领域的一个热门话题。目

前的主要方法是从大量的无标注语料中学习有用的特征以表示句子。很多研究者

都尝试了非监督的句子表示方法，Google 的 Doc2Vec、SkipThought、

Facebook 的 Sentence2vec 和 ICLR'18 提出句子表示框架，然而其中有几个关

键问题需要被解决：1. 怎样将词的语义嵌入到句子中；2. 如何有效的表示长文

和中文文章；3. 怎样定义目标函数将非监督问题转化成自我监督问题进行学习。

目前平台上累积了海量丰富的各类文章，长短不一并且分布在不同的领域，如何

有效的训练文章表示模型并利用迁移学习将已经学习到的信息用在之后的 NLP

任务上是这个项目的主要研究方向。

导师简介：毕业于澳大利亚悉尼大学，主要从事自然语言处理的应用与研究，在

信息抽取、文本分类、知识图谱以及机器学习等方面都有丰富经验。曾在澳大利

亚金融部门从事智能反洗钱与风险预测等工作，结合自然语言处理技术建立机器

学习预测模型，并推荐预防方案。目前在腾讯从事自然语言处理的基础研究工作。

课题 4.4：基于可微分神经计算机的机器翻译

相对于传统的 CNN 和 RNN 网络，可微分神经计算机（DNC）作为一个通用框

架有更强的记忆和泛化能力，但是目前依然存在一些问题制约了其实际应用：1.

复杂的网络结构导致了优化很难，参数十分敏感。2. 一些寻址操作导致模型并

行程度不高，很难有效利用 GPU 加速。本课题针对上面两个问题，优化 DNC

网络，构建基于 DNC 的新一代神经网络机器翻译模型（NMT）。导师简介：博士毕业于中国科学院计算技术研究所，研究方向为自然语言处理和

深度学习。在 ACL、EMNLP、IJCAI、AAAI 等国际顶级会议发表论文数十篇，

并长期担任 ACL、EMNLP、Neural Computation、JCST 等国际顶级会议和期

刊审稿人。

课题 4.5：面向 NMT 的多目标函数优化：翻译和译文质量评价

神经网络机器翻译（NMT）是 AI 和 NLP 的重要研究热点。现有的 NMT 使用

最大似然估计作为优化目标，并不对译文质量进行量化评估。本课题旨在探索改

进 NMT 优化策略的方法，通过改进模型结构和调整优化目标等，实现最大似然

估计和译文评价指标的多目标优化，旨在提高翻译质量的同时，对译文的可用性

给出评价。

导师简介：博士毕业于中国科学院计算技术研究所，研究兴趣为机器翻译、自然

语言处理和对话系统。曾作为主要核心人员参与 863 重大项目、教育部面上项

目、三星 SVoice（中文、日文）智能助手系统等多个科研项目的研发。在 ACL、

EMNLP、AAAI 等顶级国际会议发表学术论文 10 余篇。目前从事翻译引擎及相

关 NLP 工具的研发和改进。

课题 4.6：阅读理解与问答

对给定的问题和参考信息段落提供答案。包括对问题的理解、参考信息的理解、

答案的抽取等自然语言处理技术。

课题 4.7：增强学习在自然语言处理中的应用

依靠真实的产品场景和数据，探索增强学习在自然语言处理中的应用，包括序列

生成，多轮对话与问答等技术方向。

课题 4.6~4.7 导师简介：中科院理论物理研究所统计物理专业博士。当前负责

机器学习与自然语言理解相关的技术和产品应用，包括对话系统、阅读理解、机

器翻译等方向，在 ACL、NIPS 等顶会上发表过多篇文章。

课题 4.8：大规模知识图谱的构建与在问答系统中的应用

构建大规模的领域知识图谱，重点进行知识获取、知识表达、和基于知识的自动

问答的研究。

课题 4.9：基于生成模型的对话机器人

研究基于生成模型的 Chatbot，包括多轮交互机制、领域知识融合、对话风格迁

移与多样化、基于交互的在线学习等。

课题 4.8~4.9 导师简介：博士毕业于纽约州立大学布法罗分校。当前负责对话

机器人的技术研发与产品应用，在 ACL、SIGIR、IJCAI 等顶会上发表过多篇文

章。

方向 5：视觉及多媒体计算课题 5.1：人脸检测/识别关键技术研究

人脸是最重要的视觉信息之一，自动人脸检测与识别研究向来是人工智能和计算

机视觉领域的一个热点和难点问题，在工业界和学术界都受到广泛的重视。本课

题面向人脸技术在金融、移动互联网、视频监控等相关领域的重大需求，结合计

算机视觉技术前沿，以深度学习为主要技术手段，重点突破人脸识别，人脸活体

检测, 3D 人脸重建与识别等核心技术问题。

导师简介：IEEE 高级会员（IEEE Senior Member），现任腾讯专家工程师。硕

士和博士毕业于香港中文大学。曾在香港中文大学和美国密西根州立大学任博士

后研究员，曾在中国科学院先进技术研究院任职，先后担任副研究员、研究员（博

士生导师）。目前研究兴趣包括人工智能、计算机视觉、人脸检测与识别等。在

该领域的国际著名期刊和国际顶级会议（CVPR, ICCV, ECCV，ACM MM）上发

表二十多篇高质量论文。

课题 5.2：图像视频编辑技术研究

本项目涉及到图像的处理，编辑，生成等研究问题。研究图像/视频底层视觉的

研究问题。探索 GAN，Capsule 等模型在图像/视频上的新的研究任务。

课题 5.3：深度的视频理解技术研究

视频理解不仅需要学习单帧图像的表示，更要建模时间域的视频帧之间的相关

性。视频理解的课题包括有视频分类（Video Classification），运动识别（Action

Recognition）, action proposal, 运动定位（Action Localization），视频描

述生成（Video Captioning）等。

课题 5.2~5.3 导师简介：目前任腾讯专家研究员，之前任职于香港华为诺亚方

舟实验室。博士毕业于香港中文大学电子工程系，硕士和本科毕业于哈尔滨工业

大学计算机学院。现在主要从事深度学习在图像/视频上面的应用，以及一些多

模态深度学习方面的研究工作，在国际顶级会议和顶级期刊发表多篇论文。

课题 5.4：增强现实中的计算机视觉技术研究

增强现实涉及到的计算机视觉技术包括基于图像/视频的 SLAM 技术及三维场景

理解等领域。本课题可以重点在视觉 SLAM、三维重建、场景解析等方向进行研

究。

课题 5.5：计算机视觉技术在机器人上的研究

探索计算机视觉技术在机器人上的应用。视觉在机器人上的典型研究领域包括

learning to grasp，机器人的导航，learning to run 等。

课题 5.4~5.5 导师简介：腾讯专家研究员。博士毕业于美国哥伦比亚大学计算

机科学与电子工程专业，曾任 IBM 沃森研究中心研究科学家。曾获 Facebook

博士研究生奖学金，哥伦比亚大学优秀博士论文奖，计算机视觉与模式识别国际

会议 (CVPR) 青年研究者奖，国际信息检索大会 (SIGIR) 最优论文荣誉奖。长期

从事计算机视觉、机器学习、数据挖掘、信息检索等领域的基础研究和产品开发，

迄今发表和录用论文 100+篇，总引用次数据 Google Scholar 统计为 3600+次，

论文大都发表在国际权威的期刊与会议上，如 Proceedings of the IEEE、

IEEE TPAMI、NIPS、ICML、KDD、CVPR、ICCV、ECCV、IJCAI、AAAI、UAI、

SIGIR、SIGCHI 等。多次担任国际权威期刊的客座编委与审稿人，自 2007 年起

一直担任国际顶级会议 NIPS、CVPR、ICCV 等的程序委员会成员。

课题 5.6：深度学习技术在广告图片中的研究及应用

广告图片中的多模态信息（包括文本信息、物体信息、LOGO 信息等）对于加深

广告创意、用户偏好的理解，以及提升广告推荐效果都有积极意义。本课题主要

研究深度学习技术在广告图片多模态信息提取中的算法以及应用落地，包括文字

检测与识别（OCR）、物体检测、LOGO 识别、图片基础属性分析（清晰度、相

似度）、点击率预估等方面。

导师简介：中山大学计算机系博士，主要研究方向为视频物体检测与跟踪、图像

文字识别、深度学习和度量学习在计算机视觉领域的应用等。在 IEEE Trans on

TIP、JCST 等期刊和会议发表论文 11 篇，曾获中国图像图形会议优秀论文奖，

并连续两年获得全国研究生智慧城市大赛一等奖。目前主要从事广告图像识别算

法研究与落地。

课题 5.7：基于深度学习的图文多模态相关性研究

主要从事基于深度学习的图像识别技术及联合 NLP 基础的多模态研究，具体内

容主要包括分析文章主题模型，根据插图生成关键词内容，并采用主题模型与图

像内容进行分析，结合当前的最新深度学习的技术手段，重点突破文章标题及内

容主题与插图的相关性研究。

导师简介：博士毕业于中国科学院模式识别与人工智能专业。主要从事计算机视

觉、机器学习、强化学习等理论和应用研究，在计算机视觉领域内重要期刊，包

括 Trans. Image Processing、Neurocomputing、Signal Processing Letters

等期刊，以及重要国际会议发表论文共 9 篇，出版计算机视觉方面译注一部，申

请相关专利一项。工作期间曾从事场景分类、大规模的物体分类、游戏 AI 研发

（包括围棋、德州扑克）、智能客服问答系统等应用。目前主要从事基于图像/

视频内容 AI 的研究与应用工作。

课题 5.8：基于深度学习的图片内容理解和情绪化检索

一般的图片检索引擎旨在匹配图片内容和用户检索的物品或人物条目。然而，针

对特定场景，图片不仅需要反映物品内容的匹配，还要匹配用户需求的特定情感。

在本课题，我们需要理解图片的内容并进行图的情感分析，以满足特定场景比如

音乐背景和电台海报素材的图片情绪化检索。

导师简介：腾讯高级研究员。博士毕业于香港中文大学，主要从事搜索和推荐

任务的算法以及应用研究，在国际顶级会议（如 AAAI、SIGIR、WWW 等）和

国际重要会议（如 CIKM、SIGSPATIAL、ICONIP 等）发表多篇论文，并获 ICONIP

最佳论文提名。研究成果申请专利一项，并为专著《Encyclopedia of Social

Network Analysis and Mining》贡献一个章节。多次担任国际权威期刊的审稿

人，如 IEEE Transactions on Knowledge and Data Engineering、IEEE

Transactions Multimedia、Neural Networks 等。目前主要从事图片的内容理

解，情绪化搜索和图片自动合成的研究工作。

课题 5.9：物体检测与识别关键技术研究

物体检测与识别研究是人工智能和计算机视觉领域的热点、难点问题。在工业界

和学术界都受到广泛的重视。本课题面向通用物体检测技术在金融、移动互联网、

视频监控等相关领域的重大需求，结合计算机视觉技术前沿，以深度学习为主要

技术手段，重点突破针对不同场景下的物体检测与识别这两大核心技术问题。

导师简介：腾讯高级研究员。曾在香港中文大学从事研究助理工作并取得博士学

位，曾在联想香港研究院和香港久凌科技研究院任高级研究员。研究方向包括人

工智能、计算机视觉、物体检测与识别等。取得一项国际专利与三项国内专利。

课题 5.10：结合 GAN 网络的广告图片生成方式的研究

从互联网诞生开始，出现了 banner 广告、文本广告、图文广告、动态创意广告

等多种不同的广告样式。探索新的广告生成方式有着巨大的现实意义，如微动广

告能够吸引人更多的关注以及改善用户对于广告的体验，动态 banner 广告生成

能够节省大量人力并且能够帮助建立个性化的广告体系（千人千面）。本课题将

在广告内容理解的基础上，结合 GAN 网络，通过对素材、模版、文本、风格及

字体等的理解及动态组合，动态生成更多的广告图片，再通过动态挑选（ranking

问题），生成最适合展示的广告图片。

导师简介：腾讯高级研究员，毕业于北京航空航天大学。曾任职于百度、阿里核

心团队，在 AI 方向的多个领域如计算机视觉、计算广告、LBS、SLAM、机器人

等方向都有较为深入的研究。拥有 10+项专利，目前主要从事计算机视觉在商

品&广告推荐中的研究及产品化。

课题 5.11：人脸视觉计算

人脸是计算机视觉、计算机图形学研究的重要对象之一，在诸多视觉任务中扮演

了重要的角色。根据权威图像网站统计，人脸图片占了日常拍摄照片的六成以上。

无论是 to C 场景下的人脸检索、活体鉴别、美颜美妆，还是 to B 场景下的安防

监控、人机交互，人脸视觉计算都有重要的研究和实用价值。本课题依托于腾讯

平台，以人脸图片作为重点研究对象，研究内容涵盖光照校准、人脸检测、三维

重建、姿态估计、表观建模、属性编辑、图片美化等诸多计算机视觉、计算机图

形学热点问题在人脸图片上的优化和改进。该课题不仅能接触到世界一流的研究

问题，与行业最优秀的青年研究者共事，更有机会在人脸图片处理等领域做出突

出贡献，研究成果被千万用户所使用。

导师简介：腾讯高级研究员，浙江大学工学博士。曾任大疆创新算法预研工程师。

在 CVPR、ECCV、TIP 等国际顶级计算机视觉学术会议、期刊上发表过多篇第

一作者论文，担任过 CVPR、PG、TIP、TPAMI 等会议、期刊的审稿人，有丰富

的科研实践经验，研究方向涵盖了三维重建、计算摄影学、表观建模、反向渲染

等计算机视觉、计算机图形学的交叉领域。

课题 5.12：视频场景中的人物角色跟踪与识别

视频场景中人物角色的跟踪与识别是视频分析和视频理解领域中的一个重要的

研究方向，旨在理解视频中的人物的位置、动作和人物关系等。本课题涉及到人

脸检测、跟踪、角色识别、语义理解等多项计算机视觉领域的关键技术研究，吸

引了大量来自业界和学术界的关注。然而由于视频内容通常比较复杂，前景背景

难以区分, 场景快速切换等问题的影响, 视频特别是开放场景视频中的人物角色

跟踪与识别仍然是一个具有挑战性的问题。近年来，深度学习技术的发展为解决

该问题提供了可行方案。本课题依托腾讯在数据、技术以及基础设施等方面的优

势，旨在研究一种基于弱监督的深度学习方法，采用端到端的深度网络结构，实

现对视频场景中人物角色的自动跟踪与识别，并将方法应用于腾讯的各项相关业

务中。

导师简介：腾讯高级研究员。英国埃克塞特大学计算机科学博士。曾于英国牛津

大学视觉几何组进行博士后研究。目前负责人脸相关的算法研究工作。主要研

究方向包括深度学习、计算机视觉、人脸检测、跟踪与识别等。

课题 5.13：医疗影像 AI

人工智能与医学的跨界融合将给未来医疗领域带来颠覆性的巨大变化。腾讯在医

疗影像 AI 上具有很强的技术储备，投入也很大，已经与 100 多家国内顶尖医院

建立合作。公司在 2017 年 11 月入选科技部的首批“国家人工智能开放创新平

台”名单，成为人工智能“国家队”。本课题将利用腾讯从合作医院获得的海量

医学影像数据及标定，研究开发基于深度学习的疾病（包括癌症，心脑血管疾病，

脑神经疾病）早筛算法，包括病灶定位、分割、良恶性分类等等。

导师简介：腾讯专家研究员。本科和硕士毕业于清华大学，博士毕业于美国马里

兰大学，之后加入西门子医疗美国研究院。共出版学术专著 3 本，发表论文 100

多篇，被引用 4500 多次。发明了将近 70 个美国专利。目前担任 IEEE 高级会员，

IEEE 生物医学信息杂志副主编（影响力因子 3.45），和美国医学和生物工程学会

（AIMBE）的会士（Fellow）。研究工作曾获中国国家科技进步二等奖，美国爱

迪生专利奖，和欧洲心胸外科医生协会技术创新奖。

课题 5.14：多模态微信用户画像分析

通过对用户朋友圈发表的 UGC 图像、视频以及文本内容分析，构建多维度、层

次化用户画像，进而辅助面向不同垂直领域的推荐系统。

课题 5.15：微信生态下海量图像数据库及评测协议构建

构建符合微信场景的多标签、层次化海量图像数据库，标签要求同时体现具象、

抽象视觉语义概念。

课题 5.14~5.15 导师简介：毕业于中国科学院计算技术研究所，博士研究方向

为跨模态多粒度的大规模人脸检索。攻读博士期间曾在国际会议、期刊上发表计

算机视觉领域学术论文 15 篇，其中包括领域顶级会议 CVPR (CCF A 类)、ICCV

(CCF A 类)以及顶级期刊 TIP (CCF A 类)。目前在腾讯从事用户画像的研发工作。

课题 5.16：音视频质量评估

音频、视频、图像等质量评估，结合心理声学模型、人眼视觉系统等对音频、视

频、图像进行客观质量分析的算法研究，包括全参考评估、部分参考评估以及无

参考评估，旨在提供更易落地且更符合主观的客观评估标准。

课题 5.17：目标识别与跟踪

该课题聚焦在基于深度学习的计算机视觉研究与应用领域，结合产品数据和用户

行为打造个性化和智能化的产品体验。主要研究方向包括：手势识别，人体姿态

识别；图像/视频编辑，生成和理解；目标检测，跟踪和识别等。

课题 5.16~5.17 导师简介：腾讯专家工程师，毕业于华南理工大学。在系统架

构、网络技术、性能优化、音视频处理技术、机器学习应用等方面颇有研究，有

几十篇相关专利。近年来主要专注新技术的探索和落地工作，在计算机视觉分析，

高性能神经网络建模等方面有较丰富的经验。

课题 5.18：视频编码与处理技术

视频、图片处理与编码技术结合，旨在提供更好的视觉体验。包括：视频分类、

视频效果自动美化、精彩视频自动编辑与摘要、物体跟踪与识别、AI 视频压缩、

视频超分辨率、AI 流控、视频通讯技术等。

导师简介：美国加州大学圣地牙哥分校电机与电脑工程博士，曾任职苹果，负责

研发 iTunes 及 FaceTime 相关视频技术。现主要致力于提升视频相关应用的

用户体验。研究兴趣包括视频分析、处理、编解码、以及机器学习在视频领域的

应用。

方向 6：数据挖掘及相关应用研究课题 6.1：强化学习技术在广告推荐系统中的应用

研究如何将强化学习技术应用到广告推荐系统中，设计强化学习算法，探索并挖

掘用户的潜在兴趣，结合点击率预估，学习最优的在线推荐策略，最大化推荐平

台收益。

导师简介：腾讯高级研究员。香港科技大学计算机科学与工程系博士，主要研究

方向为迁移学习、推荐系统、机器学习等。博士期间多次在 KDD、AAAI 等会议

和期刊上发表论文，多次担任 IJCAI、WWW、TKDE 等国际会议和期刊的审稿

人。

课题 6.2：社交网络结构挖掘

研究微信社交网络的结构与属性特征，包括用户在社交网络中的特征、用户之间

的相似性以及用户影响力等方面。技术领域涉及机器学习、复杂网络、网络表达

学习（network representation learning）、用户影响力建模、影响力最大化

(influence maximization)等。

导师简介：腾讯专家级研究员，华南理工大学数学系硕士。毕业后入职腾讯，一

直从事数据挖掘相关工作。目前主要负责微信社交数据挖掘相关工作、微信社交

Lookalike、微信社会传播的分析建模等工作，曾主导 APP 社交推荐、好友用户

圈子挖掘画像建设等项目。曾获邀在 InfoQ 等行业会议做主题报告。

课题 6.3：海量用户婚恋育儿状态预测研究

基于海量数据的用户婚恋状态挖掘，属于典型的用户数据建模任务。任务涉及训

练样本筛选、特征工程及模型优化等典型机器学习任务。如何利用腾讯系海量用

户行为数据，挖掘适用于婚恋状态分类的特征组合及其表示，选择能高效处理百

万级维度特征的模型算法，是本课题的主要挑战。

导师简介：新加坡国立大学机器学习方向博士。曾在美国杜克大学从事博士后研

究，通用公司研究员。现为腾讯高级研究员。发表过 30+篇国际会议与期刊论

文。主要研究兴趣为机器学习、贝叶斯统计模型、压缩感知。

课题 6.4：游戏视频内容的摘要生成

个性化内容推荐是现在互联网领域的热门应用，其中，视频类资讯内容非常受关

注，对视频类资讯进行信息抽取和加工也一直是模式识别、人工智能的重要研究

方向。在游戏视频领域，针对每天生成的海量不同类型的游戏视频，如何快速的

抽取有价值信息，进行视频的标题、摘要生成、关键内容捕捉等应用，进而在进

行个性化内容推荐时提高用户对视频类内容的点击意愿和粘性，是本课题主要关

注的问题。

导师简介：博士毕业于中国科学技术大学基础数学专业。曾在华为技术有限公司

负责数据挖掘技术在电信领域的应用研究，包括 CRM、个性化推荐、文本挖掘

等领域。目前研究游戏领域的数据挖掘技术与应用，通过用户画像分析、个性化

服务等为用户提供更好的服务体验，为业务提供更有价值的运营支撑。

课题 6.5：基于社交数据的页面质量分析

基于微信的社交传播数据构建新的 PeopleRank、TrustRank 等模型来对页面质

量分析，进而改善搜索效果。

导师简介：中国科学院计算技术研究所毕业，当前负责微信搜索和推荐的技术研

发和产品应用，在 ACL、AAAI 等顶会上发表过多篇文章。

课题 6.6：新闻热点挖掘和热度预测

新闻热点发现和热点追踪是推荐系统中的重要组成部分，我们需要在实时新闻数

据中挖掘热点话题、突发事件，并希望在热点并未完全爆发时及时发现潜在的热

点新闻，结合微信的社交传播数据，在事件的发展过程中及时追踪事件的最新进

展，最终形成事件发展的关键时间序列。

导师简介：美国史蒂文斯理工学院博士。当前负责微信“看一看”基础数据的建

设，包括优质文章、低质文章、新闻热点挖掘等方向。

课题 6.7：公众号权威度研究

该课题将围绕两方面展开，一方面基于微信的社交数据和用户行为数据，挖掘出

各领域精英人群，以精英人群的阅读行为来判定公众号的权威度（包括内容深度

等方面）；另一方面，通过 NLP 技术从文本方面判定文章的权威度。将高权威度

内容推荐给精英人群阅读，提升“看一看”在精英人群中的口碑，引导公众号生

态创作更多优质内容。

课题 6.8：小程序用户体验研究

随着小程序生态的日渐繁荣，大量的小程序开发者涌入，但是开发出来的小程序

质量良莠不齐。本课题将从小程序的代码和用户使用行为两方面入手，建立模型

判定小程序的质量。具体而言，可基于行为序列建模判定用户使用流畅度、是否

存在欺诈、是否为恶意蹭流量等；综合序列模型和 NLP 技术，判定小程序内容

和标题是否相符。

课题 6.7~6.8 导师简介：北京邮电大学硕士。当前负责微信“搜一搜”各垂直

搜索的技术，包括搜索排序、搜索满意度、意图识别、公众号画像、小程序画像、

搜索 growth 等方向。同时参与微信“看一看”基础数据的建设，包括优质文章、

低质文章、新闻热点挖掘等方向。

课题 6.9：游戏垂直领域大规模知识图谱的构建

抽取大规模，高质量的结构化数据一直以来是构建知识谱图的难点之一。传统的

文本信息抽取技术（Text Information Extraction）能够帮助我们依照知识图谱

框架(Schema)从大规模非结构化文本中抽取结构化信息。然而，这种方法限制

了实体（Entity）、关系(Relation)等的覆盖率。基于以上原因，开放式信息抽取

技术（Open Information Extraction）逐渐成为研究重点，目标是从海量、冗

余、异构、不规范、含有大量噪声的大规模的文本中抽取开放类别的实体、关系、

事件等多层次语义单元信息。我们的研究重点主要是利用开放式信息抽取技术，

从大规模的非结构化数据中抽取高质量的、规范的、与游戏相关的三元组, 从而

构建游戏垂直领域的大规模知识图谱。

导师简介：本科毕业于吉林大学，硕士、博士就读于意大利特兰托大学。博士期

间的主要研究课题和方向为通过游戏化(Gamification, Game with a purpose)

的方法校验大规模知识图谱，以及大规模知识图谱及语言库（Linguistic

resource，Ontology）的构建。目前的工作方向是构建游戏垂直领域的知识图

谱，并尝试寻找更多的落地应用。

方向 7：数据库存储技术研究

课题 7.1：历史数据库的存储优化

历史数据是当前数据库的过往轨迹。高效追溯数据的变迁、查询历史值等，尤其

在金融行业具有很大意义，如监管部门要求提供某个账号过去五年的账户金额变

化情况，这就需要快速地追溯历史数据。历史数据库、时态数据库将在大数据的

背景下更好实现数据的价值。因此对历史数据库、时态数据库形成的巨量数据的

存储与管理展开研究很有前景和意义。

导师简介：中国科学技术大学软件工程硕士，中国人民大学信息学院特聘工程硕

士企业导师，国家级高级工程师，中国数据库技术大会专家顾问团成员。从事数

据库引擎研发、数据库架构设计、数据库技术管理等工作 20 年。先后在北京大

金仓、Oracle 公司、华胜天成等公司任职，现任腾讯专家工程师，从事分布式

数据库 TDSQL 的研发工作，曾获公司技术突破银奖。出版数据库相关著述两部。

申请专利十余项。获北京市科技进步一等奖。

方向 8：网络研究课题 8.1：可扩展和高可靠的 RDMA 网络研究

高性能计算、分布式应用和云存储等业务的兴起，给云网络提出了更高带宽和更

低延时的需求。基于以太网的 RDMA（RoCEv2）协议可以很好的满足这些需求。

然而，RDMA 在超大规模的以太网环境下部署还存在诸多问题。本课题将基于

腾讯 RDMA 网络环境，研究并优化 RDMA 流量控制、拥塞控制和 QoS 等机制，

为构建可扩展和高可靠的 RDMA 网络打下坚实基础。

导师简介：中科院计算所博士，主要研究方向为数据中心网络和可重构计算。曾

就职于微软亚洲研究院，从事 DCN、NFV、RDMA 和 SmartNIC 等领域的研究

和研发工作。曾在微软美国总部工作，基于 SmartNIC 从事微软云网络加速系

统设计。目前在腾讯负责智能网卡研发、云网络系统规划和网络研究等工作。博

士和工作期间，在网络领域顶级国际会议(SIGCOMM、CoNEXT、INFOCOM、

ATC 和 ToN 等)上发表多篇论文。

课题 8.2：大规模社交网络上的分布式算法

腾讯微信和 QQ 的活跃用户数已分别达到十亿和八亿多，用户的链接状况、交

流信息更加丰富多样。传统的在如此超大的图上常常无法支持有效的数据处理。

在本课题中，我们将探讨对超大图上的分布式算法和流算法的设计问题，并有机

会对成功的算法在实际数据中进行测试及运行。







方向1：机器学习及其相关应用研究™„件一... · 用人工智能在现实世界中的落地。 导师简介：导师...

Documents

方向1：机器学习及其相关应用研究™„件一... · 用人工智能在现实世界中的落地。导师简介：导师...