BYR Achieve · 镜像论坛

招募说明智能图文与机器视觉实验室与北邮有多维度合作，重视北邮才俊，面向北邮招募博士后。人数不限，合适即可。实验室负责人及成员王生进教授；彭良瑞副研究员；李亚利助理研究员；博士后4名。联系方式 wgsgj@tsinghua.edu.cn 实验室概况清华大学电子工程系智能图文与机器视觉实验室前身是智能图文与信息处理研究室视频组（CV-AI Lab），隶属于北京信息科学与技术国家研究中心，危爆物品探测技术国家工程研究中心。实验室研究领域包括人工智能、机器学习和计算机视觉等，主要研究方向包括人脸识别与行人再识别、物体检测与图像语义描述、多模态协同机器人、多文种文字检测与识别等。获2021年北京市科学技术奖技术发明一等奖研究方向 1.人脸识别与行人再识别研究在人脸识别研究中，2018年在国际权威人脸检测测试库FDDB取得国际第一。研究成果已经应用在贵州六盘水市公安局。在行人再识别研究中，2015年行人再识别研究成果被《麻省理工学院技术评论》高度评价。建立并公开了三个本领域权威测试行人数据集iLIDS-VID、Market1501、MARS。到目前为止，成为本领域标准测试集，三个数据集已经有超过13600次的下载量。 2.物体检测与图像语义描述研究在物体检识别与分类研究中，取得了多个公开数据集上多项指标领先的成果，提出了基于领域适应大规模检测方法，实现ImageNet上所有类别物体（ImageNet 2009 Release：10447类）大规模物体检测。在图像检索研究中，大幅度提升了图像检索中视觉匹配的精确度，在主要图像检索标准测试集上均达到了国际领先水平。在图像理解和图像语义描述研究中，研究方向包括图像语义描述，图像问答（VQA）等。图像语义描述研究包含面向通用场景的语义描述，及面向特定场景的描述（如表情描述），在图像语义描述准确性和多样性上均取得了国际领先水平。 3.多模态协同机器人研究多模态协同机器人研究致力于研究与人在共同空间、近距离、协同工作的机器人，实现多模态人机物交互。研究的核心技术包括通用物体检测，语音识别与NLP，视觉图像的多模态语义理解，目标物体位姿估计与抓取点确定，视觉与触觉力反馈融合的物体抓取，持物移动中的平衡策略等。目前研究构建了面向人机交互短语命令的语音识别原型系统引擎，实现由语音指令控制的机器人物体抓取系统。 4.多文种文字检测与识别研究多文种文字检测与识别研究对于基于内容的互联网海量图像与视频信息检索等应用具有重要意义。相关研究内容包括基于多尺度时空信息分析的深层神经网络建模、半监督迁移学习等，显著提升了多文种场景文字和手写文字的识别性能。技术成果荣获ICPR2020及ICDAR 2017阿拉伯文视频图像文字检测与识别竞赛冠军，并荣获ICDAR 2019 Best Student Paper Runner-Up Award、DAS 2016 Best Paper Award、SPIE DRR 2015 Best Student Paper Award。 5.医疗影像识别与应用研究实验室与多家公立医院及医疗AI产业公司合作，对医疗影像识别开展科研与应用研究。目前开展工作的领域有眼科多模态数据分析与复杂影像识别，心血管冠脉造影AI识别技术研究，并结合多光谱技术对医学诊断提供电子信息技术研究与创新。实验室获得了包括973、863、国家自然科学基金、教育部博士点基金、国家科技支撑计划等多个国家项目支持，并取得出色成果。实验室在国际重要期刊IEEE和学术会议发表论文逾200余篇，其中近年发表IEEE Trans等顶级期刊18篇，CVPR/ICCV /ECCV 三大顶会30篇，其他顶会16篇，AAAI oral 1篇。谷歌单篇引用逾2400次。申请发明专利15项。获2008年国家科技进步二等奖1项、获2006北京市科学技术一等奖1项，获2019年吴文俊人工智能科学技术自然科学奖，2019年公安部科学技术奖，DAS最佳论文 1篇，ICPR最佳论文 1篇，2017年度中国人工智能学会优秀博士论文奖，2020年度中国图像图形学会优秀博士论文奖。工作地点 o 清华大学 · 罗姆楼

【校招】【博士后】清华大学电子工程系智能图文与机器视觉实验