BYR Achieve · 镜像论坛

知乎是什么？世界上最大的中文知识社交平台。自 2011 年创办至今，知乎已经拥有6900 万注册用户，月PV达到 100 亿。目前，知乎上一共产生了 15,000,000问题，250,000 话题，55,000,000回答。而且每天，有数以十万计的高质量 UGC 内容在知乎产生，有 2000 万活跃用户在知乎生产或消费内容。对知乎来说，最具挑战的一个技术问题是：如何通过机器学习技术，对知乎海量内容做更好的理解和分发？现在，知乎想邀请更多人一起参与解决这一挑战。这个 5 月，知乎联合中国人工智能学会、 IEEE 计算机协会和 IEEE 中国代表处，举办「2017 知乎 · 看山杯机器学习挑战赛」。￥80,000 奖金，寻找语义分析高手。倘若奖金不足以打动你，那么亲自参与并有机会改进知乎的内容理解技术，提升数以亿计的知乎用户体验，听起来是不是有点酷？未来，知乎用户的所看所听，可能是因为你的算法在幕后默默支持。下面是比赛的详细介绍。感兴趣的同学，赶紧点击原文链接进入大赛官网报名吧！ ? 赛题描述参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据，训练出对未标注数据自动标注的模型。标注数据中包含 300 万个问题，每个问题有 1 个或多个标签，共计 2000 个标签。每个标签对应知乎上的一个「话题」，话题之间存在父子关系，并通过父子关系组织成一张有向无环图（DAG）。由于涉及到用户隐私及数据安全等问题，本次比赛不提供问题、话题描述的原始文本，而是使用字符编号及切词后的词语编号来表示文本信息。同时，鉴于词向量技术在自然语言处理领域的广泛应用，比赛还提供字符级别的 embedding 向量和词语级别的 embedding 向量，这些 embedding 向量利用知乎上的海量文本语料，使用 google word2vec 训练得到。除了对原始文本进行大小写转换、全半角转换及去除一些特殊字符（如 emoji 表情、不可见字符）等处理之外，训练数据和预测数据都没有经过任何清洗。 ? 赛制流程 5 月 5 日：比赛正式开始，开放比赛队伍注册，同步发布训练集和验证集。 5 月 15 日：开放提交答案入口 5 月 15 日 - 8 月 15 日：比赛期（比赛期间可随时报名） 8 月 15 日：比赛截止，计算排名。 8 月 16 - 17 日：公布比赛排名 9 月 2 日：颁奖活动 ? 奖项设置一等奖 1 名，奖金：￥40,000 二等奖 2 名，奖金：￥10,000 三等奖 4 名，奖金：￥5,000 比赛期间所有的周冠军队伍都将获得「刘看山」小礼品，以及由大赛组委会颁发的获奖证书&技术图书哦~ ? 参赛方式点击阅读原文或扫描参赛二维码可直达赛事页面，注册网站 -下载数据，即可参赛。友情提示：因涉及到数据下载，强烈建议大家登录 PC 页面报名参加。大赛页面地址： https://biendata.com/competition/zhihu/

2017 知乎 · 看山杯机器学习挑战赛开始了！