返回信息流知乎是什么?
世界上最大的中文知识社交平台。
自 2011 年创办至今,知乎已经拥有6900 万注册用户,月PV达到 100 亿。
目前,知乎上一共产生了 15,000,000问题,250,000 话题,55,000,000回答。
而且每天,有数以十万计的高质量 UGC 内容在知乎产生,有 2000 万活跃用户在知乎生产或消费内容。
对知乎来说,最具挑战的一个技术问题是:
如何通过机器学习技术,
对知乎海量内容做更好的理解和分发?
现在,知乎想邀请更多人一起参与解决这一挑战。
这个 5 月,知乎联合中国人工智能学会、 IEEE 计算机协会和 IEEE 中国代表处,举办「2017 知乎 · 看山杯机器学习挑战赛」。
¥80,000 奖金,寻找语义分析高手。
倘若奖金不足以打动你,那么亲自参与并有机会改进知乎的内容理解技术,提升数以亿计的知乎用户体验,听起来是不是有点酷?
未来,知乎用户的所看所听,可能是因为你的算法在幕后默默支持。
下面是比赛的详细介绍。感兴趣的同学,赶紧点击原文链接进入大赛官网报名吧!
? 赛题描述
参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。
标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计 2000 个标签。每个标签对应知乎上的一个「话题」,话题之间存在父子关系,并通过父子关系组织成一张有向无环图(DAG)。
由于涉及到用户隐私及数据安全等问题,本次比赛不提供问题、话题描述的原始文本,而是使用字符编号及切词后的词语编号来表示文本信息。同时,鉴于词向量技术在自然语言处理领域的广泛应用,比赛还提供字符级别的 embedding 向量和词语级别的 embedding 向量,这些 embedding 向量利用知乎上的海量文本语料,使用 google word2vec 训练得到。
除了对原始文本进行大小写转换、全半角转换及去除一些特殊字符(如 emoji 表情、不可见字符)等处理之外,训练数据和预测数据都没有经过任何清洗。
? 赛制流程
5 月 5 日:比赛正式开始,开放比赛队伍注册,同步发布训练集和验证集。
5 月 15 日:开放提交答案入口
5 月 15 日 - 8 月 15 日:比赛期(比赛期间可随时报名)
8 月 15 日:比赛截止,计算排名。
8 月 16 - 17 日:公布比赛排名
9 月 2 日:颁奖活动
? 奖项设置
一等奖 1 名,奖金:¥40,000
二等奖 2 名,奖金:¥10,000
三等奖 4 名,奖金:¥5,000
比赛期间所有的周冠军队伍都将获得「刘看山」小礼品,以及由大赛组委会颁发的获奖证书&技术图书哦~
? 参赛方式
点击阅读原文或扫描参赛二维码可直达赛事页面,注册网站 -下载数据,即可参赛。
友情提示:因涉及到数据下载,强烈建议大家登录 PC 页面报名参加。
大赛页面地址:
https://biendata.com/competition/zhihu/
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #24279同步于 2017/5/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
2017 知乎 · 看山杯机器学习挑战赛开始了!
swsc
2017/5/31镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。