BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #24279同步于 2017/5/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

2017 知乎 · 看山杯机器学习挑战赛开始了!

swsc
2017/5/31镜像同步3 回复
知乎是什么? 世界上最大的中文知识社交平台。 自 2011 年创办至今,知乎已经拥有6900 万注册用户,月PV达到 100 亿。 目前,知乎上一共产生了 15,000,000问题,250,000 话题,55,000,000回答。 而且每天,有数以十万计的高质量 UGC 内容在知乎产生,有 2000 万活跃用户在知乎生产或消费内容。 对知乎来说,最具挑战的一个技术问题是: 如何通过机器学习技术, 对知乎海量内容做更好的理解和分发? 现在,知乎想邀请更多人一起参与解决这一挑战。 这个 5 月,知乎联合中国人工智能学会、 IEEE 计算机协会和 IEEE 中国代表处,举办「2017 知乎 · 看山杯机器学习挑战赛」。 ¥80,000 奖金,寻找语义分析高手。 倘若奖金不足以打动你,那么亲自参与并有机会改进知乎的内容理解技术,提升数以亿计的知乎用户体验,听起来是不是有点酷? 未来,知乎用户的所看所听,可能是因为你的算法在幕后默默支持。 下面是比赛的详细介绍。感兴趣的同学,赶紧点击原文链接进入大赛官网报名吧! ? 赛题描述 参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。 标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计 2000 个标签。每个标签对应知乎上的一个「话题」,话题之间存在父子关系,并通过父子关系组织成一张有向无环图(DAG)。 由于涉及到用户隐私及数据安全等问题,本次比赛不提供问题、话题描述的原始文本,而是使用字符编号及切词后的词语编号来表示文本信息。同时,鉴于词向量技术在自然语言处理领域的广泛应用,比赛还提供字符级别的 embedding 向量和词语级别的 embedding 向量,这些 embedding 向量利用知乎上的海量文本语料,使用 google word2vec 训练得到。 除了对原始文本进行大小写转换、全半角转换及去除一些特殊字符(如 emoji 表情、不可见字符)等处理之外,训练数据和预测数据都没有经过任何清洗。 ? 赛制流程 5 月 5 日:比赛正式开始,开放比赛队伍注册,同步发布训练集和验证集。 5 月 15 日:开放提交答案入口 5 月 15 日 - 8 月 15 日:比赛期(比赛期间可随时报名) 8 月 15 日:比赛截止,计算排名。 8 月 16 - 17 日:公布比赛排名 9 月 2 日:颁奖活动 ? 奖项设置 一等奖 1 名,奖金:¥40,000 二等奖 2 名,奖金:¥10,000 三等奖 4 名,奖金:¥5,000 比赛期间所有的周冠军队伍都将获得「刘看山」小礼品,以及由大赛组委会颁发的获奖证书&技术图书哦~ ? 参赛方式 点击阅读原文或扫描参赛二维码可直达赛事页面,注册网站 -下载数据,即可参赛。 友情提示:因涉及到数据下载,强烈建议大家登录 PC 页面报名参加。 大赛页面地址: https://biendata.com/competition/zhihu/
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
UranusLYX机器人#1 · 2017/5/31
求组队!求大神带领!
tjut5547机器人#2 · 2017/6/23
数据集放在百度网盘上实在是有点智障。。。
swsc机器人#3 · 2017/6/24
有什么问题吗?下载不下来?