BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #7002同步于 2010/7/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

文本特征提取

qiaoxx1126
2010/7/9镜像同步9 回复
问题描述:一个淘宝的宝贝标题通常含有比较丰富的信息,包括品牌、型号、系列、商品名、修饰词、促销词、特色词等。例如:“包邮 安利 纽崔莱 成人钙镁片(250片)关节骨骼的救星”,“puma/彪马【基本系列】*男短袖POLO*|2PU651374-03(黑色)”中心词是指宝贝标题中最能体现宝贝本身实体特征的词,包括品牌、型号、系列、商品名。例如上面两个例子中的“安利、纽崔莱、钙镁片”和“puma/彪马、男短袖、POLO、2PU651374-03”就是中心词。标题中的词是否为关键词会和宝贝描述、所处的位置、以及字面的特征方面有关。利用这些关系,能在一定程度上找到这些中心词。这些相关的数据会提供。 评价指标: 测试极给定m条宝贝标题,其中的中心词已经标出。 评测指标为F值。 训练集为标注好的N条宝贝。 发现不会做,求牛人们留思路
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
river机器人#1 · 2010/7/9
楼主在阿里巴巴实习?
qiaoxx1126机器人#2 · 2010/7/10
【 在 river 的大作中提到: 】 : 楼主在阿里巴巴实习? : -- 没得,是看到这个东西觉得挺有用,想试着写写,大哥了解不
leelee机器人#3 · 2010/7/10
可以参看Liu Bing的论文,他的方法对于评价对象就是你所提到的中心词的抽取还是有一定较好的正确率。也可以从句法树方面考虑。KDD和SIGIR有几篇这方面的论文,你可以搜一下关于opinion/sentiment summarization的论文。
Rorschach机器人#4 · 2010/7/12
唉,中心词啊,Concept啊,搞得我们做Product很头大。 Researcher越说越Fancy,但是永远只能解决head问题……
gootyking机器人#5 · 2010/7/12
唔。好专业 【 在 Rorschach (Rorschach) 的大作中提到: 】 : 唉,中心词啊,Concept啊,搞得我们做Product很头大。 : Researcher越说越Fancy,但是永远只能解决head问题……
lclc413机器人#6 · 2010/7/16
人家说的是只有想不到,没有做不到。。。 所以师兄。。。哎。。。我们永远觉得真虚幻。。。 【 在 Rorschach (Rorschach) 的大作中提到: 】 : 唉,中心词啊,Concept啊,搞得我们做Product很头大。 : Researcher越说越Fancy,但是永远只能解决head问题……
cclive机器人#7 · 2010/7/16
现在的机器学习的会议,最热门的就是搞这个东西了。确实是好专业。 【 在 gootyking 的大作中提到: 】 : 唔。好专业 : 【 在 Rorschach (Rorschach) 的大作中提到: 】 : : 唉,中心词啊,Concept啊,搞得我们做Product很头大。 : ...................
wtq机器人#8 · 2010/8/3
题目都没看明白,能不能上传个淘宝图片,然后再阐释题目需求?
earl机器人#9 · 2010/8/3
【 在 qiaoxx1126 的大作中提到: 】 : 问题描述:一个淘宝的宝贝标题通常含有比较丰富的信息,包括品牌、型号、系列、商品名、修饰词、促销词、特色词等。例如:“包邮 安利 纽崔莱 成人钙镁片(250片)关节骨骼的救星”,“puma/彪马【基本系列】*男短袖POLO*|2PU651374-03(黑色)”中心词是指宝贝标题中最能体现宝贝本身实体特征的词,包括品牌、型号、系列、商品名。例如上面两个例子中的“安利、纽崔莱、钙镁片”和“puma/彪马、男短袖、POLO、2PU651374-03”就是中心词。标题中的词是否为关键词会和宝贝描述、所处的位置、以及字面的特征方面有关。利用这些关系,能在一定程度上找到这些中心词。这些相关的数据会提供。 : 评价指标: : 测试极给定m条宝贝标题,其中的中心词已经标出。 : ................... 有用户输入的点击数据么?用户输入的查询词和点击会有很大的帮助的 在实际应用中我感觉首先要知道能拿到哪些数据,怎么利用这些。不能局限在一开始所谓的题目设定的。毕竟只看最后效果的 然后思考用户或者卖家在哪些情况下会输入中心词,把这些情况转化为特征,然后用分类器做分类 一点建议,仅供参考