返回信息流☆─────────────────────────────────────☆
cryppie (北邮人) 于 (Fri Dec 7 11:22:30 2007) 提到:
是不是叫做潜层语义分析
具体的内容哪个来说一下吧
most 3x!
☆─────────────────────────────────────☆
hh1012 (3C) 于 (Fri Dec 7 11:45:22 2007) 提到:
以前看过,不过,感觉没抓住本质。LSA最经典那篇是Deerwester那篇吧~
好像近些年发展成一个系列了,pLSI,LPI,...,LDA,不如组织个学习吧,把这个系列搞透了~
☆─────────────────────────────────────☆
cryppie (北邮人) 于 (Fri Dec 7 11:56:10 2007) 提到:
师姐要bg大家?呵呵
【 在 hh1012 的大作中提到: 】
: 以前看过,不过,感觉没抓住本质。LSA最经典那篇是Deerwester那篇吧~
: 好像近些年发展成一个系列了,pLSI,LPI,...,LDA,不如组织个学习吧,把这个系列搞透了~
☆─────────────────────────────────────☆
hh1012 (3C) 于 (Fri Dec 7 14:48:56 2007) 提到:
sigh~我还不如你呢~
☆─────────────────────────────────────☆
river (river) 于 (Fri Dec 7 19:12:04 2007) 提到:
我记得在Chris. Manning的foundation of statistical natural language processing的第三部分的信息检索中有一节
印象中在文本中为了建立term与term之间的关系,而不仅仅是考虑“bag of words”,从而引入LSA的。采用SVD使文本降维,建个索引叫做LSI,怎么一折腾加了个probability又成了PLSA,于是产生后面的各种“叶子”文章。
不过LSI这个技术实用性不强,至少不能用在Web检索中,限领域的或者非网络检索也许还可以吧,原因有两个:
1.速度不行,复杂度o(n^3)
2.降维之后每一维的物理意义不明确,不像人脸识别一降维之后发现一维是光照一维是角度。这个应该与文本的多样性,包括文本长度,语义,领域等等都有关系吧。
你们实验室不是hjn师姐不是在SIGIR上的文章就是关于文本降维的吗?
☆─────────────────────────────────────☆
cryppie (北邮人) 于 (Fri Dec 7 19:55:11 2007) 提到:
不是document-term的关系吗?
为什么要用SVD?
latent semantic怎么理解?
【 在 river 的大作中提到: 】
: 我记得在Chris. Manning的foundation of statistical natural language processing的第三部分的信息检索中有一节
: 印象中在文本中为了建立term与term之间的关系,而不仅仅是考虑“bag of words”,从而引入LSA的。采用SVD使文本降维,建个索引叫做LSI,怎么一折腾加了个probability又成了PLSA,于是产生后面的各种“叶子”文章。
: 不过LSI这个技术实用性不强,至少不能用在Web检索中,限领域的或者非网络检索也许还可以吧,原因有两个:
: ...................
☆─────────────────────────────────────☆
river (river) 于 (Fri Dec 7 20:35:29 2007) 提到:
用的是doc-term矩阵来做分解,但是初衷是解决文本中term-term的冗余
用svd是为了1.降维2.便于降维之后的各种各种相似度的计算。除了svd之外还有什么别的数学矩阵工具&方法我就不知道了
浅层/隐含语义是指简单(“浅”?呵呵)的通过svd方法来挖掘隐含的潜在的语义信息(消除语义上的冗余?)
我也没有研究过,只是自己的理解,哪有不对的地方请指正
【 在 cryppie 的大作中提到: 】
: 不是document-term的关系吗?
: 为什么要用SVD?
: latent semantic怎么理解?
☆─────────────────────────────────────☆
hh1012 (3C) 于 (Fri Dec 7 23:12:03 2007) 提到:
latent是潜而非浅吧~
在文本分类里面,使用词的向量来表示文本,但是有两个问题存在,一个是同义词,就是多个词都表示一个意思,另一个是多义词,就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义,而是多个变量的综合,在文本里面就是多个词意思的综合。
LSA经常用做降维,但是因为它也是无监督的一种降维,所以跟分类的相关性就不好说了。以前在matlab里面用过,速度非常慢,而且耗内存。
其实LSA跟PCA非常相似,不过至于为什么要用SVD分解,就不太明白了,数学啊,永远是悬在头上的一把剑~OMG~
PS:据说啊,LDA(Latent Dirichlet Allocation )是LSA这个系列发展的一个终结,从2003年被Blei提出以后无人能出其右,不过,还没有拜读过。
☆─────────────────────────────────────☆
cryppie (北邮人) 于 (Fri Dec 7 23:44:14 2007) 提到:
嗯,强大的语义
【 在 hh1012 的大作中提到: 】
: latent是潜而非浅吧~
: 在文本分类里面,使用词的向量来表示文本,但是有两个问题存在,一个是同义词,就是多个词都表示一个意思,另一个是多义词,就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义,而是多个变量的综合,在文本里面就是多个词意思的综合。
: LSA经常用做降维,但是因为它也是无监督的一种降维,所以跟分类的相关性就不好说了。以前在matlab里面用过,速度非常慢,而且耗内存。
: ...................
☆─────────────────────────────────────☆
river (river) 于 (Fri Dec 7 23:50:41 2007) 提到:
【 在 hh1012 的大作中提到: 】
: latent是潜而非浅吧~
: 在文本分类里面,使用词的向量来表示文本,但是有两个问题存在,一个是同义词,就是多个词都表示一个意思,另一个是多义词,就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义,而是多个变量的综合,在文本里面就是多个词意思的综合。
: LSA经常用做降维,但是因为它也是无监督的一种降维,所以跟分类的相关性就不好说了。以前在matlab里面用过,速度非常慢,而且耗内存。
: ...................
原来上面所说的LDA是这个意思啊,论文集中经常出现这个词儿,今天知道了
☆─────────────────────────────────────☆
Dove (宇宙黑洞) 于 (Sat Dec 8 13:14:36 2007) 提到:
以前常听LSA,今天又上了一课。
☆─────────────────────────────────────☆
asmodeus (asmodeus) 于 (Sat Dec 8 15:26:37 2007) 提到:
八卦:
LSA这方面最早的是Susan Dumais大婶吧,自打提了这个模型之后混了一堆各种fellow各种commitee各种editorial board,然后就到微软不知道干什么去了。
☆─────────────────────────────────────☆
river (river) 于 (Sat Dec 8 21:35:30 2007) 提到:
她现在在微软搞implicit relevance feedback
【 在 asmodeus 的大作中提到: 】
: 八卦:
: LSA这方面最早的是Susan Dumais大婶吧,自打提了这个模型之后混了一堆各种fellow各种commitee各种editorial board,然后就到微软不知道干什么去了。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #6479同步于 2010/5/7
ML_DM机器人发帖
[合集] 谁给讲一下Latent Semantic Analysis
PtwCJ
2010/5/7镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。