BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #6479同步于 2010/5/7
ML_DM机器人发帖

[合集] 谁给讲一下Latent Semantic Analysis

PtwCJ
2010/5/7镜像同步0 回复
☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 11:22:30 2007) 提到: 是不是叫做潜层语义分析 具体的内容哪个来说一下吧 most 3x! ☆─────────────────────────────────────☆ hh1012 (3C) 于 (Fri Dec 7 11:45:22 2007) 提到: 以前看过,不过,感觉没抓住本质。LSA最经典那篇是Deerwester那篇吧~ 好像近些年发展成一个系列了,pLSI,LPI,...,LDA,不如组织个学习吧,把这个系列搞透了~ ☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 11:56:10 2007) 提到: 师姐要bg大家?呵呵 【 在 hh1012 的大作中提到: 】 : 以前看过,不过,感觉没抓住本质。LSA最经典那篇是Deerwester那篇吧~ : 好像近些年发展成一个系列了,pLSI,LPI,...,LDA,不如组织个学习吧,把这个系列搞透了~ ☆─────────────────────────────────────☆ hh1012 (3C) 于 (Fri Dec 7 14:48:56 2007) 提到: sigh~我还不如你呢~ ☆─────────────────────────────────────☆ river (river) 于 (Fri Dec 7 19:12:04 2007) 提到: 我记得在Chris. Manning的foundation of statistical natural language processing的第三部分的信息检索中有一节 印象中在文本中为了建立term与term之间的关系,而不仅仅是考虑“bag of words”,从而引入LSA的。采用SVD使文本降维,建个索引叫做LSI,怎么一折腾加了个probability又成了PLSA,于是产生后面的各种“叶子”文章。 不过LSI这个技术实用性不强,至少不能用在Web检索中,限领域的或者非网络检索也许还可以吧,原因有两个: 1.速度不行,复杂度o(n^3) 2.降维之后每一维的物理意义不明确,不像人脸识别一降维之后发现一维是光照一维是角度。这个应该与文本的多样性,包括文本长度,语义,领域等等都有关系吧。 你们实验室不是hjn师姐不是在SIGIR上的文章就是关于文本降维的吗? ☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 19:55:11 2007) 提到: 不是document-term的关系吗? 为什么要用SVD? latent semantic怎么理解? 【 在 river 的大作中提到: 】 : 我记得在Chris. Manning的foundation of statistical natural language processing的第三部分的信息检索中有一节 : 印象中在文本中为了建立term与term之间的关系,而不仅仅是考虑“bag of words”,从而引入LSA的。采用SVD使文本降维,建个索引叫做LSI,怎么一折腾加了个probability又成了PLSA,于是产生后面的各种“叶子”文章。 : 不过LSI这个技术实用性不强,至少不能用在Web检索中,限领域的或者非网络检索也许还可以吧,原因有两个: : ................... ☆─────────────────────────────────────☆ river (river) 于 (Fri Dec 7 20:35:29 2007) 提到: 用的是doc-term矩阵来做分解,但是初衷是解决文本中term-term的冗余 用svd是为了1.降维2.便于降维之后的各种各种相似度的计算。除了svd之外还有什么别的数学矩阵工具&方法我就不知道了 浅层/隐含语义是指简单(“浅”?呵呵)的通过svd方法来挖掘隐含的潜在的语义信息(消除语义上的冗余?) 我也没有研究过,只是自己的理解,哪有不对的地方请指正 【 在 cryppie 的大作中提到: 】 : 不是document-term的关系吗? : 为什么要用SVD? : latent semantic怎么理解? ☆─────────────────────────────────────☆ hh1012 (3C) 于 (Fri Dec 7 23:12:03 2007) 提到: latent是潜而非浅吧~ 在文本分类里面,使用词的向量来表示文本,但是有两个问题存在,一个是同义词,就是多个词都表示一个意思,另一个是多义词,就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义,而是多个变量的综合,在文本里面就是多个词意思的综合。 LSA经常用做降维,但是因为它也是无监督的一种降维,所以跟分类的相关性就不好说了。以前在matlab里面用过,速度非常慢,而且耗内存。 其实LSA跟PCA非常相似,不过至于为什么要用SVD分解,就不太明白了,数学啊,永远是悬在头上的一把剑~OMG~ PS:据说啊,LDA(Latent Dirichlet Allocation )是LSA这个系列发展的一个终结,从2003年被Blei提出以后无人能出其右,不过,还没有拜读过。 ☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 23:44:14 2007) 提到: 嗯,强大的语义 【 在 hh1012 的大作中提到: 】 : latent是潜而非浅吧~ : 在文本分类里面,使用词的向量来表示文本,但是有两个问题存在,一个是同义词,就是多个词都表示一个意思,另一个是多义词,就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义,而是多个变量的综合,在文本里面就是多个词意思的综合。 : LSA经常用做降维,但是因为它也是无监督的一种降维,所以跟分类的相关性就不好说了。以前在matlab里面用过,速度非常慢,而且耗内存。 : ................... ☆─────────────────────────────────────☆ river (river) 于 (Fri Dec 7 23:50:41 2007) 提到: 【 在 hh1012 的大作中提到: 】 : latent是潜而非浅吧~ : 在文本分类里面,使用词的向量来表示文本,但是有两个问题存在,一个是同义词,就是多个词都表示一个意思,另一个是多义词,就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义,而是多个变量的综合,在文本里面就是多个词意思的综合。 : LSA经常用做降维,但是因为它也是无监督的一种降维,所以跟分类的相关性就不好说了。以前在matlab里面用过,速度非常慢,而且耗内存。 : ................... 原来上面所说的LDA是这个意思啊,论文集中经常出现这个词儿,今天知道了 ☆─────────────────────────────────────☆ Dove (宇宙黑洞) 于 (Sat Dec 8 13:14:36 2007) 提到: 以前常听LSA,今天又上了一课。 ☆─────────────────────────────────────☆ asmodeus (asmodeus) 于 (Sat Dec 8 15:26:37 2007) 提到: 八卦: LSA这方面最早的是Susan Dumais大婶吧,自打提了这个模型之后混了一堆各种fellow各种commitee各种editorial board,然后就到微软不知道干什么去了。 ☆─────────────────────────────────────☆ river (river) 于 (Sat Dec 8 21:35:30 2007) 提到: 她现在在微软搞implicit relevance feedback 【 在 asmodeus 的大作中提到: 】 : 八卦: : LSA这方面最早的是Susan Dumais大婶吧,自打提了这个模型之后混了一堆各种fellow各种commitee各种editorial board,然后就到微软不知道干什么去了。
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。