BYR Achieve · 镜像论坛

☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 11:22:30 2007) 提到: 是不是叫做潜层语义分析具体的内容哪个来说一下吧 most 3x! ☆─────────────────────────────────────☆ hh1012 (3C) 于 (Fri Dec 7 11:45:22 2007) 提到: 以前看过，不过，感觉没抓住本质。LSA最经典那篇是Deerwester那篇吧～好像近些年发展成一个系列了，pLSI，LPI，...，LDA，不如组织个学习吧，把这个系列搞透了～ ☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 11:56:10 2007) 提到: 师姐要bg大家？呵呵【在 hh1012 的大作中提到: 】 : 以前看过，不过，感觉没抓住本质。LSA最经典那篇是Deerwester那篇吧～ : 好像近些年发展成一个系列了，pLSI，LPI，...，LDA，不如组织个学习吧，把这个系列搞透了～ ☆─────────────────────────────────────☆ hh1012 (3C) 于 (Fri Dec 7 14:48:56 2007) 提到: sigh～我还不如你呢～ ☆─────────────────────────────────────☆ river (river) 于 (Fri Dec 7 19:12:04 2007) 提到: 我记得在Chris. Manning的foundation of statistical natural language processing的第三部分的信息检索中有一节印象中在文本中为了建立term与term之间的关系，而不仅仅是考虑“bag of words”，从而引入LSA的。采用SVD使文本降维，建个索引叫做LSI，怎么一折腾加了个probability又成了PLSA，于是产生后面的各种“叶子”文章。不过LSI这个技术实用性不强，至少不能用在Web检索中，限领域的或者非网络检索也许还可以吧，原因有两个： 1.速度不行，复杂度o(n^3) 2.降维之后每一维的物理意义不明确，不像人脸识别一降维之后发现一维是光照一维是角度。这个应该与文本的多样性，包括文本长度，语义，领域等等都有关系吧。你们实验室不是hjn师姐不是在SIGIR上的文章就是关于文本降维的吗？ ☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 19:55:11 2007) 提到: 不是document-term的关系吗？为什么要用SVD？ latent semantic怎么理解？【在 river 的大作中提到: 】 : 我记得在Chris. Manning的foundation of statistical natural language processing的第三部分的信息检索中有一节 : 印象中在文本中为了建立term与term之间的关系，而不仅仅是考虑“bag of words”，从而引入LSA的。采用SVD使文本降维，建个索引叫做LSI，怎么一折腾加了个probability又成了PLSA，于是产生后面的各种“叶子”文章。 : 不过LSI这个技术实用性不强，至少不能用在Web检索中，限领域的或者非网络检索也许还可以吧，原因有两个： : ................... ☆─────────────────────────────────────☆ river (river) 于 (Fri Dec 7 20:35:29 2007) 提到: 用的是doc-term矩阵来做分解，但是初衷是解决文本中term-term的冗余用svd是为了1.降维2.便于降维之后的各种各种相似度的计算。除了svd之外还有什么别的数学矩阵工具&方法我就不知道了浅层/隐含语义是指简单(“浅”？呵呵)的通过svd方法来挖掘隐含的潜在的语义信息(消除语义上的冗余？) 我也没有研究过，只是自己的理解，哪有不对的地方请指正【在 cryppie 的大作中提到: 】 : 不是document-term的关系吗？ : 为什么要用SVD？ : latent semantic怎么理解？ ☆─────────────────────────────────────☆ hh1012 (3C) 于 (Fri Dec 7 23:12:03 2007) 提到: latent是潜而非浅吧～在文本分类里面，使用词的向量来表示文本，但是有两个问题存在，一个是同义词，就是多个词都表示一个意思，另一个是多义词，就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义，而是多个变量的综合，在文本里面就是多个词意思的综合。 LSA经常用做降维，但是因为它也是无监督的一种降维，所以跟分类的相关性就不好说了。以前在matlab里面用过，速度非常慢，而且耗内存。其实LSA跟PCA非常相似，不过至于为什么要用SVD分解，就不太明白了，数学啊，永远是悬在头上的一把剑～OMG～ PS：据说啊，LDA(Latent Dirichlet Allocation )是LSA这个系列发展的一个终结，从2003年被Blei提出以后无人能出其右，不过，还没有拜读过。 ☆─────────────────────────────────────☆ cryppie (北邮人) 于 (Fri Dec 7 23:44:14 2007) 提到: 嗯，强大的语义【在 hh1012 的大作中提到: 】 : latent是潜而非浅吧～ : 在文本分类里面，使用词的向量来表示文本，但是有两个问题存在，一个是同义词，就是多个词都表示一个意思，另一个是多义词，就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义，而是多个变量的综合，在文本里面就是多个词意思的综合。 : LSA经常用做降维，但是因为它也是无监督的一种降维，所以跟分类的相关性就不好说了。以前在matlab里面用过，速度非常慢，而且耗内存。 : ................... ☆─────────────────────────────────────☆ river (river) 于 (Fri Dec 7 23:50:41 2007) 提到: 【在 hh1012 的大作中提到: 】 : latent是潜而非浅吧～ : 在文本分类里面，使用词的向量来表示文本，但是有两个问题存在，一个是同义词，就是多个词都表示一个意思，另一个是多义词，就是一个词有多个意思。LSA通过使用SVD分解解决的是第一个问题。每个文本向量经过投影后得到的每一维不再具有明确的物理意义，而是多个变量的综合，在文本里面就是多个词意思的综合。 : LSA经常用做降维，但是因为它也是无监督的一种降维，所以跟分类的相关性就不好说了。以前在matlab里面用过，速度非常慢，而且耗内存。 : ................... 原来上面所说的LDA是这个意思啊，论文集中经常出现这个词儿，今天知道了 ☆─────────────────────────────────────☆ Dove (宇宙黑洞) 于 (Sat Dec 8 13:14:36 2007) 提到: 以前常听LSA，今天又上了一课。 ☆─────────────────────────────────────☆ asmodeus (asmodeus) 于 (Sat Dec 8 15:26:37 2007) 提到: 八卦： LSA这方面最早的是Susan Dumais大婶吧，自打提了这个模型之后混了一堆各种fellow各种commitee各种editorial board，然后就到微软不知道干什么去了。 ☆─────────────────────────────────────☆ river (river) 于 (Sat Dec 8 21:35:30 2007) 提到: 她现在在微软搞implicit relevance feedback 【在 asmodeus 的大作中提到: 】 : 八卦： : LSA这方面最早的是Susan Dumais大婶吧，自打提了这个模型之后混了一堆各种fellow各种commitee各种editorial board，然后就到微软不知道干什么去了。

[合集] 谁给讲一下Latent Semantic Analysis