才子书屋

第156章 学术工ju人get

+A -A

间模型转化为维度较低的空间向量模型?

    这种思路倒是不错。

    但这种尝试先前并不是没人做过。

    很早之前就有人进行了尝试。

    早在上世纪末期就有人提出了潜在语义分析模型。

    潜在语义分析模型是基于空间向量模型(VSM)而提出的。

    潜在语义分析模型其基本思想是在得到文本的空间向量表示后。

    通过奇异值分解,将高维且稀疏的空间向量映射到低维的潜在语义空间当中。

    在得到低维的文本向量和单词向量之后。

    再用余弦相似度等度量方式来计算文本间的语义相似度。

    潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音,从而提高计算准确度。

    虽然这种思路不错,但这种方法并没有普适性。

    这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。

    这种做法使得计算复杂度增高,并且可移植性较差。

    在这种方法提出来之后。

    并不是没人尝试对这种方法进行过改进。

    同样是上世纪末。

    有研究人员提出了概率潜在语义分析模型。

    这种模型是基于概率,而不是基于奇异值分解。

    这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。

    而后使用期望最大化算法训练主题,并找到一个概率性的潜在主题模型。

    以此用来预测文本空间向量中的观察数据。

    在这种概率潜在语义分析模型中,多义词被归入不同的主题下,而同义词被归入同一主题下。

    这样可以避免同义词和多义词对文本相似度计算的影响。

    然而,概率潜在语义分析模型的参数随着文档数量的增加而线性增长。

    很容易出现过拟合和泛化不良。

    这种情况很大程度又是因为维度爆炸。

    因为过拟合只在高维空间中预测相对少的参数和低维空间中预测多参数这两种情况下发生。

    一个为了避免维度爆炸而提出的模型却出现了维度爆炸。

    多少有点悲剧。

    事实上,并不是只有上述两个模型提出来。

    这之后还有很多研究团队都在从模型层面的做了不同程度的尝试。

    但这些模型要么是南辕北辙,不利于降维。

    要么是在降维的同时又带来了新的问题。

    总之,这些模型都有各种行不通的地方。

    尽管伊芙·卡莉相信林灰是个天才。

    但伊芙·卡莉觉得林灰也很难在前人无数次尝试的情况下找到一种全新的能够规避维度爆炸的低维模型。

    伊芙·卡莉考虑了很久也没想通林灰究竟表达的是什么意思。

    伊芙·卡莉把她刚才她的思考过程对林灰进行了阐述。

    林灰听得很认真。

    听完之后,林灰笑道:“你都想到了这么多种高维向低维转化的情形。

    而且先前你也提到了机器识别文本时为了要机器识别自然语言往往将自然语言数值化。

    而后为了将这些数值进行属性区分进一步进行了向量化。

    既然你能明白这些,那你就应该知道涉及到自然语言处理方向的问题之所以很容易出现维度爆炸很大程度是因为原始数据就维度极高。

    

    这种情况下我们为什么不直接从源头上解决问题对原始数据做些文章呢?”

    听到林灰这话,伊芙·卡莉似乎灵魂深处被触动了一般,

    触电般的感觉袭来,伊芙·卡莉突然激动了起来。

    伊芙·卡莉颤声道:“你的意思是说,直接对原始的高维数据进行低维化处理?

    处理得到低维化数据之后,在架构模型进行语义文本相似度分析?”

    和聪明人说话就是比较省时省力。

    林灰想要表达的差不多就是这个意思。

    现在这个时空常用的编码手段常用的还是1hot编码来说吧。

    这种编码虽然再相当长的历史时期内发挥了积极作用。

    但这种编码也经常带来很多麻烦事情。

    前世往后几年的话,词向量按照基本都是通过分布式向量进行编码。

    分布式编码相当于将原始数据投射到了一个较低维度的空间。

    如此一来将原始数据从稀疏的高维空间压缩嵌入到较低维度的向量空间中。

    这对于后续的处理无疑是很有帮助的。

    当然了投射不是说投射就投射。

    还得经过神经网路学习的训练。

    至于怎么训练?

    这就是纯粹技术上的事情了。

    前世,词向量的分布式表示还有一个专有名词叫做词嵌入。

    虽然林灰现


【1】【2】【3】【4】
如果您喜欢【才子书屋】,请分享给身边的朋友
">