文章目录

* 词处理 <https://blog.csdn.net/wang2008start/article/details/80159815#_4>
* 语句处理 <https://blog.csdn.net/wang2008start/article/details/80159815#_7>
* 篇章处理 <https://blog.csdn.net/wang2008start/article/details/80159815#_10>
* 当前热点 <https://blog.csdn.net/wang2008start/article/details/80159815#_13>
* 语料库 <https://blog.csdn.net/wang2008start/article/details/80159815#_20>
* 词性标注 <https://blog.csdn.net/wang2008start/article/details/80159815#_22>
* 词语搭配识别技术 <https://blog.csdn.net/wang2008start/article/details/80159815#_42>
* 基于HMM的词性标注
<https://blog.csdn.net/wang2008start/article/details/80159815#HMM_89>
自然语言处理(计算机语言学、自然语言理解)
涉及:字处理,词处理,语句处理,篇章处理


<>词处理

分词、词性标注、实体识别、词义消歧

<>语句处理

句法分析(Syntactic Analysis)、语义分析(Senmantic Analysis)、机器翻译、语音合成

<>篇章处理

自动文摘

<>当前热点

信息抽取、文本分类、问答系统

#统计语言模型
##分词
字串均分为词串。难点:未登录词
最大匹配法/逆向最大匹配法/双向匹配法/最佳匹配法/最少分词法/词网格算法

<>语料库

“生语料“->自动分词->语法标注->句法分析->语义/语法分析->语言知识库

<>词性标注

* 基于规则的词性标注
* 基于隐马尔科夫模型HMM的词性标注
* 基于转移的词性标注
* 基于转移与隐马尔科夫模型相结合的词性标注
###句法分析
总体结构:
输入句子->短语界定自动预测->括号匹配区间限制->句法分析->人工校队->分析树表示
自动短语定界:

* 确定短语左边界、右边界
* 根据上下文信息,把开括号与其相应的比括号对应起来
* 根据歧义消解规则和统计信息,消解短语定界的歧义
* 生成表示句子结构的成分结构树
###语料库多机加工系统

* 自动切词和词性标注子系统
* 自动短语定界和句法标注子系统
* 自动语义标注子系统
<>词语搭配识别技术

* 基于频率方法
* 基于均值和方差的方法
* 基于假设检验的方法
* 基于互信息方法
##N-Gram统计模型


N-Pos
考虑词类,当整个模型只有一个词类时,那么前N-1个词类没有提供任何上下文信息,退化为Unigram模型,如果每一个词都有一个各不相同的词类,N-pos模型等价于N-gram模型。

语言模型的评价->KL距离(某一语言的真实概率分布与构造的概率模型的KL距离)

###平滑方法
拉普拉斯定律(加1平滑)降低已出现的N-gram条件概率分布,以使未出现N-gram条件概率分布非0
Good-Turing平滑
简单线性插值平滑
其他常用平滑方法:Heldout、Back-off、witten-Bell
###动态-自适应-基于缓存的语言模型

将N个最近出现过的词,存于一个缓存中,作为独立的训练数据。通过这些数据,计算动态频度分布数据,将动态频度分布数据与静态分布数据(由大规模性预料训练得到),通过线性差值的方法相结合。

###马尔科夫模型

* 有限历史假设
* 时间不变性假设(不随时间改变而改变,稳定性假设)
(S,pai,A)S:状态集合;pai:初始状态概率;A:转移概率
###隐马尔科夫模型
(S, K, pai, A, B) S:状态集合;K:输出字符集合;pai:初始状态概率;A:状态转移概率;B:状态转移时输出字符的概率






三个基本问题:

* 评价。给定一个模型,如果搞笑计算某一输出字符序列的概率
* 给定一个输出字符序列o和模型u,如何确定产生这一序列概率最大的状态序列


* 给定一个输出字符的序列o,如何调整模型的参数,使得产生这一序列的概率最大。
<>基于HMM的词性标注

##句法分析
判断输入的次序列嫩否构成一个合乎语法的句子,运用句法规则和其他知识,将输入句子中词之间的线性词库变成一个非线性的结构
概率上下文无关文法(Probabilistic Stochastic Context Free Grammar) 位置无关、上下文无关、祖先无关
完全句法分析-> 浅层句法分析(部分分析/组块分析)

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信