语料库建设 - 自然语言处理 - 方帮信


大厂面试直通卡 本周拉勾免费课:《深入浅出搞定React》 7月6号下线 【腾讯云】2021新春采购节,爆款产品特惠,助力企业上云
当前位置: 首页 >  > 人工智能 > 自然语言处理

语料库建设

2019/4/10 2:37:25 浏览

机器的分词和人工分词之间的准确性是有差异的,在后期需要借助人工分词的纠正来提升机器分词的正确率。语料库简单来说就是用来存放语言材料的一个数据仓库语料库分为很多中:口语的语料库,单语的语料库,双语的语料库或者是英文和其他语种对比的语料库也可能因为语料库的…

站长送干货喽:

1.拉勾教育7天VIP

2.大场面试题第一季-阿里篇视频讲解

站长的微信:changyandoublog

机器的分词和人工分词之间的准确性是有差异的,在后期需要借助人工分词的纠正来提升机器分词的正确率。

语料库简单来说就是用来存放语言材料的一个数据仓库

语料库分为很多中:

口语的语料库,单语的语料库,双语的语料库或者是英文和其他语种对比的语料库

也可能因为语料库的来源不同的方式,有些来自于新闻材料,有些来自于网络聊天、论坛评论,不同的类型,不同的来源会导致语料库有不同的特点。

比如如果来源于新闻稿的情况下,那么词汇可能就比较书面,正式

如果来自于论坛、贴吧的帖子可能词语就会相对口语化,可能还会有些各方面的新词。

简单来说就是,语料库的来源,会影响语料库的词汇表。

更深入一点的话,语料库就是承载语料的。研究语料库的话,有一门学问叫做语料库语言学。就是基于语料库进行语言学研究的一个学问。具体来讲就是我们研究自然语言机读文本的采集、存储、标注、简述、统计等等方法。

如何找到语料,如何在数据库中进行处理,分词、词性的标注,词频的统计等等就称为语料库的语言学。

语言学的发展过程中乔姆斯基扮演者重要的角色

语料库的类型:
平衡语料库与平行语料库
通用语料库与专用语料库
共时语料库与历时语料库
生语料与标注语料

语料库建设

语料收集

语料的收集主要看语料库的使用目的,如果做平衡语料库的话,就要考虑到一些奇闻报道的语料,网络一些贴吧,论坛的语料
小说、文学作品的语料
收集的时间比例等等
怎么确保语料的平衡性得到保证完全靠个人经验判断

例子中构建的是一个百科词条的专用语料库,所以搜集的目的性就比较强,搜集百科的词条,事实上现在很多语料的收集因为网络得到的发展,很多语料可以直接在网上通过爬虫进行收集。有目的性的收集语料。

例子中的语料,主要抓取了wiki百科上面的一万多的词条。辅助了百度的一些明星、网络词语的词条,这就是语料的收集情况。

然后进行分词处理

分词

一个分词器的准确度可能不够高,做成多个分词器做成投标器。

使用的python的jieba分词,jieba分词的算法很久没有更新了,但是准确性还算是相对比较高的

还有一个自己尝试些的最短路径的分词,本身最短路径就是一个初分的结果。更严谨的分词器是将最短路径的分词结果得到的剩下的结果再去利用语言模型判断哪个结果是好的。

现代汉语语料库中有提供一个分词标注的工具【http://www.cncorpus.org

标记

有分词算法后,根据算法不同的结果进行投票处理。

语料库的设计需要考虑动态和静态的问题。

动态的语料库不断的变化,能够反映语言发展的情况。

如何确定领域,每个领域要多大规模的语料。


https://www.cnblogs.com/baiboy/p/ylk.html
http://www.cnblogs.com/baiboy/

https://blog.csdn.net/shanyuelanhua/article/details/51212194】python nltk载入自己的中文语料库的两种方法
https://blog.csdn.net/iwanaabigdrumstick/article/details/78050570

https://blog.csdn.net/zhdgk19871218/article/details/45867981】人民日报语料库抓取python实现
http://f.dataguru.cn/thread-914234-1-1.html】如何构建中文语料库,比如新闻库或某一领域
https://cloud.tencent.com/developer/article/1386385】原始语料库
https://cloud.tencent.com/developer/article/1061223】文本分类中语料库的获取--搜狗语料库
https://blog.csdn.net/sadfassd/article/details/80568321】搜狗新闻语料文本分类


来源:方帮信(微信:changyandoublog,邮箱:changyandou@126.com),欢迎分享!