bgbox_zxlogo_bottom

基于小训练样本和纹理分析的笔迹鉴别方法

时间:2009-12-02 22:33来源:《计算机教育》 2008年第 作者:桑金歌 于国莉 苗 点击:
本文针对高等教育自学考试考生试卷笔迹真伪鉴定应用,利用人工笔迹鉴定专家知识,结合文本独立,和训练样本少的特点给出一种基于纹理的算法。通过实验得出,正确接受率为92.9%,正确拒绝率为

作者简介:桑金歌,男(汉族),河北工业大学在读硕士研究生,沧州职业技术学院信息工程系副主任。

  摘要:本文针对高等教育自学考试考生试卷笔迹真伪鉴定应用,利用人工笔迹鉴定专家知识,结合文本独立,和训练样本少的特点给出一种基于纹理的算法。通过实验得出,正确接受率为92.9%,正确拒绝率为90.0%。
  关键字:笔记鉴别;纹理;Gabor
  
  
  1引言
  
  不同的人根据自身的生理特征和后天的学习情况不同,而练就不同的笔迹,正所谓“字如其人”。笔迹正是一种相对稳定的行为特征,因此笔迹可以用来识别个体身份。目前在公安、社会化考试、银行等领域得到日益广泛的应用,其中一个典型应用就是高等教育自学考试考生试卷笔迹真伪鉴定。现在试卷笔迹鉴定工作是通过考试中心文检人员手工比对,这种传统的笔迹鉴别方法,容易引入个人因素,影响鉴定效果的真实性。随着考生人数的增多,这项比对工作相当耗费人力、物力。本文正是基于高自考这样的背景,来研究基于文本独立的离线笔迹鉴别。
  目前笔迹鉴别研究方向可以分为在线(on-line)和离线(off-line)两类。进一步细分,离线笔迹鉴别又可分为:文本依存(Text-dependent)和文本独立(Text-independent)
  两种。文本依存就是提前规定书写内容,文本独立则对书写内容没有限制。笔迹鉴别的复杂性在于字迹的变化性,其任务就是从所有笔迹样本中提取那些变化最大的特征,然后根据这些特征对测试笔迹样本进行真、伪分类。
  另一个问题是,目前分类方法主要有支持向量机、多层神经网络等,由于实际应用中样本数较少,以上方法都不适用,因此本文主要针对训练样本少的实际应用情况讨论文本独立型(Text-independent)书写人识别。通过用Gabor等纹理分析方法提取文字纹理特征,获得了较好的识别效果。
  
  2基于Gabor小波的纹理分析
  
  纹理分析在图像处理、分析和识别中广泛应用,是从图像中提取反映纹理特性的特征。每个人都有自己的书写风格,从整体笔迹图像看,它们含有不同的纹理特征,如笔迹的排版规律(行间、字间排列等)、单个字符的笔划搭配关系都可以看成是一种纹理。从已知的笔迹鉴别方法来看,有不少都采用了纹理分析的思想。将笔迹视为图像纹理,利用纹理分析的方法提取笔迹纹理特征并进行鉴别,是目前研究的热点。
  Gabor函数由Dennis Gabor于20世纪40年代提出的,后来被J.Daugman首先用于表征图像,并用于视觉方面的研究。随着计算机的不断发展,成为了非常流行的图像处理方法,这得益于Gabor函数特有的属性及其生物意义。生物学的研究表明Gabor函数可以较准确地描述人脑视觉皮层简单细胞的感受野。如图1所示。
  
  图1视觉皮层简单细胞的感受野与二维Gabor函数的对比
  Gabor函数是一个被复正弦函数调制的高斯函数,它是唯一能够达到时频测不准关系下界的函数,能够最好地兼顾信号在时域和频域中的分辨能力。其中,一维Gabor函数如式(1):
  
  其中m用来控制函数的中心,s为宽度(Gaussian函数的标准偏差),周期为T,函数波形如图2所示。
  
  图2一维Gabor函数波形
  二维Gabor函数具有方向选择性和带通性,能够比较精确地提取图像的局部纹理特征。二维Gabor函数如式(2)所示:
  
  3Gabor变换以及笔迹特征获取
  
  本文使用Gabor核函数对笔迹纹理图像进行Gabor变换,提取笔迹特征。给定一幅图像f(x,y),其Gabor变换定义为:
   (4)
  根据卷积定理,时域中卷积相当于频域中乘积,故可借助快速傅立叶变换(FFT)。这是由于快速傅立叶变换算法的计算效率要比基本的离散傅立叶变换高出几个数量级,由于FFT的高效率,在许多情况下实现卷积最有效的方法是先计算参与卷积的序列的离散傅立叶变换,然后将它们的变换相乘,最后计算这些变换乘积的逆变换。快速傅立叶变换算法有很多种,目前广为使用的是蝶形算法。对于本文中,进行的是二维傅立叶变换,由于其行列可分性,因此可以先对列进行一维快速傅立叶变换,然后对行进行一维傅立叶变换。特征提取的实现过程入下:
  (1) 先根据Gabor核函数的参数,即4个频率和8个相位,依次求出32个Gabor核函数,并对其依次进行二维快速傅立叶变换,将其结果保存到数组; 
(2) 对笔迹纹理图像块进行二维快速傅立叶变换,将其结果分别与32个Gabor核函数相乘,并且乘上一个系数;
  (3) 对32个相乘结果分别进行二维傅立叶逆变换,这样对于每一个Gabor核函数将对应得到一个Gabor变换系数,该系数为复数,对于每一个笔迹样本就对应得到32个变换系数;
  (4) 针对每一变换系数,分别求出模值,然后根据模值求出方差和均值,经实验比较,对于本文文本依存情况,仅选取32维方差要比选取32维均值或者64维方差和均值的混合特征作为笔迹特征,鉴别率要高,效果要好,因此最终特征选用32维变换系数模值的方差。
  
  4分类器的构建
  
  由于人工神经网络、支持向量机等分类器均需要较多样本进行训练,而在实际应用中样本数较少。根据这一事实,并且结合本文提出的训练方法,本文从样本距离角度寻求分类器。从相关文献中了找了8个与距离相关的分类标准,目的是通过实验从中找出适合于本文的分类器。这8个分类标准依次为欧氏距离、普通距离、相似度、特征距离、Canberra距离、Dice系数、Jacquard系数、向量间距离,其数学表达式分别如式4~1所示:
  欧氏距离:
  
  以上8个式子中, 和 分别为特征向量,i=1,2,3,4,5……
  实验时选取8个人的样本,其中5个人每人1份,另3个人每人10份样本,共8个人35份笔迹样本,测试结果如表1所示,表中A,B,C分别为三个书写人,每人10份笔迹样本,实验步骤为(以A为例,其它类似):
  (1) 以A的第一份样本为参考样本,经“随机训练”为每个分类器获取阈值;
  (2) 以A的第一份样本为参考样本,用获取到的阈值,与A的其它9个样本进行比对,给出测试正确样本数,对于每个分类器分别填入对应表格“本人”处;
  (3) 以A的第一份样本为参考样本,用获取到的阈值,与B、C的各5个样本进行比对,给出测试正确样本数,对于每个分类器分别填入对应表格“不同人”处;
  (4) 分别统计每个分类器判别正确的样本数。
  
  根据表中各分类器的分类结果,并结合运算量,本文最终选定欧氏距离作为分类器。对于两个样本,其欧氏距离越小,表明两个样本越相似,假设两个样本之间的欧氏距离为d,分类阈值为g,那么如果d  
  5结论
  
  本文研究内容是文本独立的离线笔迹鉴别,结合课题背景本文给出一种基于纹理的方法。实验时,先采集30人共计108份笔迹样本,然后对这些笔迹样本进行预处理、形成纹理图,使用32个Gabor核函数,进行Gabor变换,把变换后所得系数的方差作为最后的笔迹特征,共32维。最后使用欧氏距离作为分类器,采用本文提出的阈值获取办法进行训练。我们在自己采集的笔迹库上实验,在对28人的56份样本实验中,对于与参考样本出自同一人的笔迹样本的测试,共28份,对于与参考样本不同人的笔迹样本,共140份。
  

  从表2可以看出,针对本文方法,对于与参考样本出自同一人的笔迹样本的测试,共28份,其中被正确鉴别的份数为26,正确接受率为92.9% 。对于与参考样本不同人的笔迹样本,共140份,正确鉴别的份数为126,正确拒绝率为90.0%。达到了较为理想的效果。
  
  
  参考文献
  [1] 孙广萍. 身份验证中的签名鉴别技术[J]. 黑龙江通信技术,2003,(1):34-35.
  [2] 刘宏,李锦涛,崔国勤. 基于SVM和纹理的笔迹鉴别方法[J]. 计算机辅助设计与图形学学报,2003,15(12):1479-1484.
  [3] 许春晔,郭宝兰. 基于Gabor函数的汉字字体识别[J]. 河北大学学报(自然科学报),2001,21(2):167-170.
  [4] 边肇祺,张学工. 模式识别[M]. 北京:清华大学出版社,2000.
  [5] Andrew R Webb著. 王萍,杨培龙,罗颖昕译. Statistical Pattern Recognition, 2ED[M]. 北京:电子工业出版社,2004.
  [6] 陶跃华. 基于向量的相似度计算方案[J]. 云南师范大学学报,2001,21(5):17-19.
  [7] 易东,陈庆虎. 基于多分类器组合的笔迹验证[J]. 计算机应用,2006,26(1):172-173.
  [8] 刘成林,戴汝为,刘迎建. 简化的Winger分布及其在笔迹鉴别中的应用[J]. 计算机学报,1997,20(11):1018-1024.
  
  
  

顶一下
(1)
100%
踩一下
(0)
0%
------分隔线----------------------------
最新评论 查看所有评论
发表评论 查看所有评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
list_boxbottom
bgbox_zx
会员中心TAG标签高级搜索法律声明