首页
 房产版
 公司版
 我的主页
 验证码识别
 产品下载


 Home
 Real Estate
 Company
 My HomePage
 Captcha Decoder
 Downloads

验证码识别技术 CAPTCHA DECODE

来源 Origin 例图 Samples 识别率
accuracy
价值 Price 注解 Comments
9you
100% 500
$100
Very Easy
tiancity 100% 500
$100
Very Easy
cncard 100% 500
$100
Very Easy
the9 100% 500
$100
Very Easy
the9
99% 1000
$200
Easy
kingsoft
98% 1000
$200
Easy
taobao
95% 1000
$200
Easy
dvbbs
95% 1000
$200
Easy
126
95% 1000
$200
Easy
163
95% 1500
$300
Middle
shanda
90% 1500
$300
Middle
qq
90% 1500
$300
Middle
csdn 85% 1500
$300
Middle
chinaren
85% 2000
$400
Middle
monter
80% 2000
$400
Middle
qq 80% $3000 Difficult
baidu
80% $3000 Difficult
qq
75% $3000 Difficult
ebay
60% $4000 Difficult
ticketmaster



50% $6000 Difficult
qq Difficult
google Very Difficult

A very good
search engineer
qq Very Difficult

With Chinese characteristics
hotmail Very Difficult

Look round the corner!

A very good captcha!
yahoo Very Difficult

www.captcha.net

Look round the corner!

A very good captcha!

But , it can be decoded unquestionable.


验证码识别技术 Captcha Decode Technology


        由于现在很多网站,为了加强安全性,以及防止程序的自动操作网站,都加入的了验证码技术。但却给广大站长推广宣传网站带来的麻烦。所以我准备写这篇关于验证码识别技术的文章,不足之处在所难免!本人从来不写东西,今天为了想落伍才写了!

        广大站长宣传推广自己的网站,经常要发布一些宣传广告,如果靠人工,太慢太昂贵,所以理想的办法是使用群发软件,可现在很多网站都有验证码,这成为群发软件的技术难点,而识别也就难点中的难点,好的,闲话少说,言归正传!

        我举的例子是比较难于识别的验证码,不讨论不变形、不换字体、不换大小、不旋转的验证码,这里我可能不会写出代码,只是提供我编写的思路,按照这个思路,我写出的程序,比市场上出售的程序的识别率还要高很多。(有兴趣的可以问我,我不想在这里帮别人宣传,呵呵~~)

        首先以数字验证码开始,字母的要比数字麻烦一些,不过搞清楚了数字验证码的识别,字母的也就不难了。

        验证码一般都是图片,而且一般都是4位数,处理过程是:先分割为4个部分,然后逐一识别,由于分割比较简单,我这里就不说了,我这里只说如何识别。

        我的方法是把需要识别的图片,划分为 5 行,3 列,15个块,为什么要划分为15个块呢?先看图!

○■○
■○■
■○■
■○■
○■○

○■○
■■○
○■○
○■○
■■■

■■■
○○■
■■■
■○○
■■■

■■■
○○■
■■■
○○■
■■■

        我先举这4个例子吧,其余的大家可以自己画出来。如果做过验证码识别的朋友,肯定很快就明白为什么划分为15个块,其实主要就是因为这样划分更合理,也就更能提高识别率。

        我的方法是把需要识别的图片,划分为 5 行,3 列,15个块,然后对每个块进行计算,当每个块里的有效象素超过多少百分比的时候,就标记为 ■,如果没超过就标记为○,(这里为了显示方便我使用了■,○,你完全可以把它标为1、0),这里要注意一下,这里的百分比根据字体的粗细可以取 67%,50%,33%,20%,为什么要取这几个数?主要和计算机的浮点数运算有关,选这几个数,运算更快,且不容易出错,否则计算机在进行大量计算时也是会出错的!当然这里,你完全可以选适合你的验证码图片的百分比!!

        如果验证码不变形、不换字体、不换大小、不旋转,我们的识别工作到这一步基本上就结束了,因为已经可以得到比较清晰的块图,对付大多数论坛,就已经足够了。^_^

        如果验证码的变形比较大、且有很多字体、大小也不固定、且有旋转,那么我们经过划分、取比率显示后,可能会得到这样一个图:

○■○
○○■
○■○
■○○
■■■

        那么这个数字应该是什么数字,我们需要使用排除法!排除所有不可能,在0123456789中,这个图不可能是013456789,他只能是 :2。

        写过验证码识别的朋友可能已经明白了!是的,我们需要建立一个类似的数据库,也就是识别库,出现哪些图,他就属于那个数字。
  再举一个例子:

○■○
■○○
■■■
■○■
○■○

        这是哪个数字呢??是6,没错

        我这里我需要再说明一下为什么要取5行,3列,15个块,因为块太多了你 的识别库就会很大,块太少了,就会出现很多分不清楚的块图。

        另外你取的百分比也需要注意,不能太大也不能太小。

        好了,等做好自己的数据库,这时就可以识别大部分数字了。

        最后还有一个问题,就是重复的问题,比如,图片上的数字,明明是 5,可由于它的字体不是常见的字体,且发生了旋转,最后得到这样一个图:

■■■
■○○
■■■
■○■
■■■

        在我的数据库里,这个块图,是6,也是就说识别错误,怎么办?

        我的解决方法是,在数据库里先把这条数据删除因为这个是错误的。

        遇到这种情况,就需要进行二次处理,我的方法是:降低百分比,这时就得到了:

■■○
■○○
■■○
○○■
■■○

        OK,经过降低百分比,图片就由“6”又变为“5”了,呵呵~~~由于降低了百分比,我们需要再建立一个识别库的来存储这些数据。


        好了,我的文章就写到这里,只是给大家提供一个思路,可能还有一些细节我没写出来,但主要的方法都提供出来了,希望能起到抛砖引玉的作用,也希望能够落伍!!!!



 关于图灵测试的一点想法 A little of idea about The Turing Test

 

        图灵测试是一种测试机器是不是具备人类智能的方法。被测试的有一个人,另一个是声称自己有人类智力的机器。测试时,测试人与被测试人是分开的,测试人只有通过一些装置(如键盘)向被测试人问一些问题,这些问题随便是什么问题都可以。问过一些问题后,如果测试人能够正确地分出谁是人谁是机器,那机器就没有通过图灵测试,如果测试人没有分出谁是机器谁是人,那这个机器就是有人类智能的。目前还没有一台机器能够通过图灵测试。

        清楚了什么是图灵测试之后让我们开始,让我们问被测试人这样一个问题:“张三一米七,张三高吗?”。

        人回答:“不高不矮,中等身材”。(对于中等身材的人,我们很可能会得到这样的回答)

        我们再问:“张三一米七,张三高吗?”。

        人回答:“如果是男人的话,不怎么算太高”。(人会有一种知识和潜意识,就是身高按照性别来区分,会得到差别比较明显的结果。如果你问一个人是不是富裕的话,人首先想到的肯定是城乡区别、区域区别、职务区别)

        我们再问:“张三一米七,张三高吗?”。

        人回答:“他比我高”。(如果你问一个人三个同样的问题,他一定会考虑一下是不是我的回答有问题,这时候他的潜意识,会让问题和自己联系起来)

        现在再让我们问机器这样的问题:“张三一米七,张三高吗?”。

        机器可能会得到这样两个语句:
        i = 1.7 ;
        if ( i > 高矮标准 ) print "高"; else print "矮";

        其中只要确定“高矮标准”,就可以得到答案。高矮标准可以通过对大量数据的统计计算得到,或者通过引入知识得到。

        最后机器会回答:“矮”。

        我们再问:“张三一米七,张三高吗?”。

        机器回答:“如果是黄种人的话,高”。

        我们再问:“张三一米七,张三高吗?”。

        机器回答:“如果是中国人的话,高”。

        我们问机器一万次,它可能都不会回答:“他比我高”,机器只是机器,它没有自我意识。

        我最后想举一个例子:也是下棋的例子,大家都知道中国的围棋是最复杂的棋种,现在计算机的围棋水平还不如一般的五段棋手水平。可是如果有一天计算机的运算速度足够快、存储容量足够大的话,那么普通的程序员也可以利用穷举算法写出一个围棋程序,得到围棋的所有解。

        对于人类来说如此难的围棋,对于计算机来说竟然会这么容易?!这可能就是人类智力和机器智力的最大区别。

 






 

浅谈中国机器视觉未来发展趋势(转载) Machine Vision



        机器视觉自起步发展到现在,已有15年的发展历史。应该说机器视觉作为一种应用系统,其功能特点是随着工业自动化的发展而逐渐完善和发展的。
        目前全球整个视觉市场总量大概在60~70亿美元,是按照每年8.8%的增长速度增长的。而在中国,这个数字目前看来似乎有些庞大,但是随着加工制造业的发展,中国对于机器视觉的需求将承上升趋势。

机器视觉的定义及特点
        简言之,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是指通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。
        机器视觉系统的特点是提高生产的柔性和自动化程度。在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉;同时在大批量工业生产过程中,用人工视觉检查产品质量效率低且精度不高,用机器视觉检测方法可以大大提高生产效率和生产的自动化程度。而且机器视觉易于实现信息集成,是实现计算机集成制造的基础技术。
        正是由于机器视觉系统可以快速获取大量信息,而且易于自动处理,也易于同设计信息以及加工控制信息集成,因此,在现代自动化生产过程中,人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制等领域。在中国,这种应用也在逐渐被认知,且带来最直接的反应就是国内对于机器视觉的需求将越来越多。

机器视觉在国内外的应用现状
        在国外,机器视觉的应用普及主要体现在半导体及电子行业,其中大概40%-50%都集中在半导体行业。具体如PCB印刷电路:各类生产印刷电路板组装技术、设备;单、双面、多层线路板,覆铜板及所需的材料及辅料;辅助设施以及耗材、油墨、药水药剂、配件;电子封装技术与设备;丝网印刷设备及丝网周边材料等。SMT表面贴装:SMT工艺与设备、焊接设备、测试仪器、返修设备及各种辅助工具及配件、SMT材料、贴片剂、胶粘剂、焊剂、焊料及防氧化油、焊膏、清洗剂等;再流焊机、波峰焊机及自动化生产线设备。电子生产加工设备:电子元件制造设备、半导体及集成电路制造设备、元器件成型设备、电子工模具。机器视觉系统还在质量检测的各个方面已经得到了广泛的应用,并且其产品在应用中占据着举足轻重的地位。除此之外,机器视觉还用于其他各个领域。
        而在中国,以上行业本身就属于新兴的领域,再加之机器视觉产品技术的普及不够,导致以上各行业的应用几乎空白,即便是有,也只是低端方面的应用。目前在我国随着配套基础建设的完善,技术、资金的积累,各行各业对采用图像和机器视觉技术的工业自动化、智能化需求开始广泛出现,国内有关大专院校、研究所和企业近两年在图像和机器视觉技术领域进行了积极思索和大胆的尝试,逐步开始了工业现场的应用。其主要应用于制药、印刷、矿泉水瓶盖检测等领域。这些应用大多集中在如药品检测分装、印刷色彩检测等。真正高端的应用还很少,因此,以上相关行业的应用空间还比较大。当然、其他领域如指纹检测等等领域也有着很好的发展空间。
中国机器视觉未来发展趋势
        在机器视觉赖以普及发展的诸多因素中,有技术层面的,也有商业层面的,但制造业的需求是决定性的。制造业的发展,带来了对机器视觉需求的提升;也决定了机器视觉将由过去单纯的采集、分析、传递数据,判断动作,逐渐朝着开放性的方向发展,这一趋势也预示着机器视觉将与自动化更进一步的融合。需求决定产品,只有满足需求的产品才有生存的空间,这是不变的规律。机器视觉也是如此。
        未来,中国机器视觉发展主要表现为以下一些特性:
1、随着产业化的发展对机器视觉的需求将呈上升趋势
        机器视觉发展空间较大的部分在半导体和电子行业,而据我国相关数据显示,全球集成电路产业复苏迹象明显;与此同时,全球经济衰退使我国集成电路产业获取了市场优势、成本优势、人才回流等优势;国家加大对集成电路产业这一战略领域的规划力度,“信息化带动工业化”,走“新兴工业化道路”为集成电路产业带来了巨大的发展机遇,特别是高端产品和创新产品市场空间巨大,设计环节、国家战略领域、3C应用领域、传统产业类应用领域成为集成电路产业未来几年的重点投资领域。
        此外,中国已成为全球集成电路的一个重要需求市场。据相关数据显示,2002年我国集成电路市场需求规模为1135.5亿元人民币,占世界市场规模的9.76%。2002年中国集成电路市场总销量为283.2亿块,总销售额为1135.5亿元,同比增长26.2%。中国已成为近年来世界半导体投资的热点。在全国许多地区,特别是长江三角洲地区,都有新的IC制造线和封装测试线投资兴建,IC设计公司的数量每年成倍增长。在产业政策的引导下,上海、北京、天津和深圳等地出现投资IC的好势头:天津Motorola投资15亿美元,月投2.5万片的8英寸芯片生产线和上海中芯国际投资14亿美元,月投8英寸芯片硅片4.2万片的项目已经投入运行。另外,中国半导体行业协会最新调研数据表明,2000年6月到2002年8月两年间,中国IC产业的投资总额约300亿元,相当于过去40年的投资总和。全国IC设计单位数量两年之间翻两番,已激增到389家,收入过亿元的达7~8家;专业测试公司已有10家左右,我国的IC测试业初具雏形。
就以上数据显示,中国的半导体和电子市场已初具规模,而如此强大的半导体产业将需要高质量的技术做后盾。同时他对于产品的高质量、高集成度的要求将越来越高。恰巧,机器视觉将能帮助他们解决以上的问题,因此该行业将是机器视觉最好的用武之地。同时,对于机器视觉的需求将蒸蒸日上。
2、统一开放的标准是机器视觉发展的原动力
        目前国内有近数家机器视觉产品厂商,与国外机器视觉产品相比,国内产品最大的差距并不单纯是在技术上,而且还包括品牌和知识产权上。另一现状是目前国内的机器视觉产品主要以代理国外品牌为主,以此来逐渐朝着自主研发产品的路线靠近,起步较晚。未来,机器视觉产品的好坏不能够通过单一因素来衡量,应该逐渐按照国际化的统一标准判定,随着中国自动化的逐渐开放,将带领与其相关的产品技术也逐渐开放。因此,依靠封闭的技术难以促进整个行业的发展,只有形成统一而开放的标准才能让更多的厂商在相同的平台上开发产品,这也是促进中国机器视觉朝国际化水平发展的原动力。
3、基于嵌入式的产品将取代板卡式产品
        从产品本身看,机器视觉会越来越趋于依靠PC技术,并且与数据采集等其他控制和测量的集成会更紧密。且基于嵌入式的产品将逐渐取代板卡式产品,这是一个不断增长的趋势。主要原因是随着计算机技术和微电子技术的迅速发展,嵌入式系统应用领域越来越广泛,尤其是其具备低功耗技术的特点得到人们的重视。另外,嵌入式操作系统绝大部分是以C语言为基础的,因此使用C高级语言进行嵌入式系统开发是一项带有基础性的工作,使用高级语言的优点是可以提高工作效率,缩短开发周期,更主要的是开发出的产品可靠性高、可维护性好、便于不断完善和升级换代等。因此,嵌入式产品将会取代板卡式产品。
4、标准化、一体化解决方案也将是机器视觉的必经之路
        另外,由于机器视觉是自动化的一部分,没有自动化就不会有机器视觉,机器视觉软硬件产品正逐渐成为协作生产制造过程中不同阶段的核心系统,无论是用户还是硬件供应商都将机器视觉产品作为生产线上信息收集的工具,这就要求机器视觉产品大量采用“标准化技术”,直观的说就是要随着自动化的开放而逐渐开放,可以根据用户的需求进行二次开发。当今,自动化企业正在倡导软硬一体化解决方案,机器视觉的厂商在未来5-6年内也应该不单纯是只提供产品的供应商,而是逐渐向一体化解决方案的系统集成商迈进。
        在未来的几年内,随着中国加工制造业的发展,对于机器视觉的需求也逐渐增多;随着机器视觉产品的增多,技术的提高,国内机器视觉的应用状况将由初期的低端转向高端。由于机器视觉的介入,自动化将朝着更智能、更快速的方向发展。另外,由于用户的需求是多样化的,且要求程度也不相同。那么,个性化方案和服务在竞争中将日益重要,即用特殊定制的产品来代替标准化的产品也是机器视觉未来发展的一个取向。
        机器视觉的应用也将进一步促进自动化技术向智能化发展。

 

 

© 2004-2008 六安网络 版权所有
MSN:wangrun2000@hotmail.com
Email:wangrun2000@tom.com