📜  CAPTCHA、reCAPTCHA 和相关事物

📅  最后修改于: 2021-10-20 12:11:43             🧑  作者: Mango

CAPTCHA 一词代表完全自动化的公共图灵测试,以区分计算机和人类有多少人必须填写某种网络表单,其中要求您阅读扭曲的字符序列,如下所示

验证码示例

有多少人觉得这很烦人? Luis von Ahn发明了称为CAPTCHA的术语,其原因是为了确保您,填写表格的实体,是一个人,而不是编写数百万次提交表格的某种计算机程序。例如,在Ticketmaster 的情况下,您必须键入这些扭曲的字符的原因是为了防止黄牛编写一次可以购买数百万张门票的程序。

这个项目是大约十年前Luis von Ahn、Manuel Blum、Nicholas J. Hopper 和 John Langford 在卡内基梅隆大学所做的,并且在任何地方都被使用。几年后他们做了一个项目,这是验证码的下一个演变。这就是他们称之为reCAPTCHA的项目,这是他们在卡内基梅隆大学开始的项目,然后他们把它变成了一家初创公司,然后大约一年半前,谷歌收购了这家公司。要了解如何生成 CAPTCHA,请参阅生成 CAPTCHA 并验证用户的程序

CAPTCHA 的问题和 reCAPTCHA 的演变

该项目始于随后的认识,即似乎全世界的人们每天输入大约 2 亿个验证码。所以,当你输入验证码时,本质上,你会浪费 10 秒的时间,如果你乘以 2 亿,你会发现整个人类每天浪费大约 500,000 小时输入这些烦人的验证码。甚至,我们也无法摆脱验证码,因为网络的安全性取决于它们。
但随后路易斯·冯·安 (Luis von Ahn) 和他的团队开始思考“他们有什么办法可以将这种努力用于对人类有益的事情吗?”假设一个人正在输入验证码,在这 10 秒钟内,他的大脑正在做一些计算机无法做到的惊人事情。因此,如今,当一个人输入验证码时,他不仅是在证明自己是一个人,而且还在帮助他们将书籍数字化。

reCAPTCHA(反向验证码)

许多项目都试图将书籍数字化。谷歌有一个,网络档案有一个,亚马逊和 Kindle 正试图将书籍数字化。它的工作方式是,您从一本书开始,然后扫描它。扫描一本书就像为书的每一页拍一张数码照片。它为您提供了本书每一页的图片。该过程的下一步是 PC 必须准备好破译此图像中的所有单词。这是使用一种称为 OCR(光学字符识别)的技术完成的,该技术拍摄文本图片并试图找出其中的文本内容。现在,问题是 OCR 并不完美,特别是对于旧书,墨水已经褪色,因此页面变黄,OCR 无法识别大量单词。对于 50 年前写的东西,计算机甚至无法识别大约 30% 的单词。所以,他们现在正在做的是,他们正在获取计算机无法识别的所有单词,并让人们阅读它们并在互联网上输入验证码。因此,下次您输入验证码时,您输入的这些单词是来自计算机无法识别的数字化书籍的单词。

重新验证示例

所以,这通常是系统的工作方式,自从他们在大约 3 或 4 年前发布它以来,大量的互联网站点开始从人们浪费时间的旧验证码转换到人们帮助数字化的新验证码图书。因此,例如,Ticketmaster,每当您在 Ticketmaster 上购买门票时,您都在帮助将一本书数字化。 Facebook,每当您添加朋友或戳某人时,您就可以帮助将一本书数字化。大约350,000 个网站正在使用 reCAPTCHA。实际上,使用 reCAPTCHA 的网站数量如此之多,以至于我们每天数字化的单词数量非常大。每天大约有1 亿册,这相当于每年大约 250 万本书。而这通常只是人们在网上输入验证码,一次一个字地完成。

与验证码相关的事情

1. 没有验证码 reCAPTCHA:谷歌推出了一个替代 API,从根本上简化了 reCAPTCHA 体验。他们称之为“无验证码 reCAPTCHA”。在使用这个新 API 的网站上,大量用户将准备好安全地简单地验证他们是人类,而实际上不必解开 CAPTCHA。相反,只需单击一下,他们就会确认自己不是机器人。这是它的外观:

NoCAPTCHA_reCAPTCHA

2. SQUIGL-PIX:为了解决这个验证码,用户必须阅读并理解用自然语言编写的指令。用户必须了解要跟踪的内容,然后在其中一张给定的图片上找到一个对象并进行跟踪。如果他/她追踪到了正确的对象,我们可以说指令已经被正确理解。这是它的外观:

SQUIGL-PIX

3. ESP-PIX:您可以通过识别一组图像中常见的对象来验证自己,而不是输入字母。这是 CAPTCHA 支持的图像识别的主要示例。这是它的外观:

ESP-PIX

CAPTCHA的应用:

  • 防止博客中的垃圾评论。
  • 保护电子邮件地址免受爬虫攻击。
  • 保护网站注册。
  • 防止字典攻击。
  • 蠕虫和垃圾邮件。
  • 搜索引擎机器人。
  • 在线投票。