1 min read

在滤掉垃圾邮件的同时使文本数码化

在滤掉垃圾邮件的同时使文本数码化

CAPTCHAs ( 全自动区分计算机和人类的图灵测试 )是广泛使用的保护诸如免费电邮供应商、售票机构和社交网络网站免受垃圾邮件制造者所施展的自动化和伤害性程序的安全举措。它们要求用户阅读一个被扭曲的词或一行文字并要求在一个指定的框子内重新将其再打字一遍——这是光学扫描器或数码-文本阅读器很少能够做到的。现在,研究人员设计了一种方法,将利用人脑在解码 CAPTCHAs 时所花的努力用于另外一种有益的用途:通过要求使用者译解来自书本的、由计算机化的光学字符识别软件所无法识别的被扫描的词来帮助将老旧的印刷品数码化。 正如发表在 2008 年 8 月 14 日 在网络版 *Science* Express 上的由 von Ahn 等人 http://www.sciencemag.org/cgi/content/abstract/1160379 在一篇 Report 中所描述的,这种 reCAPTCHA 程序展现给使用者一个无法用光学扫描阅读的词及一个“对照的”答案已知的 CAPTCHA 词。如果能够正确解读对照词表明使用者是人,这时该程序会纪录使用者对无法阅读的词的回答并将其添加到它的数据库中。为了改善该系统的精确性, reCAPTCHA 会将最困难的词发送给多个用户并挑选其中有相同答案的作为正确的答案。 正如在P . Berardelli http://sciencenow.sciencemag.org/cgi/content/full/2008/814/1 在 一则相关的*Science* NOW 的故事中所提出的,这一程序可以以字词超过 99% 的精确度来转录文本,这一精确度可以媲美于专业化的人类誊写员所达到的标准。 reCAPTCHA 目前正施用于 4 万多个网站,并到目前为止已经帮助解决了来自扫描文本文件的约 4 亿 4 千万个字词。