如何利用机器学习破解验证码的源代码教程-电子发烧友网

验证码的设计是为了防止计算机自动填写表格，验证你是一个真实的“人”。但随着深度学习和计算机视觉的兴起，现在他们往往容易被击败。

我一直在读一本由AdrianRosebrock所写的书《Deep Learning for Computer Vision with Python》（Python计算机视觉深度学习）。在这本书中，Adrian回顾了如何通过机器学习破解e – zpass纽约网站上的验证码系统:

如何利用机器学习破解验证码的源代码教程

Adrian没有访问生成验证码图像的应用程序的源代码。为了破解这个系统，他不得不下载数百个示例图像，并手动解决它们以训练他的系统。

但是，如果我们想要破解一个开源的验证码系统，我们去哪里访问源代码呢?

我访问了WordPress.org插件登记网站，并搜索了“CAPTCHA”。上面的结果被称为“Really Simple CAPTCHA”，并且有超过100万的安装量:

WordPress.org插件登记地址：https://wordpress.org/plugins/

如何利用机器学习破解验证码的源代码教程

最棒的是，这里有它的源代码!因为有生成验证码的源代码，所以这应该很容易被破解。为了让事情变得更有挑战性，让我们给自己一个时间限制。我们能在15分钟内彻底破解这个验证码系统吗?让我们试一试!

重要提示:这绝不是批评“Really Simple CAPTCHA”插件或其作者。插件作者自己说它已经不安全了，建议你使用其他的东西。这只是一个有趣并且快速的技术挑战。但如果你是100万用户之一，或许你应该有所防备了:)

挑战

首先，让我们需要知道 Really Simple CAPTCHA生成什么样的图像。在演示网站上，我们看到:

Really Simple CAPTCHA地址：https://wordpress.org/plugins/really-simple-captcha/

如何利用机器学习破解验证码的源代码教程

演示验证码图片

验证码图像看起来是四个字母。让我们在PHP源代码中验证这一点:

public function __construct() { $this->chars = 'ABCDEFGHJKLMNPQRSTUVWXYZ23456789'; $this->char_length = 4;}

是的，它生成了4个字母的验证码，使用4种不同字体的随机组合。我们可以看到，在代码中它从不使用“O”或“I”，以此避免用户的混淆。这就给我们留下了32个可能的字母和数字。

到目前为止的时间:2分钟

我们的工具集

在我们进一步讨论之前，我们先来讨论一下解决这个问题需要的工具:

Python 3

Python是一种很有趣的编程语言，包含很好的机器学习和计算机视觉库。

OpenCV

OpenCV是一个流行的计算机视觉和图像处理框架。我们将使用OpenCV来处理验证码图像。它有一个Python API，因此我们可以直接在Python中使用。

Keras

Keras是用Python编写的深度学习框架。它使得定义、训练和使用具有最小编码的深度神经网络变得很容易。

TensorFlow

TensorFlow是谷歌的机器学习库。我们将在Keras中编码，但是Keras并没有真正实现神经网络逻辑本身。相反，它使用谷歌在幕后的TensorFlow库来完成繁重的任务。

好了，回到挑战。

创建数据集

训练任何机器学习系统，都需要训练数据。要破解验证码系统，我们需要这样的训练数据:

如何利用机器学习破解验证码的源代码教程

我们有了WordPress插件的源代码，就可以修改它来保存10000个验证码图像，以及每个图像的预期答案。

在对代码进行了几分钟的破解并添加了一个简单的for循环之后，我有了一个包含训练数据的文件夹—10,000个PNG文件，将正确的答案作为其文件名:

如何利用机器学习破解验证码的源代码教程

这是唯一的我不给你示例代码的部分。我们这样做是为了教学，我不希望你真的去垃圾邮件网站。但是我会给你我在最后生成的10000张照片，这样你就可以复制我的结果。

到目前为止的时间:5分钟

简化问题

现在我们有了训练数据，我们可以直接用它来训练神经网络:

如何利用机器学习破解验证码的源代码教程

如果有足够的训练数据，这种方法可能有效——但是我们可以使问题变得简单得多。问题越简单，训练数据越少，我们解决需要的计算力就越少。我们毕竟只有15分钟!

幸运的是，验证码图像通常只由四个字母组成。如果我们能把图像分割开来，这样每个字母都是一个单独的图像，那么我们只需训练神经网络识别单个字母:

如何利用机器学习破解验证码的源代码教程

我没有时间去浏览10000个训练图像，并且用Photoshop将它们手工分割成单独的图像。这需要几天的时间，但我只剩下10分钟了。我们不能将图像分割成4个等分大小的块，因为验证码随机将字母放置在不同的水平位置，如下图所示:

如何利用机器学习破解验证码的源代码教程

每个图像中的字母都是随机放置的，使图像分割变得更加困难。

幸运的是，我们仍然可以实现自动化。在图像处理中，我们经常需要检测具有相同颜色的像素的“blob”。这些连续像素点的边界称为轮廓。OpenCV有一个内置的findContours()函数，我们可以用它来检测这些连续区域。

我们将从一个原始的验证码图像开始:

如何利用机器学习破解验证码的源代码教程

然后我们将图像转换成纯黑白像素点(这称为色彩阈值法)，这样就很容易找到连续区域的轮廓边界:

如何利用机器学习破解验证码的源代码教程

接下来，我们将使用OpenCV的findContours()函数来检测图像中包含相同颜色连续像素块的分离部分:

如何利用机器学习破解验证码的源代码教程

接着把每个区域作为一个单独的图像文件保存。因为我们知道每个图像应该包含从左到右的四个字母，所以我们可以用这些知识来标记我们保存的字母。我们按这个顺序把它们存起来，并用相应的字母名称来保存每一个图像字母。

但是等一下—我发现问题了!有时验证码有这样重叠的字母:

如何利用机器学习破解验证码的源代码教程

这意味着我们最终将提取将两个字母拼凑在一起的区域：

如何利用机器学习破解验证码的源代码教程

如果我们不处理这个问题，我们就会产生糟糕的训练数据。我们需要解决这个问题，这样我们就不会偶然地让机器将这两个squashed – together字母识别为一个字母。

有一个简单的窍门:如果一个区域的宽比它的高度大，那就意味着我们可能有两个字母挤压在一起了。在这种情况下，我们可以把这两个字母放在中间，把它分成两个独立的字母:

现在我们有了一种提取单个字母的方法，让我们在所有的验证码图像中运行它。目的是收集每个字母的不同变体。我们可以把每个字母都保存在自己的文件夹里。

这是我摘取所有字母后，“W”文件夹的图片:

如何利用机器学习破解验证码的源代码教程

到目前为止的时间:10分钟

构建并训练神经网络

因为我们只需要识别单个字母的图像，所以并需要一个非常复杂的神经网络结构。识别字母比识别像猫和狗这样的复杂图像要容易得多。

我们将使用一个简单的卷积神经网络架构，它有两个卷积层和两个完全连通的层:

如何利用机器学习破解验证码的源代码教程

定义这个神经网络架构只需要使用Keras的几行代码:

model = Sequential() model.add(Conv2D(20, (5, 5), padding="same", input_shape=(20, 20, 1), activation="relu")) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2))) model.add(Conv2D(50, (5, 5), padding="same", activation="relu")) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2))) model.add(Flatten()) model.add(Dense(500, activation="relu")) model.add(Dense(32, activation="softmax")) model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

现在我们可以运行它了。

# Train the neural network model.fit(X_train, Y_train, validation_data=(X_test, Y_test), batch_size=32, epochs=10, verbose=1)

经过训练数据集10次之后，我们达到了接近100%的准确度。我们应该能够在任何我们需要的时候自动绕过这个验证码。

时间过了:15分钟

使用训练的模型来以解决验证码

现在我们有了一个经过训练的神经网络，用它来破解验证码是很简单的:

1. 从WordPress插件的网站上获取真正的验证码图像。

2. 用我们用来创建训练数据集的方法将验证码图像分割成四个不同的字母图像。

3. 让我们的神经网络对每个字母图像做一个单独的预测。

4. 用四个预测字母作为验证码的答案。

下面是我们的模型如何解码真实的验证码:

或从命令行:

如何利用机器学习破解验证码的源代码教程

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

源代码

源代码

+关注

关注
96

文章
2945

浏览量
66743
机器学习

机器学习

+关注

关注
66

文章
8414

浏览量
132612
验证码

验证码

+关注

关注
2

文章
20

浏览量
4704

原文标题：利用机器学习在15分钟内破解验证码

文章出处：【微信号：worldofai，微信公众号：worldofai】欢迎添加关注！文章转载请注明出处。

无法验证邮箱，总是提示验证码错误，验证码明明是正确的。

`无法验证邮箱，总是提示验证码错误，验证码明明是正确的。是不是系统的bug？`

发表于 05-12 10:41

一文解析验证码与打码平台的攻防对抗

1、验证码与打码平台的攻防对抗　　众所周知，验证码的出现是为了区分人和机器，但随着科技的发展，黑产从业者的可图之利增多，验证码的战场也进入了

发表于 09-28 11:02

打码平台是如何高效的破解市面上各家验证码平台的各种形式验证码的？

，比如说引入机器学习和神经网络等人工智能相关技术来智能识别图片中的验证码要素，提高识别验证要素的准确率等。以下是某个打码平台相关人工智能技术

发表于 11-01 15:21

C#教程之中文验证码

C#教程之中文验证码，很好的C#资料，快来学习吧。

发表于 04-20 11:13 •6次下载

多样变换的手写验证码自动识别算法

研究验证码自动识别技术可以进一步提升人识别验证码的可读性，增强机器识别的难度，从而提高网络安全性。针对目前提出的验证码识别方法基本都是采用光学字符识别（OCR）方法对

发表于 12-20 14:14 •0次下载

简单地描述了如何用机器学习绕过E-ZPass New York网站的验证码

，来防止电脑自动填写表单。但是随着深度学习和计算机视觉的兴起，它们现在往往很容易被攻破。我在读Adrian Rosebrock的优秀的著作《Python计算机视觉深度学习》。在书中，Adrian简单地描述了他如何用机器

发表于 01-22 09:15 •6362次阅读

简单地描述了如何用<b class='flag-5'>机器</b><b class='flag-5'>学习</b>绕过E-ZPass New York网站的<b class='flag-5'>验证码</b>

利用机器学习在15分钟内破解验证码，再也不担心买不到12306的票啦

再也不用输入验证码了！

发表于 03-06 17:00 •6530次阅读

<b class='flag-5'>利用</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>在15分钟内<b class='flag-5'>破解</b><b class='flag-5'>验证码</b>，再也不担心买不到12306的票啦

以一个真实网站的验证码为例，实现了基于一下KNN的验证码识别

很多网站登录都需要输入验证码，如果要实现自动登录就不可避免的要识别验证码。本文以一个真实网站的验证码为例，实现了基于一下KNN的验证码识别。

发表于 12-24 17:27 •7777次阅读

如何使用Python机器学习解决验证码的资料说明

写爬虫有一个绕不过去的问题就是验证码，现在验证码分类大概有4种：图像类滑动类点击类语音类

发表于 05-03 13:43 •2309次阅读

验证码层出不穷？试试这个自动跳过验证码的工具

目前网络上越来越多使用验证码了，验证码的本意是阻止机器刷流量挤占服务器资源，这本来无可厚非；但是验证码已经变得越来越过分，别说机器人了，连人

发表于 11-15 10:42 •5970次阅读

验证码太麻烦，自动跳过验证码神器试一试

发表于 11-15 11:15 •1w次阅读

一个用于破解Google验证码的方法

今天给大家介绍一个用于破解 Google ReCAPTCHA 的方法。 ReCAPTCHA 介绍可能大家还没听说过什么是 ReCAPTCHA，可能由于某些原因，这个验证码在国内出现不多，不过想必大家

发表于 09-01 11:16 •7073次阅读

一个短信验证码爆破重置

以前倒是遇到过不少四位数验证码爆破的，但是这种可以结合短信遍历，一个短信验证码只能验证三次的，最后能成功利用的还是第一次遇到，关键还是这里不存在图片

发表于 09-07 09:14 •5082次阅读

验证码到底在验证啥？聊一聊验证码是怎么为难我们人类的

在文章开头，老狐先给大家玩一个验证码的游戏，猜出图中验证码字母。

发表于 08-12 10:25 •2103次阅读

Java 中验证码的使用

今天我们讲一下在 Java 中验证码的使用。 验证码生成本效果是利用easy-captcha工具包实现，首先需要添加相关依赖到pom.xml中，代码如下： com .github.w

发表于 09-25 11:11 •1043次阅读

搜索历史

如何利用机器学习破解验证码的源代码教程

评论

无法验证邮箱，总是提示验证码错误，验证码明明是正确的。

一文解析验证码与打码平台的攻防对抗

打码平台是如何高效的破解市面上各家验证码平台的各种形式验证码的？

C#教程之中文验证码

多样变换的手写验证码自动识别算法

简单地描述了如何用机器学习绕过E-ZPass New York网站的验证码

利用机器学习在15分钟内破解验证码，再也不担心买不到12306的票啦

以一个真实网站的验证码为例，实现了基于一下KNN的验证码识别

如何使用Python机器学习解决验证码的资料说明

验证码层出不穷？试试这个自动跳过验证码的工具

验证码太麻烦，自动跳过验证码神器试一试

一个用于破解Google验证码的方法

一个短信验证码爆破重置

验证码到底在验证啥？聊一聊验证码是怎么为难我们人类的

Java 中验证码的使用