Ⅰ pytorch-cpu下载慢
下载慢可能与网速有关,也有可能与你的电脑性能不佳有关,优化电脑系统。可以提高运行效率。
Ⅱ 【python 】性能优化系列:随机数
最近在做的项目重点部分与大量生成随机数有关,维度高达[1700000,10000],需要生成 10 x 30 次左右,这里遇到内存和速度的双重瓶颈,特地研究了一下如何优化随机数。
优化时间测试所需的分析工具在另一篇博客《性能优化系列一:分析工具》中提到。
原生的python中也有随机模块生成 random.randint 和 random.random 等,但是速度非常慢,numpy 速度可以大幅提升。一般都采用numpy生成随机数。
比较常用的就是以上几种。在需要生成大量随机数的情况下,或生成伪随机数的情况下,python 3.7 常用 RandomState 。
直接生成大规模非稀疏矩阵如下,经常遇到 MemoryError 的错误,大概是同时生成多个float64精度的大规模随机矩阵服务器内存不够,而random state 似乎也没提供调整类型的attr,
这时最好使用即使生成即使销毁,仅保留种子作为索引,同样,多个CPU之间共享大规模矩阵涉及到共享内存或数据传输同步较慢的问题,最好也共享seed而不是直接共享矩阵。
ps. 这里注意一般我们设置time.time()为种子时,对于并发性程序是无效的,不要在并发程序中同时定义,建议生成一个seed list 列表再从中取。
这里可以对大规模矩阵进行分片以进行后续的np 乘法,再切片赋值,以时间换内存。这种情况的麻烦在于如果设定随机数种子会导致每个分片的随机数相同。可以利用一个最初seed(爷爷种子)randint生成 一组切片组数的seed(父亲种子),再每次从中取不同的随机数。
在上述切片方法尝试之后,可以解决内存问题。但是时间非常慢,特别是采取s = 1时在standard normal 上调用170万次的时间长达3000s,line search一下搜索了大约100000为切片值仍然太慢。在文档中发现了 BitGenerator 和 Generator ,大约可以提速到原来的 1/3。
除了Numpy和基本模块之外,AES CTR 加密算法生成随机数也很快,但是并不能有比较方便的方式控制每次生成的一样。参见以下reference。
tensorflow 和 pytorch 也都有大规模生成随机tensor的方式。性能待考。
1. 超快生成随机数的方式CSDN博客
2. tensorflow 生成随机tensor
Ⅲ python深度学习框架学哪个
Python 深度学习生态系统在这几年中的演变实属惊艳。pylearn2,已经不再被积极地开发或者维护,大量的深度学习库开始接替它的位置。这些库每一个都各有千秋。我们已经在 indico 的产品或者开发中使用了以下列表中的大部分的技术,但是对于剩下一些我们没有使用的,我将会借鉴他人的经验来帮助给出 Python 深度学习生态系统的清晰的、详尽的理解。
确切地说,我们将会关注:
Theano
Lasagne
Blocks
TensorFlow
Keras
MXNet
PyTorch
下面是对这 7 大 Python 深度学习框架的描述以及优缺点的介绍。
Theano
描述:Theano 是一个 Python 库,允许你定义、优化并且有效地评估涉及到多维数组的数学表达式。它与 GPUs 一起工作并且在符号微分方面表现优秀。
概述:Theano 是数值计算的主力,它支持了许多我们列表当中的其他的深度学习框架。Theano 由 Frédéric Bastien 创建,这是蒙特利尔大学机器学习研究所(MILA)背后的一个非常优秀的研究团队。它的 API 水平较低,并且为了写出效率高的 Theano,你需要对隐藏在其他框架幕后的算法相当的熟悉。如果你有着丰富的学术机器学习知识,正在寻找你的模型的精细的控制方法,或者想要实现一个新奇的或者不同寻常的模型,Theano 是你的首选库。总而言之,为了灵活性,Theano 牺牲了易用性。
优点:
灵活
正确使用时的高性能
缺点:
较高的学习难度
低水平的 API
编译复杂的符号图可能很慢
Lasagne
描述:在 Theano 上建立和训练神经网络的轻量级库
概述:因为 Theano 致力于成为符号数学中最先且最好的库,Lasagne 提供了在 Theano 顶部的抽象,这使得它更适合于深度学习。它主要由当前 DeepMind 研究科学家 Sander Dieleman 编写并维护。Lasagne 并非是根据符号变量之间的函数关系来指定网络模型,而是允许用户在层级思考,为用户提供了例如“Conv2DLayer”和“DropoutLayer”的构建块。Lasagne 在牺牲了很少的灵活性的同时,提供了丰富的公共组件来帮助图层定义、图层初始化、模型正则化、模型监控和模型训练。
优点:
仍旧非常灵活
比 Theano 更高级的抽象
文档和代码中包含了各种 Pasta Puns
缺点:
社区小
Blocks
描述:用于构建和训练神经网络的 Theano 框架
概述:与 Lasagne 类似,Blocks 是在 Theano 顶部添加一个抽象层使深度学习模型比编写原始的 Theano 更清晰、更简单、定义更加标准化。它是由蒙特利尔大学机器学习研究所(MILA)编写,其中一些人为搭建 Theano 和第一个神经网络定义的高级接口(已经淘汰的 PyLearn2)贡献了自己的一份力量。比起 Lasagne,Blocks 灵活一点,代价是入门台阶较高,想要高效的使用它有不小的难度。除此之外,Blocks 对递归神经网络架构(recurrent neural network architectures)有很好的支持,所以如果你有兴趣探索这种类型的模型,它值得一看。除了 TensorFlow,对于许多我们已经部署在 indico 产品中的 API,Blocks 是其首选库。
优点:
仍旧非常灵活
比 Theano 更高级的抽象
易于测试
缺点:
较高的学习难度
更小的社区
TensorFlow
描述:用于数值计算的使用数据流图的开源软件库
概述:TensorFlow 是较低级别的符号库(比如 Theano)和较高级别的网络规范库(比如 Blocks 和 Lasagne)的混合。即使它是 Python 深度学习库集合的最新成员,在 Google Brain 团队支持下,它可能已经是最大的活跃社区了。它支持在多 GPUs 上运行深度学习模型,为高效的数据流水线提供使用程序,并具有用于模型的检查,可视化和序列化的内置模块。最近,TensorFlow 团队决定支持 Keras(我们列表中下一个深度学习库)。虽然 TensorFlow 有着自己的缺点,但是社区似乎同意这一决定,社区的庞大规模和项目背后巨大的动力意味着学习 TensorFlow 是一次安全的赌注。因此,TensorFlow 是我们今天在 indico 选择的深度学习库。
优点:
由软件巨头 Google 支持
非常大的社区
低级和高级接口网络训练
比基于 Theano 配置更快的模型编译
完全地多 GPU 支持
缺点:
虽然 Tensorflow 正在追赶,但是最初在许多基准上比基于 Theano 的慢。
RNN 支持仍不如 Theano
Keras
描述:Python 的深度学习库。支持 Convnets、递归神经网络等。在 Theano 或者 TensorFlow 上运行。
概述:Keras 也许是水平最高,对用户最友好的库了。由 Francis Chollet(Google Brain 团队中的另一个成员)编写和维护。它允许用户选择其所构建的模型是在 Theano 上或是在 TensorFlow 上的符号图上执行。Keras 的用户界面受启发于 Torch,所以如果你以前有过使用 Lua 语言的机器学习经验,Keras 绝对值得一看。由于部分非常优秀的文档和其相对易用性,Keras 的社区非常大并且非常活跃。最近,TensorFlow 团队宣布计划与 Keras 一起支持内置,所以很快 Keras 将是 TensorFlow 项目的一个分组。
优点:
可供选择的 Theano 或者 TensorFlow 后端
直观、高级别的端口
更易学习
缺点:
不太灵活,比其他选择更规范
MXNet
描述:MXNet 是一个旨在提高效率和灵活性的深度学习框架。
概述:MXNet 是亚马逊(Amazon)选择的深度学习库,并且也许是最优秀的库。它拥有类似于 Theano 和 TensorFlow 的数据流图,为多 GPU 配置提供了良好的配置,有着类似于 Lasagne 和 Blocks 更高级别的模型构建块,并且可以在你可以想象的任何硬件上运行(包括手机)。对 Python 的支持只是其冰山一角—MXNet 同样提供了对 R、Julia、C++、Scala、Matlab,和 Javascript 的接口。如果你正在寻找最佳的性能,选择 MXNet 吧,但是你必须愿意处理与之相对的一些 MXNet 的怪癖。
优点:
速度的标杆
非常灵活
缺点:
最小的社区
比 Theano 更困难的学习难度
PyTorch
描述:Python 中的张量(Tensors)和动态神经网络,有着强大的 GPU 加速。
概述:刚刚放出一段时间,PyTorch 就已经是我们 Python 深度学习框架列表中的一个新的成员了。它是从 Lua 的 Torch 库到 Python 的松散端口,由于它由 Facebook 的 人工智能研究团队(Artificial Intelligence Research team (FAIR))支持且因为它用于处理动态计算图(Theano,TensorFlow 或者其他衍生品没有的特性,编译者注:现在 TensorFlow 好像支持动态计算图),它变得非常的有名。PyTorch 在 Python 深度学习生态系统将扮演怎样的角色还不得而知,但所有的迹象都表明,PyTorch 是我们列表中其他框架的一个非常棒的选择。
优点:
来自 Facebook 组织的支持
完全地对动态图的支持
高级和低级 API 的混合
缺点:
比其他选择,PyTorch 还不太成熟
Ⅳ linux服务器如何切换pytorch版本
方法/步骤
Anaconda安装:安装Anaconda ,首先想到的是到官方网站下载,不过速度太慢X1;之前有听说过清华镜像源有丰富的墙外资源,逛了下后发现该镜像源确实很强大,备份了普通人所需的大部分开源软件安装包
如何在Linux下安装Pytorch
选择安装包 Anaconda2-4.4.0-Linux-x86_64.sh(_64为64位)下载,千万不要选择最新的安装包(最新的Anaconda_5.0.1用的gcc版本为7.2,后续安装时提示gcc不能编译一个文件)
如何在Linux下安装Pytorch
补充一点,如果安装过程中添加环境变量选了"no",你需要手动添加环境变量时,可能在网上搜到的是"vi ~/.bashrc"这个命令,但是我推荐使用命令"gedit
~/.bashrc"以文本格式打开环境配置
如何在Linux下安装Pytorch
另外,如果你在安装的时候没看到本文之前的内容选择了最新版本的Anaconda,那你可能需要重新安装Anaconda。
Github配置:接下来要安装Pytorch了,直接在Pytorch官网上选择自己需要的配置,然后复制类似于"conda install pytorch torchvision -c soumith"命令到终端,接下来就准备开始Pytorch之旅
如何在Linux下安装Pytorch
但是意料之中的意外还是来了,安装包的下载速度太慢X2。接着查看相关的资料,了解到可以通过Pytorch源文件的方法来安装。Pytorch源文件安装的方式需要通过git工具把源库文件clone到本地(有网友指出download zip的方式下载PyTorch的源代码,在进行编译安装时会报错),而该指令需要有Github的帐号,并且需要配置ssh密钥
如何在Linux下安装Pytorch
Pytorch安装:历经重重困难,终于到了安装Pytorch的时刻了。再等一等,现在你还需要先配置环境变量NO_CUDA(本人只装CPU版本)和CMAKE_PREFIX_PATH(通过命令gedit ~/.bashrc可以通过文本方式打开.bashrc文件),接着用Anaconda安装Pytorch的依赖包,最后在进行Pytorch的安装。
第三次安装完毕时出现了如下提示语句,发现没有error或者warning等词语就没管;结果进入python模式,输入import torch时出现提示"ImportError:No mole named _C";
如何在Linux下安装Pytorch
我电脑上的usr/local/lib/python2.7/site-packages/torch文件夹下没有任何文件,回想之前安装Pytorch时的安装提示,发现需要用pytorch/torch.egg-info里的文件替掉/home/gene_leee/anaconda2/lib/python2.7/site-packages/torch-0.4.0a0+0fd9682-py2.7.egg-info里的文件,再次实验发现成功导入torch
如何在Linux下安装Pytorch
需要知道命令"python setup.py clean",用于清除上次安装失败的残余文件
如何在Linux下安装Pytorch
接下来安装TorchVision,TorchVision为PyTorch提供视频和图像方面的支持,包括数据库和模型等,安装好了之后可以很方便地导入很多图像数据库,比如cifar-10;按照TorchVision官网的方法2,成功安装。
Ⅳ 零基础学python好找工作吗
Python 深度学习生态系统在这几年中的演变实属惊艳。pylearn2,已经不再被积极地开发或者维护,大量的深度学习库开始接替它的位置。这些库每一个都各有千秋。我们已经在 indico 的产品或者开发中使用了以下列表中的大部分的技术,但是对于剩下一些我们没有使用的,我将会借鉴他人的经验来帮助给出 Python 深度学习生态系统的清晰的、详尽的理解。
确切地说,我们将会关注:
Theano
Lasagne
Blocks
TensorFlow
Keras
MXNet
PyTorch
下面是对这 7 大 Python 深度学习框架的描述以及优缺点的介绍。
Theano
描述:Theano 是一个 Python 库,允许你定义、优化并且有效地评估涉及到多维数组的数学表达式。它与 GPUs 一起工作并且在符号微分方面表现优秀。
概述:Theano 是数值计算的主力,它支持了许多我们列表当中的其他的深度学习框架。Theano 由 Frédéric Bastien 创建,这是蒙特利尔大学机器学习研究所(MILA)背后的一个非常优秀的研究团队。它的 API 水平较低,并且为了写出效率高的 Theano,你需要对隐藏在其他框架幕后的算法相当的熟悉。如果你有着丰富的学术机器学习知识,正在寻找你的模型的精细的控制方法,或者想要实现一个新奇的或者不同寻常的模型,Theano 是你的首选库。总而言之,为了灵活性,Theano 牺牲了易用性。
优点:
灵活
正确使用时的高性能
缺点:
较高的学习难度
低水平的 API
编译复杂的符号图可能很慢
Lasagne
描述:在 Theano 上建立和训练神经网络的轻量级库
概述:因为 Theano 致力于成为符号数学中最先且最好的库,Lasagne 提供了在 Theano 顶部的抽象,这使得它更适合于深度学习。它主要由当前 DeepMind 研究科学家 Sander Dieleman 编写并维护。Lasagne 并非是根据符号变量之间的函数关系来指定网络模型,而是允许用户在层级思考,为用户提供了例如“Conv2DLayer”和“DropoutLayer”的构建块。Lasagne 在牺牲了很少的灵活性的同时,提供了丰富的公共组件来帮助图层定义、图层初始化、模型正则化、模型监控和模型训练。
优点:
仍旧非常灵活
比 Theano 更高级的抽象
文档和代码中包含了各种 Pasta Puns
缺点:
社区小
Blocks
描述:用于构建和训练神经网络的 Theano 框架
概述:与 Lasagne 类似,Blocks 是在 Theano 顶部添加一个抽象层使深度学习模型比编写原始的 Theano 更清晰、更简单、定义更加标准化。它是由蒙特利尔大学机器学习研究所(MILA)编写,其中一些人为搭建 Theano 和第一个神经网络定义的高级接口(已经淘汰的 PyLearn2)贡献了自己的一份力量。比起 Lasagne,Blocks 灵活一点,代价是入门台阶较高,想要高效的使用它有不小的难度。除此之外,Blocks 对递归神经网络架构(recurrent neural network architectures)有很好的支持,所以如果你有兴趣探索这种类型的模型,它值得一看。除了 TensorFlow,对于许多我们已经部署在 indico 产品中的 API,Blocks 是其首选库。
优点:
仍旧非常灵活
比 Theano 更高级的抽象
易于测试
缺点:
较高的学习难度
更小的社区
TensorFlow
描述:用于数值计算的使用数据流图的开源软件库
概述:TensorFlow 是较低级别的符号库(比如 Theano)和较高级别的网络规范库(比如 Blocks 和 Lasagne)的混合。即使它是 Python 深度学习库集合的最新成员,在 Google Brain 团队支持下,它可能已经是最大的活跃社区了。它支持在多 GPUs 上运行深度学习模型,为高效的数据流水线提供使用程序,并具有用于模型的检查,可视化和序列化的内置模块。最近,TensorFlow 团队决定支持 Keras(我们列表中下一个深度学习库)。虽然 TensorFlow 有着自己的缺点,但是社区似乎同意这一决定,社区的庞大规模和项目背后巨大的动力意味着学习 TensorFlow 是一次安全的赌注。因此,TensorFlow 是我们今天在 indico 选择的深度学习库。
优点:
由软件巨头 Google 支持
非常大的社区
低级和高级接口网络训练
比基于 Theano 配置更快的模型编译
完全地多 GPU 支持
缺点:
虽然 Tensorflow 正在追赶,但是最初在许多基准上比基于 Theano 的慢。
RNN 支持仍不如 Theano
Keras
描述:Python 的深度学习库。支持 Convnets、递归神经网络等。在 Theano 或者 TensorFlow 上运行。
概述:Keras 也许是水平最高,对用户最友好的库了。由 Francis Chollet(Google Brain 团队中的另一个成员)编写和维护。它允许用户选择其所构建的模型是在 Theano 上或是在 TensorFlow 上的符号图上执行。Keras 的用户界面受启发于 Torch,所以如果你以前有过使用 Lua 语言的机器学习经验,Keras 绝对值得一看。由于部分非常优秀的文档和其相对易用性,Keras 的社区非常大并且非常活跃。最近,TensorFlow 团队宣布计划与 Keras 一起支持内置,所以很快 Keras 将是 TensorFlow 项目的一个分组。
优点:
可供选择的 Theano 或者 TensorFlow 后端
直观、高级别的端口
更易学习
缺点:
不太灵活,比其他选择更规范
MXNet
描述:MXNet 是一个旨在提高效率和灵活性的深度学习框架。
概述:MXNet 是亚马逊(Amazon)选择的深度学习库,并且也许是最优秀的库。它拥有类似于 Theano 和 TensorFlow 的数据流图,为多 GPU 配置提供了良好的配置,有着类似于 Lasagne 和 Blocks 更高级别的模型构建块,并且可以在你可以想象的任何硬件上运行(包括手机)。对 Python 的支持只是其冰山一角—MXNet 同样提供了对 R、Julia、C++、Scala、Matlab,和 Javascript 的接口。如果你正在寻找最佳的性能,选择 MXNet 吧,但是你必须愿意处理与之相对的一些 MXNet 的怪癖。
优点:
速度的标杆
非常灵活
缺点:
最小的社区
比 Theano 更困难的学习难度
PyTorch
描述:Python 中的张量(Tensors)和动态神经网络,有着强大的 GPU 加速。
概述:刚刚放出一段时间,PyTorch 就已经是我们 Python 深度学习框架列表中的一个新的成员了。它是从 Lua 的 Torch 库到 Python 的松散端口,由于它由 Facebook 的 人工智能研究团队(Artificial Intelligence Research team (FAIR))支持且因为它用于处理动态计算图(Theano,TensorFlow 或者其他衍生品没有的特性,编译者注:现在 TensorFlow 好像支持动态计算图),它变得非常的有名。PyTorch 在 Python 深度学习生态系统将扮演怎样的角色还不得而知,但所有的迹象都表明,PyTorch 是我们列表中其他框架的一个非常棒的选择。
优点:
来自 Facebook 组织的支持
完全地对动态图的支持
高级和低级 API 的混合
缺点:
比其他选择,PyTorch 还不太成熟
Ⅵ Pytorch运算速度很慢怎么办
一般遇到这种情况,都是由于你的电脑配置太差导致的,可以用上北鲲云超算来解决配置的问题,这样能够提供你Pytorch运算更多计算能力的拓展。
Ⅶ Pytorch-交叉熵
一条信息的信息量大小和它的不确定性有很大的关系 。一句话如果需要很多外部信息才能确定,我们就称这句话的信息量比较大。比如你听到“云南西双版纳下雪了”,那你需要去看天气预报、问当地人等等查证(因为云南西双版纳从没下过雪)。相反,如果和你说“人一天要吃三顿饭”,那这条信息的信息量就很小,因为这条信息的确定性很高。
那我们就能将事件 的信息量定义如下(其中 表示事件 发生的概率):
信息量是对于单个事件来说的 ,但是实际情况一件事有很多种发生的可能,比如掷骰子有可能出现6种情况,明天的天气可能晴、多云或者下雨等等。 熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望 。公式如下:
的曲线如下:
结合熵的公式(2)以及 曲线,当这些所有可能发生事件的概率比较小(接近0)或者比较大(接近1)时,熵的值会比较小;如果事件发生的概率既远离0也远离1时,熵的值就会比较大。
例如,如下三组事件比较:
1)事件概率均等,[0.2500, 0.2500, 0.2500, 0.2500],熵为2;
2)事件概率比较靠近0或者1,[0.1, 0.1, 0.1, 0.7],熵为1.3568;
3)事件概率极其靠近0或者1,[0.001, 0.001, 0.001, 0.999],熵为0.0313.
熵的一种比较特殊的情况就是掷硬币 ,只有正、反两种情况,该种情况(二项分布或者0-1分布)熵的计算可以简化如下:
其中, 表示正面概率。
相对熵又称KL散度,用于衡量对于同一个随机变量 的两个分布 和 之间的差异 。在机器学习中, 常用于描述样本的真实分布 ,例如[1,0,0,0]表示样本属于第一类,而 则常常用于表示预测的分布 ,例如[0.7,0.1,0.1,0.1]。显然使用q(x)来描述样本不如 准确, 需要不断地学习来拟合准确的分布 。
KL散度的公式如下:
KL散度的值越小表示两个分布越接近。
我们将KL散度的公式进行变形,得到:
前半部分就是 的熵,后半部分就是我们的交叉熵:
机器学习中,我们常常使用KL散度来评估predict和label之间的差别,但是由于KL散度的前半部分是一个常量,所以我们常常将后半部分的交叉熵作为损失函数,其实二者是一样的。
交叉熵代价函数(Cross-entropy cost function)是用来衡量人工神经网络(ANN)的预测值与实际值的一种方式。与二次代价函数相比,它能更有效地促进ANN的训练。在介绍交叉熵代价函数之前,本文先简要介绍二次代价函数,以及其存在的不足。
ANN的设计目的之一是为了使机器可以像人一样学习知识。人在学习分析新事物时,当发现自己犯的错误越大时,改正的力度就越大。比如投篮:当运动员发现自己的投篮方向离正确方向越远,那么他调整的投篮角度就应该越大,篮球就更容易投进篮筐。同理, 我们希望:ANN在训练时,如果预测值与实际值的误差越大,那么在反向传播训练的过程中,各种参数调整的幅度就要更大,从而使训练更快收敛。 然而,如果使用二次代价函数训练ANN,看到的实际效果是,如果误差越大,参数调整的幅度可能更小,训练更缓慢。
以一个神经元的二类分类训练为例,进行两次实验(ANN常用的激活函数为sigmoid函数,该实验也采用该函数):输入一个相同的样本数据x=1.0(该样本对应的实际分类y=0);两次实验各自随机初始化参数,从而在各自的第一次前向传播后得到不同的输出值,形成不同的代价(误差):
在实验1中,随机初始化参数,使得第一次输出值为0.82(该样本对应的实际值为0);经过300次迭代训练后,输出值由0.82降到0.09,逼近实际值。而在实验2中,第一次输出值为0.98,同样经过300迭代训练,输出值只降到了0.20。
从两次实验的代价曲线中可以看出: 实验1的代价随着训练次数增加而快速降低,但实验2的代价在一开始下降得非常缓慢;直观上看,初始的误差越大,收敛得越缓慢。
其实,误差大导致训练缓慢的原因在于使用了二次代价函数。二次代价函数的公式如下:
其中, 表示代价, 表示样本, 表示实际值, 表示输出值, 表示样本的总数。为简单起见,同样一个样本为例进行说明,此时二次代价函数为:
目前训练ANN最有效的算法是反向传播算法 。简而言之,训练ANN就是通过反向传播代价,以减少代价为导向,调整参数。参数主要有:神经元之间的连接权重 ,以及每个神经元本身的偏置 。调参的方式是采用梯度下降算法(Gradient descent),沿着梯度方向调整参数大小。 和 的梯度推导如下:
其中, 表示神经元的输入, 表示激活函数。从以上公式可以看出, 和 的梯度跟激活函数的梯度成正比,激活函数的梯度越大, 和 的大小调整得越快,训练收敛得就越快。而神经网络常用的激活函数为sigmoid函数,该函数的曲线如下所示:
如图所示, 实验2的初始输出值(0.98)对应的梯度明显小于实验1的输出值(0.82),因此实验2的参数梯度下降得比实验1慢。这就是初始的代价(误差)越大,导致训练越慢的原因。 与我们的期望不符,即:不能像人一样,错误越大,改正的幅度越大,从而学习得越快。
可能有人会说,那就选择一个梯度不变化或变化不明显的激活函数不就解决问题了吗?那样虽然简单粗暴地解决了这个问题,但可能会引起其他更多更麻烦的问题。而且,类似sigmoid这样的函数(比如tanh函数)有很多优点,非常适合用来做激活函数,具体请自行google之。
换个思路,我们不换激活函数,而是换掉二次代价函数,改用交叉熵代价函数:
其中, 表示样本, 表示样本的总数。那么,重新计算参数 的梯度:
因此, 的梯度公式中原来的 被消掉了;另外,该梯度公式中的 表示输出值与实际值之间的误差。所以,当误差越大,梯度就越大,参数 调整得越快,训练速度也就越快。 实际情况证明,交叉熵代价函数带来的训练效果往往比二次代价函数要好。
在实际分类任务中,要先将输出层的输出值经过Softmax函数,再经过log函数,最后才用交叉熵损失函数计算损失。
pytorch中有计算交叉熵损失的接口,即 F.cross_entropy() ,不过该接口包含了Softmax函数、log函数、交叉熵损失函数。也就是说 F.cross_entropy() = F.softmax() + torch.log() + F.nnl_loss() 。即使如此,也要使用 F.cross_entropy() ,不仅是因为它简单,更因为它能保证数值稳定。
机器学习的过程就是希望在训练数据熵 模型学到的分布 和 真实的分布 越近越好,我们知道KL散度可以表示两个分布之间的不同。
但我们没有真实数据的分布,那么只能退而求其次,希望模型学到的分布和训练数据的分布 ,也就是把训练数据当做模型和真实数据之间的代理人 。假设训练数据是从总体中独立同步分布采样(Independent and identically distributed sampled)而来,那么我们可以利用最小化训练数据的经验误差来降低模型的泛化误差。简单说:
由此非常理想化的看法是如果 模型(左) 能够学到 训练数据(中) 的分布,那么应该近似的学到了 真实数据(右) 的分布: 近似于 近似于
简单的交叉熵,你真的懂了吗?
交叉熵损失函数
Ⅷ pytorch0.4发行时间
pytorch0.4是在2018年4月25日发布的。PyTorch的GitHub主页宣布PyTorch0.4.0发布。此次新版,除了平衡计算内存、支持更多概率分布、优化性能和修复Bug外,PyTorch还正式官方支持Windows系统,不再需要借助其它开发者发布的第三方conda包。为Python3.5和3.6提供预编译的Conda二进制文件和pipwheels。另外,Windows上的PyTorch不支持分布式训练,可能比Linux/OSX慢一点,因为Visual、Studio支持较早版本的OpenMP。
Ⅸ 如何有效地阅读PyTorch的源代码
最近刚开始使用theano, 经验不多,连个基本的模型都跑不通,于是去看了下Keras,源码比较简洁,可以当作theano的示例教程来看,感受如下:
文档看似很全,每个layer是干啥的,每个参数是啥都写了,但是不去读代码,实际很多人是无法从文档理解其具体用法的。这点看issue里的讨论里可以看出。同样,example似乎很多,而且都能直接run,还都是real world的数据集,看似很好,但是实际上,对于新手,如果需要的模型跟example里的不完全一样,不容易搞懂到底需要把输入输出的数据搞成啥格式。举个例子,example都是做的classification的,没有做sequence labeling的例子,如果想拿来做个pos tagging,不知道数据如何组织。当然,这些其实花一天读下代码或者好好翻翻issue讨论就可以解决了,但我相信不少人不会去认真读代码或者看讨论,而是直接换个工具。我感觉目前的doc只有懂了代码的人才能看懂,不懂得看文档还是没啥用。
2.项目很简单所以开发者不多,但是很活跃,每天都有新东西加进去。今天增加了一个新的分支后端可以用theano或者tensorflow了,不过貌似由于不支持scan,backend用tensorflow的没实现recurrent layer。他们也意识到文档的问题,觉得需要为小白用户多加点tutorial而不是光给develop看。
我没用过其他的framework,仅说keras拿来学习theano基本用法,很不错
库本身的代码,比较简单易读,我作为python菜鸟,也能看懂。目前model有sequential和grapgh两种,前者并不是指recurrent而是说网络是一层层堆的(也包括recurrent).其他的主要概念包括layer,regularizer, optimizer,objective都分离开。layer用于build每层的输出函数,model会用最后一层的输出,根据objective和每个layer的regularizer来确定最终的cost,然后在update时用optimizer来更新参数。把这四个看下加上model里的fit函数,就会用theano啦。很多模型都能cover,seq2seq这种也有现成的可用。建议不要光看example,多看看github上的 issues讨论,实在找不到,直接提问。效率方面,我不懂theano怎么优化,感觉keras的这种封装,没什么成本,跟自己用原生theano是一样的。当然,theano本身就好慢啊。。估计是我不懂用吧。。
用于测试函数式返回的数值是否有错。如果有错,该函数返回