㈠ 100分 求一份电脑专用的英语单词(中英对照表)
CPU(Center Processor Unit)中央处理单元
mainboard主板
RAM(random access
memory)随机存储器(内存)
ROM(Read Only Memory)只读存储器
Floppy Disk软盘
Hard Disk硬盘
CD-ROM光盘驱动器(光驱)
monitor监视器
keyboard键盘
mouse鼠标
chip芯片
CD-R光盘刻录机
HUB集线器
Modem= MOlator-DEMolator,调制解调器
P-P(Plug and Play)即插即用
UPS(Uninterruptable Power Supply)不间断电源
BIOS(Basic-input-Output
System)基本输入输出系统
CMOS(Complementary Metal-Oxide-Semiconctor)互补金属氧化物半导体
setup安装
uninstall卸载
wizzard向导
OS(Operation Systrem)操作系统
OA(Office AutoMation)办公自动化
exit退出
edit编辑
复制
cut剪切
paste粘贴
delete删除
select选择
find查找
select all全选
replace替换
undo撤消
redo重做
program程序
license许可(证)
back前一步
next下一步
finish结束
folder文件夹
Destination Folder目的文件夹
user用户
click点击
double click双击
right click右击
settings设置
update更新
release发布
data数据
data base数据库
DBMS(Data Base Manege
System)数据库管理系统
view视图
insert插入
object对象
configuration配置
command命令
document文档
POST(power-on-self-test)电源自检程序
cursor光标
attribute属性
icon图标
service pack服务补丁
option pack功能补丁
Demo演示
short cut快捷方式
exception异常
debug调试
previous前一个
column行
row列
restart重新启动
text文本
font字体
size大小
scale比例
interface界面
function函数
access访问
manual指南
active激活
computer language计算机语言
menu菜单
GUI(graphical user interfaces )图形用户界面
template模版
page setup页面设置
password口令
code密码
print preview打印预览
zoom in放大
zoom out缩小
pan漫游
cruise漫游
full screen全屏
tool bar工具条
status bar状态条
ruler标尺
table表
paragraph段落
symbol符号
style风格
execute执行
graphics图形
image图像
Unix用于服务器的一种操作系统
Mac OS苹果公司开发的操作系统
OO(Object-Oriented)面向对象
virus病毒
file文件
open打开
colse关闭
new新建
save保存
exit退出
clear清除
default默认
LAN局域网
WAN广域网
Client/Server客户机/服务器
ATM( Asynchronous
Transfer Mode)异步传输模式
Windows NT微软公司的网络操作系统
Internet互联网
WWW(World Wide Web)万维网
protocol协议
HTTP超文本传输协议
FTP文件传输协议
Browser浏览器
homepage主页
Webpage网页
website网站
URL在Internet的WWW服务程序上
用于指定信息位置的表示方法
Online在线
Email电子邮件
ICQ网上寻呼
Firewall防火墙
Gateway网关
HTML超文本标识语言
hypertext超文本
hyperlink超级链接
IP(Address)互联网协议(地址)
SearchEngine搜索引擎
TCP/IP用于网络的一组通讯协议
Telnet远程登录
IE(Internet Explorer)探索者(微软公司的网络浏览器)
Navigator引航者(网景公司的浏览器)
multimedia多媒体
ISO国际标准化组织
ANSI美国国家标准协会
able 能
activefile 活动文件
addwatch 添加监视点
allfiles 所有文件
allrightsreserved 所有的权力保留
altdirlst 切换目录格式
andotherinFORMation 以及其它的信息
archivefileattribute 归档文件属性
assignto 指定到
autoanswer 自动应答
autodetect 自动检测
autoindent 自动缩进
autosave 自动存储
availableonvolume 该盘剩余空间
badcommand 命令错
badcommandorfilename 命令或文件名错
batchparameters 批处理参数
binaryfile 二进制文件
binaryfiles 二进制文件
borlandinternational borland国际公司
bottommargin 页下空白
bydate 按日期
byextension 按扩展名
byname 按名称
bytesfree 字节空闲
callstack 调用栈
casesensitive 区分大小写
centralpointsoftwareinc central point 软件股份公司
changedirectory 更换目录
changedrive 改变驱动器
changename 更改名称
characterset 字符集
checkingfor 正在检查
chgdrivepath 改变盘/路径
chooseoneofthefollowing 从下列中选一项
clearall 全部清除
clearallbreakpoints 清除所有断点
clearsanattribute 清除属性
clearscommandhistory 清除命令历史
clearscreen 清除屏幕
closeall 关闭所有文件
codegeneration 代码生成
colorpalette 彩色调色板
commandline 命令行
commandprompt 命令提示符
compressedfile 压缩文件
conventionalmemory 常规内存
diskette 复制磁盘
rightc 版权(c
创建DOS分区或逻辑DOS驱动器
createextendeddospartition 创建扩展DOS分区
createprimarydospartition 创建DOS主分区
createsadirectory 创建一个目录
currentfile 当前文件
defrag 整理碎片
dele 删去
deltree 删除树
devicedriver 设备驱动程序
dialogbox 对话栏
directionkeys 方向键
directly 直接地
directorylistargument 目录显示变量
directoryof 目录清单
directorystructure 目录结构
diskaccess 磁盘存取
disk 磁盘拷贝
diskspace 磁盘空间
displayfile 显示文件
displayoptions 显示选项
displaypartitioninFORMation 显示分区信息
dosshell DOS 外壳
doubleclick 双击
driveletter 驱动器名
editmenu 编辑选单
emsmemory ems内存
endoffile 文件尾
endofline 行尾
enterchoice 输入选择
entiredisk 转换磁盘
environmentvariable 环境变量
everyfileandsubdirectory 所有的文件和子目录
existingdestinationfile 已存在的目录文件时
expandedmemory 扩充内存
expandtabs 扩充标签
explicitly 明确地
extendedmemory 扩展内存
fastest 最快的
fatfilesystem fat 文件系统
fdiskoptions fdisk选项
fileattributes 文件属性
fileFORMat 文件格式
filefunctions 文件功能
fileselection 文件选择
fileselectionargument 文件选择变元
filesin 文件在
filesinsubdir 子目录中文件
fileslisted 列出文件
filespec 文件说明
filespecification 文件标识
filesselected 选中文件
findfile 文件查寻
fixeddisk 硬盘
fixeddisksetupprogram 硬盘安装程序
fixeserrorsonthedisk 解决磁盘错误
floppydisk 软盘
FORMatdiskette 格式化磁盘
FORMatsadiskforusewithmsdos 格式化用于MS-DOS的磁盘
FORMfeed 进纸
freememory 闲置内存
fullscreen 全屏幕
functionprocere 函数过程
graphical 图解的
graphicslibrary 图形库
groupdirectoriesfirst 先显示目录组
hangup 挂断
harddisk 硬盘
hardwaredetection 硬件检测
hasbeen 已经
helpfile 帮助文件
helpindex 帮助索引
helpinFORMation 帮助信息
helppath 帮助路径
helpscreen 帮助屏
helptext 帮助说明
helptopics 帮助主题
helpwindow 帮助窗口
hiddenfile 隐含文件
hiddenfileattribute 隐含文件属性
hiddenfiles 隐含文件
howto 操作方式
ignorecase 忽略大小写
incorrectdos 不正确的DOS
incorrectdosversion DOS 版本不正确
indicatesabinaryfile 表示是一个二进制文件
indicatesanasciitextfile 表示是一个ascii文本文件
insertmode 插入方式
请用scandisk,不要用chkdsk
inuse 在使用
invaliddirectory 无效的目录
kbytes 千字节
keyboardtype 键盘类型
labeldisk 标注磁盘
laptop 膝上
largestexecutableprogram 最大可执行程序
largestmemoryblockavailable 最大内存块可用
lefthanded 左手习惯
leftmargin 左边界
linenumber 行号
linenumbers 行号
linespacing 行间距
listbyfilesinsortedorder 按指定顺序显示文件
listfile 列表文件
listof 清单
locatefile 文件定位
lookat 查看
lookup 查找
macroname 宏名字
makedirectory 创建目录
memoryinfo 内存信息
memorymodel 内存模式
menubar 菜单条
menucommand 菜单命令
menus 菜单
messagewindow 信息窗口
microsoft 微软
microsoftantivirus 微软反病毒软件
microsoftcorporation 微软公司
modemsetup 调制解调器安装
molename 模块名
monitormode 监控状态
monochromemonitor 单色监视器
moveto 移至
multi 多
newdata 新建数据
newer 更新的
newfile 新文件
newname 新名称
newwindow 新建窗口
norton norton
nostack 栈未定义
noteusedeltreecautiously 注意:小心使用deltree
onlinehelp 联机求助
optionally 可选择地
or 或
pageframe 页面
pagelength 页长
pctools pc工具
postscript 附言
printall 全部打印
printdevice 打印设备
printerport 打印机端口
programfile 程序文件
pulldown 下拉
pulldownmenus 下拉式选单
quickFORMat 快速格式化
quickview 快速查看
readonlyfile 只读文件
readonlyfileattribute 只读文件属性
readonlyfiles 只读文件
readonlymode 只读方式
redial 重拨
repeatlastfind 重复上次查找
reportfile 报表文件
resize 调整大小
respectively 分别地
rightmargin 右边距
rootdirectory 根目录
runtimeerror 运行时出错
saveall 全部保存
saveas 另存为
scandisk 磁盘扫描程序
screencolors 屏幕色彩
screenoptions 屏幕任选项
screensaver 屏幕暂存器
screensavers 屏幕保护程序
screensize 屏幕大小
scrollbars 翻卷栏
scrolllockoff 滚屏已锁定
searchfor 搜索
sectorspertrack 每道扇区数
selectgroup 选定组
selectionbar 选择栏
setactivepartition 设置活动分区
setupoptions 安装选项
shortcutkeys 快捷键
showclipboard 显示剪贴板
singleside 单面
sizemove 大小/移动
sorthelp S排序H帮助
sortorder 顺序
stackoverflow 栈溢出
standalone 独立的
startupoptions 启动选项
statusline 状态行
stepover 单步
summaryof 摘要信息
swapfile 交换文件
switchto 切换到
sync 同步
systemfile 系统文件
systemfiles 系统文件
systeminfo 系统信息
systeminFORMation 系统信息程序
tableofcontents 目录
terminalemulation 终端仿真
terminalsettings 终端设置
testfile 测试文件
testfileparameters 测试文件参数
theactivewindow 激活窗口
togglebreakpoint 切换断点
tomsdos 转到MS-DOS
topmargin 页面顶栏
turnoff 关闭
unmark 取消标记
unselect 取消选择
usesbareFORMat 使用简洁方式
useslowercase 使用小写
useswidelistFORMat 使用宽行显示
usinghelp 使用帮助
verbosely 冗长地
videomode 显示方式
viewwindow 内容浏览
viruses 病毒
vision 景象
vollabel 卷标
volumelabel 卷标
volumeserialnumberis 卷序号是
windowshelp windows 帮助
wordwrap 整字换行
workingdirectory 正在工作的目录
worm 蠕虫
writemode 写方式
writeto 写到
xmsmemory 扩充内存网络安全方面的专业词汇
Access Control List(ACL) 访问控制列表
access token 访问令牌
account lockout 帐号封锁
account policies 记帐策略
accounts 帐号
adapter 适配器
adaptive speed leveling 自适应速率等级调整
Address Resolution Protocol(ARP) 地址解析协议
Administrator account 管理员帐号
ARPANET 阿帕网(internet的前身)
algorithm 算法
alias 别名
allocation 分配、定位
alias 小应用程序
allocation layer 应用层
API 应用程序编程接口
anlpasswd 一种与Passwd+相似的代理密码检查器
applications 应用程序
ATM 异步传递模式
attack 攻击
audio policy 审记策略
auditing 审记、监察
back-end 后端
borde 边界
borde gateway 边界网关
breakabie 可破密的
breach 攻破、违反
cipher 密码
ciphertext 密文
CAlass A domain A类域
CAlass B domain B类域
CAlass C domain C类域
classless addressing 无类地址分配
cleartext 明文
CSNW Netware客户服务
client 客户,客户机
client/server 客户机/服务器
code 代码
COM port COM口(通信端口)
CIX 服务提供者
computer name 计算机名
crack 闯入
cryptanalysis 密码分析
DLC 数据链路控制
decryption 解密
database 数据库
dafault route 缺省路由
dafault share 缺省共享
denial of service 拒绝服务
dictionary attack 字典式攻击
directory 目录
directory replication 目录复制
domain 域
domain controller 域名控制器
IP masquerade IP伪装
IP spoofing IP欺骗
LAN 局域网
LPC 局部过程调用
NNTP 网络新闻传送协议
PPP 点到点协议
称为点对点通信协议(Point to Point Protocol),是为适应那些不能在网络线上的使
用者,通过电话线的连接而彼此通信所制定的协议。
PDC 主域控制器
Telnet 远程登陆
TCP/IP 传输控制协议/网际协议
TCP/IP通信协议主要包含了在Internet上网络通信细节的标准,以及一组网络互连的协
议和路径选择算法。TCP是传输控制协议,相当于物品装箱单,保证数据在传输过程中不
会丢失。IP是网间协议,相当于收发货人的地址和姓名,保证数据到达指定的地点。
TFTP 普通文件传送协议
TFTP是无盘计算机用来传输信息的一种简化的FTP协议。它非常之简单,所以可固化在硬
盘上,而且支持无认证操作。TFTP是一种非常不安全的协议。
Trojan Horse 特洛伊木马
URL 统一资源定位器
UDP 用户数据报协议
VDM 虚拟DOS机
UUCP 是一种基于猫的使用已经很久的文件传输协议,有时候还使用它在Internet上传输
Usenet新闻和E-mail,尤其是在那些间断性联网的站点上。现在很少站提供匿名的UUCP来
存取文件。而它做为一种文件传输协议,只有那些没有入网而使用猫的用户使用此方法。
WWW 万维网
WWW(Word Wide Web)是Internet最新的一种信息服务。它是一种基于超文本文件的
交互式浏览检索工具。用户可用WWW在Internet网上浏览、传递、编辑超文本格式的文件。
WAN 广域网
virtual server 虚拟服务器
Usenet
用户交流网Usenet是网络新闻服务器的主要信息来源。Usenet完全是一个民间自发建立
的,使用Internet交换信息但又不完全依赖Internet进行通讯的用户交流网络。使用Usenet
的自愿者共同遵守一些约定的网络使用规则。
USER name 用户名
USER account 用户帐号
Web page 网页
OpenGL 开放图形语言
ODBC 开放数据库连接
PCI 外设连接接口
authentication 认证、鉴别
authorization 授权
Back Office Microsoft公司的一种软件包
Back up 备份
backup browser 后备浏览器
BDC 备份域控制器
baseline 基线
BIOS 基本输入/输出系统
Binding 联编、汇集
bit 比特、二进制位
BOOTP 引导协议
BGP 引导网关协议
Bottleneck 瓶径
bridge 网桥、桥接器
browser 浏览器
browsing 浏览
channel 信道、通路
CSU/DSU 信道服务单元/数字服务单元
Checksum 校验和
Cluster 簇、群集
CGI 公共网关接口
crash(崩溃) 系统突然失效,需要从新引导
CD-ROM 只读型光盘
Component 组件
㈡ 人工智能一些术语总结
随着智能时代慢慢的到来,有一些基本概念都不知道真的是要落伍了,作为正在积极学习向上的青年,我想总结一份笔记,此份笔记会记录众多AI领域的术语和概念,当然,学一部分记录一部分,并且可能会夹杂着自己的一些理解,由于能力有限,有问题希望大家多多赐教。当然,由于内容太多,仅仅只是记录了中英名对照,有的加上了简单的解释,没加的后续大家有需求,我会慢慢完善~~。目录暂定以首字母的字典序排序。可以当作目录方便以后查阅~~建议收藏加点赞哈哈哈
------------------------------------------------这里是分割线--------------------------------------------------
A
准确率(accuracy)
分类模型预测准确的比例。
二分类问题中,准确率定义为:accuracy = (true positives +true negatives)/all samples
多分类问题中,准确率定义为:accuracy = correctpredictions/all samples
激活函数(activation function)
一种函数,将前一层所有神经元激活值的加权和 输入到一个非线性函数中,然后作为下一层神经元的输入,例如 ReLU 或 Sigmoid
AdaGrad
一种复杂的梯度下降算法,重新调节每个参数的梯度,高效地给每个参数一个单独的学习率。
AUC(曲线下面积)
一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类(Ture Positives)要比假正类(False Positives)概率大的确信度。
Adversarial example(对抗样本)
Adversarial Networks(对抗网络)
Artificial General Intelligence/AGI(通用人工智能)
Attention mechanism(注意力机制)
Autoencoder(自编码器)
Automatic summarization(自动摘要)
Average gradient(平均梯度)
Average-Pooling(平均池化)
B
反向传播(Backpropagation/BP)
神经网络中完成梯度下降的重要算法。首先,在前向传播的过程中计算每个节点的输出值。然后,在反向传播的过程中计算与每个参数对应的误差的偏导数。
基线(Baseline)
被用为对比模型表现参考的简单模型。
批量(Batch)
模型训练中一个迭代(指一次梯度更新)使用的样本集。
批量大小(Batch size)
一个批量中样本的数量。例如,SGD 的批量大小为 1,而 mini-batch 的批量大小通常在 10-1000 之间。
偏置(Bias)
与原点的截距或偏移量。
二元分类器(Binary classification)
一类分类任务,输出两个互斥类别中的一个。比如垃圾邮件检测。
词袋(Bag of words/Bow)
基学习器(Base learner)
基学习算法(Base learning algorithm)
贝叶斯网络(Bayesian network)
基准(Bechmark)
信念网络(Belief network)
二项分布(Binomial distribution)
玻尔兹曼机(Boltzmann machine)
自助采样法/可重复采样/有放回采样(Bootstrap sampling)
广播(Broadcasting)
C
类别(Class)
所有同类属性的目标值作为一个标签。
分类模型(classification)
机器学习模型的一种,将数据分离为两个或多个离散类别。
收敛(convergence)
训练过程达到的某种状态,其中训练损失和验证损失在经过了确定的迭代次数后,在每一次迭代中,改变很小或完全不变。
凸函数(concex function)
一种形状大致呈字母 U 形或碗形的函数。然而,在退化情形中,凸函数的形状就像一条线。
成本(cost)
loss 的同义词。深度学习模型一般都会定义自己的loss函数。
交叉熵(cross-entropy)
多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。
条件熵(Conditional entropy)
条件随机场(Conditional random field/CRF)
置信度(Confidence)
共轭方向(Conjugate directions)
共轭分布(Conjugate distribution)
共轭梯度(Conjugate gradient)
卷积神经网络(Convolutional neural network/CNN)
余弦相似度(Cosine similarity)
成本函数(Cost Function)
曲线拟合(Curve-fitting)
D
数据集(data set)
样本的集合
深度模型(deep model)
一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照(widemodel)。
dropout 正则化(dropoutregularization)
训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多,正则化越强。
数据挖掘(Data mining)
决策树/判定树(Decisiontree)
深度神经网络(Deep neural network/DNN)
狄利克雷分布(Dirichlet distribution)
判别模型(Discriminative model)
下采样(Down sampling)
动态规划(Dynamic programming)
E
早期停止法(early stopping)
一种正则化方法,在训练损失完成下降之前停止模型训练过程。当验证数据集(validationdata set)的损失开始上升的时候,即泛化表现变差的时候,就该使用早期停止法了。
嵌入(embeddings)
一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。
经验风险最小化(empirical risk minimization,ERM)
选择能使得训练数据的损失函数最小化的模型的过程。和结构风险最小化(structualrisk minimization)对照。
集成(ensemble)
多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法:
设置不同的初始化;
设置不同的超参量;
设置不同的总体结构。
深度和广度模型是一种集成。
样本(example)
一个数据集的一行内容。一个样本包含了一个或多个特征,也可能是一个标签。参见标注样本(labeledexample)和无标注样本(unlabeled example)。
F
假负类(false negative,FN)
被模型错误的预测为负类的样本。例如,模型推断一封邮件为非垃圾邮件(负类),但实际上这封邮件是垃圾邮件。
假正类(false positive,FP)
被模型错误的预测为正类的样本。例如,模型推断一封邮件为垃圾邮件(正类),但实际上这封邮件是非垃圾邮件。
假正类率(false positive rate,FP rate)
ROC 曲线(ROC curve)中的 x 轴。FP 率的定义是:假正率=假正类数/(假正类数+真负类数)
特征工程(feature engineering)
在训练模型的时候,挖掘对模型效果有利的特征。
前馈神经网络(Feedforward Neural Networks/FNN )
G
泛化(generalization)
指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。
广义线性模型(generalized linear model)
最小二乘回归模型的推广/泛化,基于高斯噪声,相对于其它类型的模型(基于其它类型的噪声,比如泊松噪声,或类别噪声)。广义线性模型的例子包括:
logistic 回归
多分类回归
最小二乘回归
梯度(gradient)
所有变量的偏导数的向量。在机器学习中,梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。
梯度截断(gradient clipping)
在应用梯度之前先修饰数值,梯度截断有助于确保数值稳定性,防止梯度爆炸出现。
梯度下降(gradient descent)
通过计算模型的相关参量和损失函数的梯度最小化损失函数,值取决于训练数据。梯度下降迭代地调整参量,逐渐靠近权重和偏置的最佳组合,从而最小化损失函数。
图(graph)
在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的,表示传递一个操作(一个张量)的结果(作为一个操作数)给另一个操作。使用 TensorBoard 能可视化计算图。
高斯核函数(Gaussian kernel function)
高斯混合模型(Gaussian Mixture Model)
高斯过程(Gaussian Process)
泛化误差(Generalization error)
生成模型(Generative Model)
遗传算法(Genetic Algorithm/GA)
吉布斯采样(Gibbs sampling)
基尼指数(Gini index)
梯度下降(Gradient Descent)
H
启发式(heuristic)
一个问题的实际的和非最优的解,但能从学习经验中获得足够多的进步。
隐藏层(hidden layer)
神经网络中位于输入层(即特征)和输出层(即预测)之间的合成层。一个神经网络包含一个或多个隐藏层。
超参数(hyperparameter)
连续训练模型的过程中可以拧动的“旋钮”。例如,相对于模型自动更新的参数,学习率(learningrate)是一个超参数。和参量对照。
硬间隔(Hard margin)
隐马尔可夫模型(Hidden Markov Model/HMM)
层次聚类(Hierarchical clustering)
假设检验(Hypothesis test)
I
独立同分布(independently and identicallydistributed,i.i.d)
从不会改变的分布中获取的数据,且获取的每个值不依赖于之前获取的值。i.i.d. 是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建。
推断(inference)
在机器学习中,通常指将训练模型应用到无标注样本来进行预测的过程。在统计学中,推断指在观察到的数据的基础上拟合分布参数的过程。
输入层(input layer)
神经网络的第一层(接收输入数据)。
评分者间一致性(inter-rater agreement)
用来衡量一项任务中人类评分者意见一致的指标。如果意见不一致,则任务说明可能需要改进。有时也叫标注者间信度(inter-annotator agreement)或评分者间信度(inter-raterreliability)。
增量学习(Incremental learning)
独立成分分析(Independent Component Analysis/ICA)
独立子空间分析(Independent subspace analysis)
信息熵(Information entropy)
信息增益(Information gain)
J
JS 散度(Jensen-ShannonDivergence/JSD)
K
Kernel 支持向量机(KernelSupport Vector Machines/KSVM)
一种分类算法,旨在通过将输入数据向量映射到更高维度的空间使正类和负类之间的边际最大化。例如,考虑一个输入数据集包含一百个特征的分类问题。为了使正类和负类之间的间隔最大化,KSVM 从内部将特征映射到百万维度的空间。KSVM 使用的损失函数叫作 hinge 损失。
核方法(Kernel method)
核技巧(Kernel trick)
k 折交叉验证/k 倍交叉验证(K-fold cross validation)
K - 均值聚类(K-MeansClustering)
K近邻算法(K-Nearest NeighboursAlgorithm/KNN)
知识图谱(Knowledge graph)
知识库(Knowledge base)
知识表征(Knowledge Representation)
L
L1 损失函数(L1 loss)
损失函数基于模型对标签的预测值和真实值的差的绝对值而定义。L1 损失函数比起 L2 损失函数对异常值的敏感度更小。
L1 正则化(L1regularization)
一种正则化,按照权重绝对值总和的比例进行惩罚。在依赖稀疏特征的模型中,L1 正则化帮助促使(几乎)不相关的特征的权重趋近于 0,从而从模型中移除这些特征。
L2 损失(L2 loss)
参见平方损失。
L2 正则化(L2regularization)
一种正则化,按照权重平方的总和的比例进行惩罚。L2 正则化帮助促使异常值权重更接近 0 而不趋近于 0。(可与 L1 正则化对照阅读。)L2 正则化通常改善线性模型的泛化效果。
标签(label)
在监督式学习中,样本的“答案”或“结果”。标注数据集中的每个样本包含一或多个特征和一个标签。在垃圾邮件检测数据集中,特征可能包括主题、发出者何邮件本身,而标签可能是“垃圾邮件”或“非垃圾邮件”。
标注样本(labeled example)
包含特征和标签的样本。在监督式训练中,模型从标注样本中进行学习。
学习率(learning rate)
通过梯度下降训练模型时使用的一个标量。每次迭代中,梯度下降算法使学习率乘以梯度,乘积叫作 gradient step。学习率是一个重要的超参数。
最小二乘回归(least squares regression)
通过 L2 损失最小化进行训练的线性回归模型。
线性回归(linear regression)
对输入特征的线性连接输出连续值的一种回归模型。
logistic 回归(logisticregression)
将 sigmoid 函数应用于线性预测,在分类问题中为每个可能的离散标签值生成概率的模型。尽管 logistic 回归常用于二元分类问题,但它也用于多类别分类问题(这种情况下,logistic回归叫作“多类别 logistic 回归”或“多项式 回归”。
对数损失函数(Log Loss)
二元 logistic 回归模型中使用的损失函数。
损失(Loss)
度量模型预测与标签距离的指标,它是度量一个模型有多糟糕的指标。为了确定损失值,模型必须定义损失函数。例如,线性回归模型通常使用均方差作为损失函数,而 logistic 回归模型使用对数损失函数。
隐狄利克雷分布(Latent Dirichlet Allocation/LDA)
潜在语义分析(Latent semantic analysis)
线性判别(Linear Discriminant Analysis/LDA)
长短期记忆(Long-Short Term Memory/LSTM)
M
机器学习(machine learning)
利用输入数据构建(训练)预测模型的项目或系统。该系统使用学习的模型对与训练数据相同分布的新数据进行有用的预测。机器学习还指与这些项目或系统相关的研究领域。
均方误差(Mean Squared Error/MSE)
每个样本的平均平方损失。MSE 可以通过平方损失除以样本数量来计算。
小批量(mini-batch)
在训练或推断的一个迭代中运行的整批样本的一个小的随机选择的子集。小批量的大小通常在10 到 1000 之间。在小批量数据上计算损失比在全部训练数据上计算损失要高效的多。
机器翻译(Machine translation/MT)
马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo/MCMC)
马尔可夫随机场(Markov Random Field)
多文档摘要(Multi-document summarization)
多层感知器(Multilayer Perceptron/MLP)
多层前馈神经网络(Multi-layer feedforward neuralnetworks)
N
NaN trap
训练过程中,如果模型中的一个数字变成了 NaN,则模型中的很多或所有其他数字最终都变成 NaN。NaN 是“Not aNumber”的缩写。
神经网络(neural network)
该模型从大脑中获取灵感,由多个层组成(其中至少有一个是隐藏层),每个层包含简单的连接单元或神经元,其后是非线性。
神经元(neuron)
神经网络中的节点,通常输入多个值,生成一个输出值。神经元通过将激活函数(非线性转换)应用到输入值的加权和来计算输出值。
归一化(normalization)
将值的实际区间转化为标准区间的过程,标准区间通常是-1 到+1 或 0 到 1。例如,假设某个特征的自然区间是 800 到 6000。通过减法和分割,你可以把那些值标准化到区间-1 到+1。参见缩放。
Numpy
Python 中提供高效数组运算的开源数学库。pandas 基于 numpy 构建。
Naive bayes(朴素贝叶斯)
Naive Bayes Classifier(朴素贝叶斯分类器)
Named entity recognition(命名实体识别)
Natural language generation/NLG(自然语言生成)
Natural language processing(自然语言处理)
Norm(范数)
O
目标(objective)
算法尝试优化的目标函数。
one-hot 编码(独热编码)(one-hotencoding)
一个稀疏向量,其中:一个元素设置为 1,所有其他的元素设置为 0。。
一对多(one-vs.-all)
给出一个有 N 个可能解决方案的分类问题,一对多解决方案包括 N 个独立的二元分类器——每个可能的结果都有一个二元分类器。例如,一个模型将样本分为动物、蔬菜或矿物,则一对多的解决方案将提供以下三种独立的二元分类器:
动物和非动物
蔬菜和非蔬菜
矿物和非矿物
过拟合(overfitting)
创建的模型与训练数据非常匹配,以至于模型无法对新数据进行正确的预测
Oversampling(过采样)
P
pandas
一种基于列的数据分析 API。很多机器学习框架,包括 TensorFlow,支持 pandas 数据结构作为输入。参见 pandas 文档。
参数(parameter)
机器学习系统自行训练的模型的变量。例如,权重是参数,它的值是机器学习系统通过连续的训练迭代逐渐学习到的。注意与超参数的区别。
性能(performance)
在软件工程中的传统含义:软件运行速度有多快/高效?
在机器学习中的含义:模型的准确率如何?即,模型的预测结果有多好?
困惑度(perplexity)
对模型完成任务的程度的一种度量指标。例如,假设你的任务是阅读用户在智能手机上输入的单词的头几个字母,并提供可能的完整单词列表。该任务的困惑度(perplexity,P)是为了列出包含用户实际想输入单词的列表你需要进行的猜测数量。
流程(pipeline)
机器学习算法的基础架构。管道包括收集数据、将数据放入训练数据文件中、训练一或多个模型,以及最终输出模型。
Principal component analysis/PCA(主成分分析)
Precision(查准率/准确率)
Prior knowledge(先验知识)
Q
Quasi Newton method(拟牛顿法)
R
召回率(recall)
回归模型(regression model)
一种输出持续值(通常是浮点数)的模型。而分类模型输出的是离散值。
正则化(regularization)
对模型复杂度的惩罚。正则化帮助防止过拟合。正则化包括不同种类:
L1 正则化
L2 正则化
dropout 正则化
early stopping(这不是正式的正则化方法,但可以高效限制过拟合)
正则化率(regularization rate)
一种标量级,用 lambda 来表示,指正则函数的相对重要性。从下面这个简化的损失公式可以看出正则化率的作用:
minimize(loss function + λ(regularization function))
提高正则化率能够降低过拟合,但可能会使模型准确率降低。
表征(represention)
将数据映射到有用特征的过程。
受试者工作特征曲线(receiver operatingcharacteristic/ROC Curve)
反映在不同的分类阈值上,真正类率和假正类率的比值的曲线。参见 AUC。
Recurrent Neural Network(循环神经网络)
Recursive neural network(递归神经网络)
Reinforcement learning/RL(强化学习)
Re-sampling(重采样法)
Representation learning(表征学习)
Random Forest Algorithm(随机森林算法)
S
缩放(scaling)
特征工程中常用的操作,用于控制特征值区间,使之与数据集中其他特征的区间匹配。例如,假设你想使数据集中所有的浮点特征的区间为 0 到 1。给定一个特征区间是 0 到 500,那么你可以通过将每个值除以 500,缩放特征值区间。还可参见正则化。
scikit-learn
一种流行的开源机器学习平台。网址:www.scikit-learn.org。
序列模型(sequence model)
输入具有序列依赖性的模型。例如,根据之前观看过的视频序列对下一个视频进行预测。
Sigmoid 函数(sigmoid function)
softmax
为多类别分类模型中每个可能的类提供概率的函数。概率加起来的总和是 1.0。例如,softmax 可能检测到某个图像是一只狗的概率为 0.9,是一只猫的概率为 0.08,是一匹马的概率为 0.02。(也叫作 full softmax)。
结构风险最小化(structural risk minimization/SRM)
这种算法平衡两个目标:
构建预测性最强的模型(如最低损失)。
使模型尽量保持简单(如强正则化)。
比如,在训练集上的损失最小化 + 正则化的模型函数就是结构风险最小化算法。更多信息,参见 http://www.svms.org/srm/。可与经验风险最小化对照阅读。
监督式机器学习(supervised machine learning)
利用输入数据及其对应标签来训练模型。监督式机器学习类似学生通过研究问题和对应答案进行学习。在掌握问题和答案之间的映射之后,学生就可以提供同样主题的新问题的答案了。可与非监督机器学习对照阅读。
Similarity measure(相似度度量)
Singular Value Decomposition(奇异值分解)
Soft margin(软间隔)
Soft margin maximization(软间隔最大化)
Support Vector Machine/SVM(支持向量机)
T
张量(tensor)
TensorFlow 项目的主要数据结构。张量是 N 维数据结构(N 的值很大),经常是标量、向量或矩阵。张量可以包括整数、浮点或字符串值。
Transfer learning(迁移学习)
U
无标签样本(unlabeled example)
包含特征但没有标签的样本。无标签样本是推断的输入。在半监督学习和无监督学习的训练过程中,通常使用无标签样本。
无监督机器学习(unsupervised machine learning)
训练一个模型寻找数据集(通常是无标签数据集)中的模式。无监督机器学习最常用于将数据分成几组类似的样本。无监督机器学习的另一个例子是主成分分析(principal componentanalysis,PCA)
W
Word embedding(词嵌入)
Word sense disambiguation(词义消歧)
㈢ 求一个质量好的视频转换器可以转换成H.264(baseline)的MP4视频。
什么奇葩手机?divx才是兼容性最好,h264本来就不是长于此。
㈣ MPNN:消息传递神经网络
近年来,随着量子化学计算和分子动力学模拟等实验的展开产生了巨大的数据量,大多数经典的机器学习技术都无法有效利用目前的数据。而原子系统的对称性表明,能够应用于网络图中的神经网络也能够应用于分子模型。所以,找到一个更加强大的模型来解决目前的化学任务可以等价于找到一个适用于网络图的模型。
本文的目标是证明:能够应用于化学预测任务的模型可以直接从分子图中学习到分子的特征,并且不受到图同构的影响。本文提出的MPNN是一种用于图上监督学习的框架,能够概括之前一些文献提出的一些方法,并且能够按照这个框架提出一些新的架构。本文提出的新的MPNN变种基于实际的应用场景:预测有机小分子的量子力学性质。并且,作者希望以后提出的新的MPNN变种能够从实际的应用出发,从实际应用中获得启发。
本文以QM9作为benchmark数据集,这个数据集由130k个分子组成,每个分子有13个性质,这些性质是通过一种计算昂贵的量子力学模拟方法(DFT)近似生成的,相当于13个回归任务。这些任务似乎代表了许多重要的化学预测问题,并且目前对许多现有方法来说是困难的。
本文提出的模型的性能度量采用两种形式:
①DFT近似的平均估计误差;
②化学界已经确立的目标误差,称为“化学精度”。
本文介绍了能够应用MPNN框架的8篇文献,为了简便起见,以处理无向图 为例,无向图 包含节点特征 和边的特征 ,将这种形式推广到有向重图是不重要的。MPNN前向传播的过程包含两个阶段,即消息传递阶段(message passing phase)和读出阶段(readout phase)。消息传递阶段运行 个时间步并且依赖消息函数 以及节点更新函数 。在消息传递阶段,每个节点的隐状态 都会根据消息 进行更新,具体过程是:
代表节点 的邻居节点集合。读出阶段使用某种读出函数 来为整个图计算一个特征向量:
都是用来学习的可微函数。 作用于节点状态集合,并且必须对节点状态的排列保持不变,以使MPNN对图同构保持不变。注意MPNN也可以学习边的特征,这可以通过为每条边引入隐状态 并应用前面的两个过程来实现。接下来,我们通过指定所使用的消息函数 、顶点更新函数 和读出函数 来定义以前文献中的模型。
本文提出的模型采用的消息函数是:
代表拼接。节点更新函数是:
是节点 的度, 对应于时间步 以及节点度 的学习矩阵。读出函数将之前所有隐状态 进行连接:
是一个神经网络, 是时间步 的一个学习矩阵。
这样的消息传递的方法可能有问题,因为最终得到的消息向量为 ,这是边和节点状态向量的加和,缺乏边和节点状态向量的交互。
消息函数为:
是特定于边的标签的学习矩阵(这个模型假设边有离散的标签)。更新函数如下:
GRU就是门控循环单元,一种循环神经网络,对于每个时间步进行权重共享,也就是说每个时间步共用同一个更新函数。最后,读出函数:
代表神经网络, 代表哈达玛积。
这个模型考虑了两种情况,一种是每个节点都有自己的目标,另一种是有一个graph level的目标。它还考虑了在每个时间步骤中存在node level影响的情况,在这种情况下,更新函数将 连接作为输入,其中 是一个外部向量,表示顶点 受到的外部影响。消息函数 是一个神经网络,使用拼接向量 作为输入,节点更新函数 也是一个神经网络,使用 作为输入。最终读出函数得到一个graph level的输出: ,这里 是一个神经网络。注意,这个模型只定义了 的情况。
这个模型与之前的MPNNs稍微有一些不同,是因为它引入了边的表示 ,并且会在消息传递阶段进行更新。消息函数为:
节点更新函数为:
同样的 代表拼接, 代表ReLU激活函数, 是学习权重矩阵。边状态更新的方式是:
都是学习矩阵。
消息函数为:
是矩阵, 是偏置向量。更新函数为:
读出函数使用单个隐层神经网络独立地通过每个节点,并对输出进行求和:
8篇文献中有3篇属于这一类。其中两篇采用消息函数:
矩阵 通过拉普拉斯矩阵的特征向量和模型的学习参数来参数化。更新函数为:
代表非线性函数,比如ReLU激活函数。
另一篇文献采用消息函数:
这里 。节点更新函数为:
本文以前述GG-NN作为baseline进行改进,提出一种新的MPNN变种。下文中以 代表节点特征的维度,以 代表图的节点的数量。这一变种适用于有向图,这意味着入边和出边有分别的信息通道,那么信息 由 和 拼接而成,当我们将模型应用无向图时,就把无向图的边看做两条边,包含一条入边,一条出边,有相同的标签,这样处理的方式意味着信息通道的大小是 而不是 。
模型的输入是每个节点的特征向量 以及邻接矩阵 ,邻接矩阵 具有向量分量,表示分子中的不同化学键以及两个原子之间的成对空间距离。初始状态 是原子输入特征集合 ,并且需要padding到维度 。在实验中的每个时间步 都要进行权重共享,并且更新函数采用GRU。
GG-NN原本采用的消息函数,采用矩阵相乘的方式(注意原来的GG-NN的边有离散的标签,而现在我们假设的边有一个特征向量 ):
是特定于边的标签的学习矩阵。为了兼容边特征,本文提出了新的消息函数:
是一个神经网络,将边的特征向量 映射到一个 的矩阵。上述两种消息函数的特点是消息只依赖于 和 而不依赖于 ,如果消息同时依赖目标节点与源节点,那么应该是更加高效的,可以尝试以下这种消息函数:
这里 是一个神经网络。
对于有向图,一共有两个消息函数 和 ,对于边 应用哪个消息函数取决于边的方向。
本文探索了两种方式来改变模型中信息的传递。第一种是为未连接的节点对添加一个单独的“虚拟”边类型。这一处理可以在预处理时实现,效果是可以使得在传播过程中让信息传播更远的距离。
另一种方式是添加一个“master”节点,让它通过一种特殊类型的边与所有节点连接。“master”节点充当全局暂存空间,每个节点在消息传递的每个步骤中都对其进行读写操作。另外“master”节点拥有单独的节点维度 ,以及内部更新函数(实验中是GRU)的单独权重。这同样可以使得在传播过程中让信息传播更远的距离。这样可以允许模型有更大的容量,同时也不会过多的损失效率,其复杂度为 。
读出函数采用set2set模型,这个模型使用 作为输入,然后再经过 步计算后生成一个graph level的embedding ,其中过程与 内节点顺序无关,最终将 输入到一个神经网络中来获得最终输出。具体参考文献: Sequence to sequence for sets。
由于消息传递阶段的复杂度为 ,当 和 增大时,计算上就会是昂贵的。处理的方法是将 拆分成 个不同的 维的embedding ,并且在每个 上独立运行传播过程得到 ,然后进行混合:
代表神经网络, 代表拼接, 在所有节点上共享。这样的混合过程保持了节点排列的不变性,同时允许图的不同副本在传播阶段相互通信。这样的设计提升了计算效率,比如在使用矩阵相乘的消息函数时一个副本的复杂度为 ,当有 个副本时一共为 。
一个分子有很多特征,如下图所示:
边的特征包括化学键与距离,因此有以下三种表示方式:
①化学图(Chemical Graph):在不考虑距离的情况下,邻接矩阵的值是离散的键类型:单键,双键,三键或芳香键;
②距离分桶(Distance bins):GG-NN基于矩阵乘法的消息函数的前提假设是“边信息是离散的”,因此作者将键的距离分为 10 个 bin,比如说 中均匀划分 8 个 bin, 为 1 个 bin, 为 1 个 bin;
③原始距离特征(Raw distance feature):也可以同时考虑距离和化学键的特征,这时每条边都有自己的特征向量,此时邻接矩阵的每个实例都是一个 5 维向量,第一维是距离,其余4维是一个独热向量,代表4种不同的化学键。
实验中对比了本文提出的方法与现有的方法:
以下为不考虑空间信息的结果:
以下为一些消融实验:
具体实验设置参照原文。
㈤ 关于e day计算方法的请教
我测试的系统是4.5b,也没有mir4这个t-code呀?对于e date,简单的算法是baseline data + paymentterm 中定义的天数。至于baseline date,可以指定默认的,比如用document date, posting date 等等,一般用document date吧,因为它是发票日期。payment term中的baseline date calculation中的fix date是固定日期付款,additional month表示下几个月的某一天。我的解释比较简单,不同栏位是否设置都会影响