導航:首頁 > 源碼編譯 > baseline標簽傳播演算法

baseline標簽傳播演算法

發布時間:2022-10-20 04:42:35

㈠ 100分 求一份電腦專用的英語單詞(中英對照表)

CPU(Center Processor Unit)中央處理單元
mainboard主板
RAM(random access
memory)隨機存儲器(內存)
ROM(Read Only Memory)只讀存儲器
Floppy Disk軟盤
Hard Disk硬碟
CD-ROM光碟驅動器(光碟機)
monitor監視器
keyboard鍵盤
mouse滑鼠
chip晶元
CD-R光碟刻錄機
HUB集線器
Modem= MOlator-DEMolator,數據機
P-P(Plug and Play)即插即用
UPS(Uninterruptable Power Supply)不間斷電源
BIOS(Basic-input-Output
System)基本輸入輸出系統
CMOS(Complementary Metal-Oxide-Semiconctor)互補金屬氧化物半導體
setup安裝
uninstall卸載
wizzard向導
OS(Operation Systrem)操作系統
OA(Office AutoMation)辦公自動化
exit退出
edit編輯
復制
cut剪切
paste粘貼
delete刪除
select選擇
find查找
select all全選
replace替換
undo撤消
redo重做
program程序
license許可(證)
back前一步
next下一步
finish結束
folder文件夾
Destination Folder目的文件夾
user用戶
click點擊
double click雙擊
right click右擊
settings設置
update更新
release發布
data數據
data base資料庫
DBMS(Data Base Manege
System)資料庫管理系統
view視圖
insert插入
object對象
configuration配置
command命令
document文檔
POST(power-on-self-test)電源自檢程序
cursor游標
attribute屬性
icon圖標
service pack服務補丁
option pack功能補丁
Demo演示
short cut快捷方式
exception異常
debug調試
previous前一個
column行
row列
restart重新啟動
text文本
font字體
size大小
scale比例
interface界面
function函數
access訪問
manual指南
active激活
computer language計算機語言
menu菜單
GUI(graphical user interfaces )圖形用戶界面
template模版
page setup頁面設置
password口令
code密碼
print preview列印預覽
zoom in放大
zoom out縮小
pan漫遊
cruise漫遊
full screen全屏
tool bar工具條
status bar狀態條
ruler標尺
table表
paragraph段落
symbol符號
style風格
execute執行
graphics圖形
image圖像
Unix用於伺服器的一種操作系統
Mac OS蘋果公司開發的操作系統
OO(Object-Oriented)面向對象
virus病毒
file文件
open打開
colse關閉
new新建
save保存
exit退出
clear清除
default默認
LAN區域網
WAN廣域網
Client/Server客戶機/伺服器
ATM( Asynchronous
Transfer Mode)非同步傳輸模式
Windows NT微軟公司的網路操作系統
Internet互聯網
WWW(World Wide Web)萬維網
protocol協議
HTTP超文本傳輸協議
FTP文件傳輸協議
Browser瀏覽器
homepage主頁
Webpage網頁
website網站
URL在Internet的WWW服務程序上
用於指定信息位置的表示方法
Online在線
Email電子郵件
ICQ網上尋呼
Firewall防火牆
Gateway網關
HTML超文本標識語言
hypertext超文本
hyperlink超級鏈接
IP(Address)互聯網協議(地址)
SearchEngine搜索引擎
TCP/IP用於網路的一組通訊協議
Telnet遠程登錄
IE(Internet Explorer)探索者(微軟公司的網路瀏覽器)
Navigator引航者(網景公司的瀏覽器)
multimedia多媒體
ISO國際標准化組織
ANSI美國國家標准協會
able 能
activefile 活動文件
addwatch 添加監視點
allfiles 所有文件
allrightsreserved 所有的權力保留
altdirlst 切換目錄格式
andotherinFORMation 以及其它的信息
archivefileattribute 歸檔文件屬性
assignto 指定到
autoanswer 自動應答
autodetect 自動檢測
autoindent 自動縮進
autosave 自動存儲
availableonvolume 該盤剩餘空間
badcommand 命令錯
badcommandorfilename 命令或文件名錯
batchparameters 批處理參數
binaryfile 二進制文件
binaryfiles 二進制文件
borlandinternational borland國際公司
bottommargin 頁下空白
bydate 按日期
byextension 按擴展名
byname 按名稱
bytesfree 位元組空閑
callstack 調用棧
casesensitive 區分大小寫
centralpointsoftwareinc central point 軟體股份公司
changedirectory 更換目錄
changedrive 改變驅動器
changename 更改名稱
characterset 字元集
checkingfor 正在檢查
chgdrivepath 改變盤/路徑
chooseoneofthefollowing 從下列中選一項
clearall 全部清除
clearallbreakpoints 清除所有斷點
clearsanattribute 清除屬性
clearscommandhistory 清除命令歷史
clearscreen 清除屏幕
closeall 關閉所有文件
codegeneration 代碼生成
colorpalette 彩色調色板
commandline 命令行
commandprompt 命令提示符
compressedfile 壓縮文件
conventionalmemory 常規內存
diskette 復制磁碟
rightc 版權(c
創建DOS分區或邏輯DOS驅動器
createextendeddospartition 創建擴展DOS分區
createprimarydospartition 創建DOS主分區
createsadirectory 創建一個目錄
currentfile 當前文件
defrag 整理碎片
dele 刪去
deltree 刪除樹
devicedriver 設備驅動程序
dialogbox 對話欄
directionkeys 方向鍵
directly 直接地
directorylistargument 目錄顯示變數
directoryof 目錄清單
directorystructure 目錄結構
diskaccess 磁碟存取
disk 磁碟拷貝
diskspace 磁碟空間
displayfile 顯示文件
displayoptions 顯示選項
displaypartitioninFORMation 顯示分區信息
dosshell DOS 外殼
doubleclick 雙擊
driveletter 驅動器名
editmenu 編輯選單
emsmemory ems內存
endoffile 文件尾
endofline 行尾
enterchoice 輸入選擇
entiredisk 轉換磁碟
environmentvariable 環境變數
everyfileandsubdirectory 所有的文件和子目錄
existingdestinationfile 已存在的目錄文件時
expandedmemory 擴充內存
expandtabs 擴充標簽
explicitly 明確地
extendedmemory 擴展內存
fastest 最快的
fatfilesystem fat 文件系統
fdiskoptions fdisk選項
fileattributes 文件屬性
fileFORMat 文件格式
filefunctions 文件功能
fileselection 文件選擇
fileselectionargument 文件選擇變元
filesin 文件在
filesinsubdir 子目錄中文件
fileslisted 列出文件
filespec 文件說明
filespecification 文件標識
filesselected 選中文件
findfile 文件查尋
fixeddisk 硬碟
fixeddisksetupprogram 硬碟安裝程序
fixeserrorsonthedisk 解決磁碟錯誤
floppydisk 軟盤
FORMatdiskette 格式化磁碟
FORMatsadiskforusewithmsdos 格式化用於MS-DOS的磁碟
FORMfeed 進紙
freememory 閑置內存
fullscreen 全屏幕
functionprocere 函數過程
graphical 圖解的
graphicslibrary 圖形庫
groupdirectoriesfirst 先顯示目錄組
hangup 掛斷
harddisk 硬碟
hardwaredetection 硬體檢測
hasbeen 已經
helpfile 幫助文件
helpindex 幫助索引
helpinFORMation 幫助信息
helppath 幫助路徑
helpscreen 幫助屏
helptext 幫助說明
helptopics 幫助主題
helpwindow 幫助窗口
hiddenfile 隱含文件
hiddenfileattribute 隱含文件屬性
hiddenfiles 隱含文件
howto 操作方式
ignorecase 忽略大小寫
incorrectdos 不正確的DOS
incorrectdosversion DOS 版本不正確
indicatesabinaryfile 表示是一個二進制文件
indicatesanasciitextfile 表示是一個ascii文本文件
insertmode 插入方式
請用scandisk,不要用chkdsk
inuse 在使用
invaliddirectory 無效的目錄
kbytes 千位元組
keyboardtype 鍵盤類型
labeldisk 標注磁碟
laptop 膝上
largestexecutableprogram 最大可執行程序
largestmemoryblockavailable 最大內存塊可用
lefthanded 左手習慣
leftmargin 左邊界
linenumber 行號
linenumbers 行號
linespacing 行間距
listbyfilesinsortedorder 按指定順序顯示文件
listfile 列表文件
listof 清單
locatefile 文件定位
lookat 查看
lookup 查找
macroname 宏名字
makedirectory 創建目錄
memoryinfo 內存信息
memorymodel 內存模式
menubar 菜單條
menucommand 菜單命令
menus 菜單
messagewindow 信息窗口
microsoft 微軟
microsoftantivirus 微軟反病毒軟體
microsoftcorporation 微軟公司
modemsetup 數據機安裝
molename 模塊名
monitormode 監控狀態
monochromemonitor 單色監視器
moveto 移至
multi 多
newdata 新建數據
newer 更新的
newfile 新文件
newname 新名稱
newwindow 新建窗口
norton norton
nostack 棧未定義
noteusedeltreecautiously 注意:小心使用deltree
onlinehelp 聯機求助
optionally 可選擇地
or 或
pageframe 頁面
pagelength 頁長
pctools pc工具
postscript 附言
printall 全部列印
printdevice 列印設備
printerport 列印機埠
programfile 程序文件
pulldown 下拉
pulldownmenus 下拉式選單
quickFORMat 快速格式化
quickview 快速查看
readonlyfile 只讀文件
readonlyfileattribute 只讀文件屬性
readonlyfiles 只讀文件
readonlymode 只讀方式
redial 重撥
repeatlastfind 重復上次查找
reportfile 報表文件
resize 調整大小
respectively 分別地
rightmargin 右邊距
rootdirectory 根目錄
runtimeerror 運行時出錯
saveall 全部保存
saveas 另存為
scandisk 磁碟掃描程序
screencolors 屏幕色彩
screenoptions 屏幕任選項
screensaver 屏幕暫存器
screensavers 屏幕保護程序
screensize 屏幕大小
scrollbars 翻卷欄
scrolllockoff 滾屏已鎖定
searchfor 搜索
sectorspertrack 每道扇區數
selectgroup 選定組
selectionbar 選擇欄
setactivepartition 設置活動分區
setupoptions 安裝選項
shortcutkeys 快捷鍵
showclipboard 顯示剪貼板
singleside 單面
sizemove 大小/移動
sorthelp S排序H幫助
sortorder 順序
stackoverflow 棧溢出
standalone 獨立的
startupoptions 啟動選項
statusline 狀態行
stepover 單步
summaryof 摘要信息
swapfile 交換文件
switchto 切換到
sync 同步
systemfile 系統文件
systemfiles 系統文件
systeminfo 系統信息
systeminFORMation 系統信息程序
tableofcontents 目錄
terminalemulation 終端模擬
terminalsettings 終端設置
testfile 測試文件
testfileparameters 測試文件參數
theactivewindow 激活窗口
togglebreakpoint 切換斷點
tomsdos 轉到MS-DOS
topmargin 頁面頂欄
turnoff 關閉
unmark 取消標記
unselect 取消選擇
usesbareFORMat 使用簡潔方式
useslowercase 使用小寫
useswidelistFORMat 使用寬行顯示
usinghelp 使用幫助
verbosely 冗長地
videomode 顯示方式
viewwindow 內容瀏覽
viruses 病毒
vision 景象
vollabel 卷標
volumelabel 卷標
volumeserialnumberis 卷序號是
windowshelp windows 幫助
wordwrap 整字換行
workingdirectory 正在工作的目錄
worm 蠕蟲
writemode 寫方式
writeto 寫到
xmsmemory 擴充內存網路安全方面的專業詞彙
Access Control List(ACL) 訪問控制列表
access token 訪問令牌
account lockout 帳號封鎖
account policies 記帳策略
accounts 帳號
adapter 適配器
adaptive speed leveling 自適應速率等級調整
Address Resolution Protocol(ARP) 地址解析協議
Administrator account 管理員帳號
ARPANET 阿帕網(internet的前身)
algorithm 演算法
alias 別名
allocation 分配、定位
alias 小應用程序
allocation layer 應用層
API 應用程序編程介面
anlpasswd 一種與Passwd+相似的代理密碼檢查器
applications 應用程序
ATM 非同步傳遞模式
attack 攻擊
audio policy 審記策略
auditing 審記、監察
back-end 後端
borde 邊界
borde gateway 邊界網關
breakabie 可破密的
breach 攻破、違反
cipher 密碼
ciphertext 密文
CAlass A domain A類域
CAlass B domain B類域
CAlass C domain C類域
classless addressing 無類地址分配
cleartext 明文
CSNW Netware客戶服務
client 客戶,客戶機
client/server 客戶機/伺服器
code 代碼
COM port COM口(通信埠)
CIX 服務提供者
computer name 計算機名
crack 闖入
cryptanalysis 密碼分析
DLC 數據鏈路控制
decryption 解密
database 資料庫
dafault route 預設路由
dafault share 預設共享
denial of service 拒絕服務
dictionary attack 字典式攻擊
directory 目錄
directory replication 目錄復制
domain 域
domain controller 域名控制器
IP masquerade IP偽裝
IP spoofing IP欺騙
LAN 區域網
LPC 局部過程調用
NNTP 網路新聞傳送協議
PPP 點到點協議
稱為點對點通信協議(Point to Point Protocol),是為適應那些不能在網路線上的使
用者,通過電話線的連接而彼此通信所制定的協議。
PDC 主域控制器
Telnet 遠程登陸
TCP/IP 傳輸控制協議/網際協議
TCP/IP通信協議主要包含了在Internet上網路通信細節的標准,以及一組網路互連的協
議和路徑選擇演算法。TCP是傳輸控制協議,相當於物品裝箱單,保證數據在傳輸過程中不
會丟失。IP是網間協議,相當於收發貨人的地址和姓名,保證數據到達指定的地點。
TFTP 普通文件傳送協議
TFTP是無盤計算機用來傳輸信息的一種簡化的FTP協議。它非常之簡單,所以可固化在硬
盤上,而且支持無認證操作。TFTP是一種非常不安全的協議。
Trojan Horse 特洛伊木馬
URL 統一資源定位器
UDP 用戶數據報協議
VDM 虛擬DOS機
UUCP 是一種基於貓的使用已經很久的文件傳輸協議,有時候還使用它在Internet上傳輸
Usenet新聞和E-mail,尤其是在那些間斷性聯網的站點上。現在很少站提供匿名的UUCP來
存取文件。而它做為一種文件傳輸協議,只有那些沒有入網而使用貓的用戶使用此方法。
WWW 萬維網
WWW(Word Wide Web)是Internet最新的一種信息服務。它是一種基於超文本文件的
互動式瀏覽檢索工具。用戶可用WWW在Internet網上瀏覽、傳遞、編輯超文本格式的文件。
WAN 廣域網
virtual server 虛擬伺服器
Usenet
用戶交流網Usenet是網路新聞伺服器的主要信息來源。Usenet完全是一個民間自發建立
的,使用Internet交換信息但又不完全依賴Internet進行通訊的用戶交流網路。使用Usenet
的自願者共同遵守一些約定的網路使用規則。
USER name 用戶名
USER account 用戶帳號
Web page 網頁
OpenGL 開放圖形語言
ODBC 開放資料庫連接
PCI 外設連接介面
authentication 認證、鑒別
authorization 授權
Back Office Microsoft公司的一種軟體包
Back up 備份
backup browser 後備瀏覽器
BDC 備份域控制器
baseline 基線
BIOS 基本輸入/輸出系統
Binding 聯編、匯集
bit 比特、二進制位
BOOTP 引導協議
BGP 引導網關協議
Bottleneck 瓶徑
bridge 網橋、橋接器
browser 瀏覽器
browsing 瀏覽
channel 信道、通路
CSU/DSU 信道服務單元/數字服務單元
Checksum 校驗和
Cluster 簇、群集
CGI 公共網關介面
crash(崩潰) 系統突然失效,需要從新引導
CD-ROM 只讀型光碟
Component 組件

㈡ 人工智慧一些術語總結

隨著智能時代慢慢的到來,有一些基本概念都不知道真的是要落伍了,作為正在積極學習向上的青年,我想總結一份筆記,此份筆記會記錄眾多AI領域的術語和概念,當然,學一部分記錄一部分,並且可能會夾雜著自己的一些理解,由於能力有限,有問題希望大家多多賜教。當然,由於內容太多,僅僅只是記錄了中英名對照,有的加上了簡單的解釋,沒加的後續大家有需求,我會慢慢完善~~。目錄暫定以首字母的字典序排序。可以當作目錄方便以後查閱~~建議收藏加點贊哈哈哈

------------------------------------------------這里是分割線--------------------------------------------------

A

准確率(accuracy)

分類模型預測准確的比例。

二分類問題中,准確率定義為:accuracy = (true positives +true negatives)/all samples

多分類問題中,准確率定義為:accuracy = correctpredictions/all samples

激活函數(activation function)

一種函數,將前一層所有神經元激活值的加權和 輸入到一個非線性函數中,然後作為下一層神經元的輸入,例如 ReLU 或 Sigmoid

AdaGrad

一種復雜的梯度下降演算法,重新調節每個參數的梯度,高效地給每個參數一個單獨的學習率。

AUC(曲線下面積)

一種考慮到所有可能的分類閾值的評估標准。ROC 曲線下面積代表分類器隨機預測真正類(Ture Positives)要比假正類(False Positives)概率大的確信度。

Adversarial example(對抗樣本)

Adversarial Networks(對抗網路)

Artificial General Intelligence/AGI(通用人工智慧)

Attention mechanism(注意力機制)

Autoencoder(自編碼器)

Automatic summarization(自動摘要)

Average gradient(平均梯度)

Average-Pooling(平均池化)

B

反向傳播(Backpropagation/BP)

神經網路中完成梯度下降的重要演算法。首先,在前向傳播的過程中計算每個節點的輸出值。然後,在反向傳播的過程中計算與每個參數對應的誤差的偏導數。

基線(Baseline)

被用為對比模型表現參考的簡單模型。

批量(Batch)

模型訓練中一個迭代(指一次梯度更新)使用的樣本集。

批量大小(Batch size)

一個批量中樣本的數量。例如,SGD 的批量大小為 1,而 mini-batch 的批量大小通常在 10-1000 之間。

偏置(Bias)

與原點的截距或偏移量。

二元分類器(Binary classification)

一類分類任務,輸出兩個互斥類別中的一個。比如垃圾郵件檢測。

詞袋(Bag of words/Bow)

基學習器(Base learner)

基學習演算法(Base learning algorithm)

貝葉斯網路(Bayesian network)

基準(Bechmark)

信念網路(Belief network)

二項分布(Binomial distribution)

玻爾茲曼機(Boltzmann machine)

自助采樣法/可重復采樣/有放回採樣(Bootstrap sampling)

廣播(Broadcasting)

C

類別(Class)

所有同類屬性的目標值作為一個標簽。

分類模型(classification)

機器學習模型的一種,將數據分離為兩個或多個離散類別。

收斂(convergence)

訓練過程達到的某種狀態,其中訓練損失和驗證損失在經過了確定的迭代次數後,在每一次迭代中,改變很小或完全不變。

凸函數(concex function)

一種形狀大致呈字母 U 形或碗形的函數。然而,在退化情形中,凸函數的形狀就像一條線。

成本(cost)

loss 的同義詞。深度學習模型一般都會定義自己的loss函數。

交叉熵(cross-entropy)

多類別分類問題中對 Log 損失函數的推廣。交叉熵量化兩個概率分布之間的區別。

條件熵(Conditional entropy)

條件隨機場(Conditional random field/CRF)

置信度(Confidence)

共軛方向(Conjugate directions)

共軛分布(Conjugate distribution)

共軛梯度(Conjugate gradient)

卷積神經網路(Convolutional neural network/CNN)

餘弦相似度(Cosine similarity)

成本函數(Cost Function)

曲線擬合(Curve-fitting)

D

數據集(data set)

樣本的集合

深度模型(deep model)

一種包含多個隱藏層的神經網路。深度模型依賴於其可訓練的非線性性質。和寬度模型對照(widemodel)。

dropout 正則化(dropoutregularization)

訓練神經網路時一種有用的正則化方法。dropout 正則化的過程是在單次梯度計算中刪去一層網路中隨機選取的固定數量的單元。刪去的單元越多,正則化越強。

數據挖掘(Data mining)

決策樹/判定樹(Decisiontree)

深度神經網路(Deep neural network/DNN)

狄利克雷分布(Dirichlet distribution)

判別模型(Discriminative model)

下采樣(Down sampling)

動態規劃(Dynamic programming)

E

早期停止法(early stopping)

一種正則化方法,在訓練損失完成下降之前停止模型訓練過程。當驗證數據集(validationdata set)的損失開始上升的時候,即泛化表現變差的時候,就該使用早期停止法了。

嵌入(embeddings)

一類表示為連續值特徵的明確的特徵。嵌入通常指將高維向量轉換到低維空間中。

經驗風險最小化(empirical risk minimization,ERM)

選擇能使得訓練數據的損失函數最小化的模型的過程。和結構風險最小化(structualrisk minimization)對照。

集成(ensemble)

多個模型預測的綜合考慮。可以通過以下一種或幾種方法創建一個集成方法:

設置不同的初始化;

設置不同的超參量;

設置不同的總體結構。

深度和廣度模型是一種集成。

樣本(example)

一個數據集的一行內容。一個樣本包含了一個或多個特徵,也可能是一個標簽。參見標注樣本(labeledexample)和無標注樣本(unlabeled example)。

F

假負類(false negative,FN)

被模型錯誤的預測為負類的樣本。例如,模型推斷一封郵件為非垃圾郵件(負類),但實際上這封郵件是垃圾郵件。

假正類(false positive,FP)

被模型錯誤的預測為正類的樣本。例如,模型推斷一封郵件為垃圾郵件(正類),但實際上這封郵件是非垃圾郵件。

假正類率(false positive rate,FP rate)

ROC 曲線(ROC curve)中的 x 軸。FP 率的定義是:假正率=假正類數/(假正類數+真負類數)

特徵工程(feature engineering)

在訓練模型的時候,挖掘對模型效果有利的特徵。

前饋神經網路(Feedforward Neural Networks/FNN )

G

泛化(generalization)

指模型利用新的沒見過的數據而不是用於訓練的數據作出正確的預測的能力。

廣義線性模型(generalized linear model)

最小二乘回歸模型的推廣/泛化,基於高斯雜訊,相對於其它類型的模型(基於其它類型的雜訊,比如泊松雜訊,或類別雜訊)。廣義線性模型的例子包括:

logistic 回歸

多分類回歸

最小二乘回歸

梯度(gradient)

所有變數的偏導數的向量。在機器學習中,梯度是模型函數的偏導數向量。梯度指向最陡峭的上升路線。

梯度截斷(gradient clipping)

在應用梯度之前先修飾數值,梯度截斷有助於確保數值穩定性,防止梯度爆炸出現。

梯度下降(gradient descent)

通過計算模型的相關參量和損失函數的梯度最小化損失函數,值取決於訓練數據。梯度下降迭代地調整參量,逐漸靠近權重和偏置的最佳組合,從而最小化損失函數。

圖(graph)

在 TensorFlow 中的一種計算過程展示。圖中的節點表示操作。節點的連線是有指向性的,表示傳遞一個操作(一個張量)的結果(作為一個操作數)給另一個操作。使用 TensorBoard 能可視化計算圖。

高斯核函數(Gaussian kernel function)

高斯混合模型(Gaussian Mixture Model)

高斯過程(Gaussian Process)

泛化誤差(Generalization error)

生成模型(Generative Model)

遺傳演算法(Genetic Algorithm/GA)

吉布斯采樣(Gibbs sampling)

基尼指數(Gini index)

梯度下降(Gradient Descent)

H

啟發式(heuristic)

一個問題的實際的和非最優的解,但能從學習經驗中獲得足夠多的進步。

隱藏層(hidden layer)

神經網路中位於輸入層(即特徵)和輸出層(即預測)之間的合成層。一個神經網路包含一個或多個隱藏層。

超參數(hyperparameter)

連續訓練模型的過程中可以擰動的「旋鈕」。例如,相對於模型自動更新的參數,學習率(learningrate)是一個超參數。和參量對照。

硬間隔(Hard margin)

隱馬爾可夫模型(Hidden Markov Model/HMM)

層次聚類(Hierarchical clustering)

假設檢驗(Hypothesis test)

I

獨立同分布(independently and identicallydistributed,i.i.d)

從不會改變的分布中獲取的數據,且獲取的每個值不依賴於之前獲取的值。i.i.d. 是機器學習的理想情況——一種有用但在現實世界中幾乎找不到的數學構建。

推斷(inference)

在機器學習中,通常指將訓練模型應用到無標注樣本來進行預測的過程。在統計學中,推斷指在觀察到的數據的基礎上擬合分布參數的過程。

輸入層(input layer)

神經網路的第一層(接收輸入數據)。

評分者間一致性(inter-rater agreement)

用來衡量一項任務中人類評分者意見一致的指標。如果意見不一致,則任務說明可能需要改進。有時也叫標注者間信度(inter-annotator agreement)或評分者間信度(inter-raterreliability)。

增量學習(Incremental learning)

獨立成分分析(Independent Component Analysis/ICA)

獨立子空間分析(Independent subspace analysis)

信息熵(Information entropy)

信息增益(Information gain)

J

JS 散度(Jensen-ShannonDivergence/JSD)

K

Kernel 支持向量機(KernelSupport Vector Machines/KSVM)

一種分類演算法,旨在通過將輸入數據向量映射到更高維度的空間使正類和負類之間的邊際最大化。例如,考慮一個輸入數據集包含一百個特徵的分類問題。為了使正類和負類之間的間隔最大化,KSVM 從內部將特徵映射到百萬維度的空間。KSVM 使用的損失函數叫作 hinge 損失。

核方法(Kernel method)

核技巧(Kernel trick)

k 折交叉驗證/k 倍交叉驗證(K-fold cross validation)

K - 均值聚類(K-MeansClustering)

K近鄰演算法(K-Nearest NeighboursAlgorithm/KNN)

知識圖譜(Knowledge graph)

知識庫(Knowledge base)

知識表徵(Knowledge Representation)

L

L1 損失函數(L1 loss)

損失函數基於模型對標簽的預測值和真實值的差的絕對值而定義。L1 損失函數比起 L2 損失函數對異常值的敏感度更小。

L1 正則化(L1regularization)

一種正則化,按照權重絕對值總和的比例進行懲罰。在依賴稀疏特徵的模型中,L1 正則化幫助促使(幾乎)不相關的特徵的權重趨近於 0,從而從模型中移除這些特徵。

L2 損失(L2 loss)

參見平方損失。

L2 正則化(L2regularization)

一種正則化,按照權重平方的總和的比例進行懲罰。L2 正則化幫助促使異常值權重更接近 0 而不趨近於 0。(可與 L1 正則化對照閱讀。)L2 正則化通常改善線性模型的泛化效果。

標簽(label)

在監督式學習中,樣本的「答案」或「結果」。標注數據集中的每個樣本包含一或多個特徵和一個標簽。在垃圾郵件檢測數據集中,特徵可能包括主題、發出者何郵件本身,而標簽可能是「垃圾郵件」或「非垃圾郵件」。

標注樣本(labeled example)

包含特徵和標簽的樣本。在監督式訓練中,模型從標注樣本中進行學習。

學習率(learning rate)

通過梯度下降訓練模型時使用的一個標量。每次迭代中,梯度下降演算法使學習率乘以梯度,乘積叫作 gradient step。學習率是一個重要的超參數。

最小二乘回歸(least squares regression)

通過 L2 損失最小化進行訓練的線性回歸模型。

線性回歸(linear regression)

對輸入特徵的線性連接輸出連續值的一種回歸模型。

logistic 回歸(logisticregression)

將 sigmoid 函數應用於線性預測,在分類問題中為每個可能的離散標簽值生成概率的模型。盡管 logistic 回歸常用於二元分類問題,但它也用於多類別分類問題(這種情況下,logistic回歸叫作「多類別 logistic 回歸」或「多項式 回歸」。

對數損失函數(Log Loss)

二元 logistic 回歸模型中使用的損失函數。

損失(Loss)

度量模型預測與標簽距離的指標,它是度量一個模型有多糟糕的指標。為了確定損失值,模型必須定義損失函數。例如,線性回歸模型通常使用均方差作為損失函數,而 logistic 回歸模型使用對數損失函數。

隱狄利克雷分布(Latent Dirichlet Allocation/LDA)

潛在語義分析(Latent semantic analysis)

線性判別(Linear Discriminant Analysis/LDA)

長短期記憶(Long-Short Term Memory/LSTM)

M

機器學習(machine learning)

利用輸入數據構建(訓練)預測模型的項目或系統。該系統使用學習的模型對與訓練數據相同分布的新數據進行有用的預測。機器學習還指與這些項目或系統相關的研究領域。

均方誤差(Mean Squared Error/MSE)

每個樣本的平均平方損失。MSE 可以通過平方損失除以樣本數量來計算。

小批量(mini-batch)

在訓練或推斷的一個迭代中運行的整批樣本的一個小的隨機選擇的子集。小批量的大小通常在10 到 1000 之間。在小批量數據上計算損失比在全部訓練數據上計算損失要高效的多。

機器翻譯(Machine translation/MT)

馬爾可夫鏈蒙特卡羅方法(Markov Chain Monte Carlo/MCMC)

馬爾可夫隨機場(Markov Random Field)

多文檔摘要(Multi-document summarization)

多層感知器(Multilayer Perceptron/MLP)

多層前饋神經網路(Multi-layer feedforward neuralnetworks)

N

NaN trap

訓練過程中,如果模型中的一個數字變成了 NaN,則模型中的很多或所有其他數字最終都變成 NaN。NaN 是「Not aNumber」的縮寫。

神經網路(neural network)

該模型從大腦中獲取靈感,由多個層組成(其中至少有一個是隱藏層),每個層包含簡單的連接單元或神經元,其後是非線性。

神經元(neuron)

神經網路中的節點,通常輸入多個值,生成一個輸出值。神經元通過將激活函數(非線性轉換)應用到輸入值的加權和來計算輸出值。

歸一化(normalization)

將值的實際區間轉化為標准區間的過程,標准區間通常是-1 到+1 或 0 到 1。例如,假設某個特徵的自然區間是 800 到 6000。通過減法和分割,你可以把那些值標准化到區間-1 到+1。參見縮放。

Numpy

Python 中提供高效數組運算的開源數學庫。pandas 基於 numpy 構建。

Naive bayes(樸素貝葉斯)

Naive Bayes Classifier(樸素貝葉斯分類器)

Named entity recognition(命名實體識別)

Natural language generation/NLG(自然語言生成)

Natural language processing(自然語言處理)

Norm(范數)

O

目標(objective)

演算法嘗試優化的目標函數。

one-hot 編碼(獨熱編碼)(one-hotencoding)

一個稀疏向量,其中:一個元素設置為 1,所有其他的元素設置為 0。。

一對多(one-vs.-all)

給出一個有 N 個可能解決方案的分類問題,一對多解決方案包括 N 個獨立的二元分類器——每個可能的結果都有一個二元分類器。例如,一個模型將樣本分為動物、蔬菜或礦物,則一對多的解決方案將提供以下三種獨立的二元分類器:

動物和非動物

蔬菜和非蔬菜

礦物和非礦物

過擬合(overfitting)

創建的模型與訓練數據非常匹配,以至於模型無法對新數據進行正確的預測

Oversampling(過采樣)

P

pandas

一種基於列的數據分析 API。很多機器學習框架,包括 TensorFlow,支持 pandas 數據結構作為輸入。參見 pandas 文檔。

參數(parameter)

機器學習系統自行訓練的模型的變數。例如,權重是參數,它的值是機器學習系統通過連續的訓練迭代逐漸學習到的。注意與超參數的區別。

性能(performance)

在軟體工程中的傳統含義:軟體運行速度有多快/高效?

在機器學習中的含義:模型的准確率如何?即,模型的預測結果有多好?

困惑度(perplexity)

對模型完成任務的程度的一種度量指標。例如,假設你的任務是閱讀用戶在智能手機上輸入的單詞的頭幾個字母,並提供可能的完整單詞列表。該任務的困惑度(perplexity,P)是為了列出包含用戶實際想輸入單詞的列表你需要進行的猜測數量。

流程(pipeline)

機器學習演算法的基礎架構。管道包括收集數據、將數據放入訓練數據文件中、訓練一或多個模型,以及最終輸出模型。

Principal component analysis/PCA(主成分分析)

Precision(查准率/准確率)

Prior knowledge(先驗知識)

Q

Quasi Newton method(擬牛頓法)

R

召回率(recall)

回歸模型(regression model)

一種輸出持續值(通常是浮點數)的模型。而分類模型輸出的是離散值。

正則化(regularization)

對模型復雜度的懲罰。正則化幫助防止過擬合。正則化包括不同種類:

L1 正則化

L2 正則化

dropout 正則化

early stopping(這不是正式的正則化方法,但可以高效限制過擬合)

正則化率(regularization rate)

一種標量級,用 lambda 來表示,指正則函數的相對重要性。從下面這個簡化的損失公式可以看出正則化率的作用:

minimize(loss function + λ(regularization function))

提高正則化率能夠降低過擬合,但可能會使模型准確率降低。

表徵(represention)

將數據映射到有用特徵的過程。

受試者工作特徵曲線(receiver operatingcharacteristic/ROC Curve)

反映在不同的分類閾值上,真正類率和假正類率的比值的曲線。參見 AUC。

Recurrent Neural Network(循環神經網路)

Recursive neural network(遞歸神經網路)

Reinforcement learning/RL(強化學習)

Re-sampling(重采樣法)

Representation learning(表徵學習)

Random Forest Algorithm(隨機森林演算法)

S

縮放(scaling)

特徵工程中常用的操作,用於控制特徵值區間,使之與數據集中其他特徵的區間匹配。例如,假設你想使數據集中所有的浮點特徵的區間為 0 到 1。給定一個特徵區間是 0 到 500,那麼你可以通過將每個值除以 500,縮放特徵值區間。還可參見正則化。

scikit-learn

一種流行的開源機器學習平台。網址:www.scikit-learn.org。

序列模型(sequence model)

輸入具有序列依賴性的模型。例如,根據之前觀看過的視頻序列對下一個視頻進行預測。

Sigmoid 函數(sigmoid function)

softmax

為多類別分類模型中每個可能的類提供概率的函數。概率加起來的總和是 1.0。例如,softmax 可能檢測到某個圖像是一隻狗的概率為 0.9,是一隻貓的概率為 0.08,是一匹馬的概率為 0.02。(也叫作 full softmax)。

結構風險最小化(structural risk minimization/SRM)

這種演算法平衡兩個目標:

構建預測性最強的模型(如最低損失)。

使模型盡量保持簡單(如強正則化)。

比如,在訓練集上的損失最小化 + 正則化的模型函數就是結構風險最小化演算法。更多信息,參見 http://www.svms.org/srm/。可與經驗風險最小化對照閱讀。

監督式機器學習(supervised machine learning)

利用輸入數據及其對應標簽來訓練模型。監督式機器學習類似學生通過研究問題和對應答案進行學習。在掌握問題和答案之間的映射之後,學生就可以提供同樣主題的新問題的答案了。可與非監督機器學習對照閱讀。

Similarity measure(相似度度量)

Singular Value Decomposition(奇異值分解)

Soft margin(軟間隔)

Soft margin maximization(軟間隔最大化)

Support Vector Machine/SVM(支持向量機)

T

張量(tensor)

TensorFlow 項目的主要數據結構。張量是 N 維數據結構(N 的值很大),經常是標量、向量或矩陣。張量可以包括整數、浮點或字元串值。

Transfer learning(遷移學習)

U

無標簽樣本(unlabeled example)

包含特徵但沒有標簽的樣本。無標簽樣本是推斷的輸入。在半監督學習和無監督學習的訓練過程中,通常使用無標簽樣本。

無監督機器學習(unsupervised machine learning)

訓練一個模型尋找數據集(通常是無標簽數據集)中的模式。無監督機器學習最常用於將數據分成幾組類似的樣本。無監督機器學習的另一個例子是主成分分析(principal componentanalysis,PCA)

W

Word embedding(詞嵌入)

Word sense disambiguation(詞義消歧)

㈢ 求一個質量好的視頻轉換器可以轉換成H.264(baseline)的MP4視頻。

什麼奇葩手機?divx才是兼容性最好,h264本來就不是長於此。

㈣ MPNN:消息傳遞神經網路

近年來,隨著量子化學計算和分子動力學模擬等實驗的展開產生了巨大的數據量,大多數經典的機器學習技術都無法有效利用目前的數據。而原子系統的對稱性表明,能夠應用於網路圖中的神經網路也能夠應用於分子模型。所以,找到一個更加強大的模型來解決目前的化學任務可以等價於找到一個適用於網路圖的模型。

本文的目標是證明:能夠應用於化學預測任務的模型可以直接從分子圖中學習到分子的特徵,並且不受到圖同構的影響。本文提出的MPNN是一種用於圖上監督學習的框架,能夠概括之前一些文獻提出的一些方法,並且能夠按照這個框架提出一些新的架構。本文提出的新的MPNN變種基於實際的應用場景:預測有機小分子的量子力學性質。並且,作者希望以後提出的新的MPNN變種能夠從實際的應用出發,從實際應用中獲得啟發。

本文以QM9作為benchmark數據集,這個數據集由130k個分子組成,每個分子有13個性質,這些性質是通過一種計算昂貴的量子力學模擬方法(DFT)近似生成的,相當於13個回歸任務。這些任務似乎代表了許多重要的化學預測問題,並且目前對許多現有方法來說是困難的。

本文提出的模型的性能度量採用兩種形式:
①DFT近似的平均估計誤差;
②化學界已經確立的目標誤差,稱為「化學精度」。

本文介紹了能夠應用MPNN框架的8篇文獻,為了簡便起見,以處理無向圖 為例,無向圖 包含節點特徵 和邊的特徵 ,將這種形式推廣到有向重圖是不重要的。MPNN前向傳播的過程包含兩個階段,即消息傳遞階段(message passing phase)和讀出階段(readout phase)。消息傳遞階段運行 個時間步並且依賴消息函數 以及節點更新函數 。在消息傳遞階段,每個節點的隱狀態 都會根據消息 進行更新,具體過程是:

代表節點 的鄰居節點集合。讀出階段使用某種讀出函數 來為整個圖計算一個特徵向量:

都是用來學習的可微函數。 作用於節點狀態集合,並且必須對節點狀態的排列保持不變,以使MPNN對圖同構保持不變。注意MPNN也可以學習邊的特徵,這可以通過為每條邊引入隱狀態 並應用前面的兩個過程來實現。接下來,我們通過指定所使用的消息函數 、頂點更新函數 和讀出函數 來定義以前文獻中的模型。

本文提出的模型採用的消息函數是:

代表拼接。節點更新函數是:

是節點 的度, 對應於時間步 以及節點度 的學習矩陣。讀出函數將之前所有隱狀態 進行連接:

是一個神經網路, 是時間步 的一個學習矩陣。

這樣的消息傳遞的方法可能有問題,因為最終得到的消息向量為 ,這是邊和節點狀態向量的加和,缺乏邊和節點狀態向量的交互。

消息函數為:

是特定於邊的標簽的學習矩陣(這個模型假設邊有離散的標簽)。更新函數如下:

GRU就是門控循環單元,一種循環神經網路,對於每個時間步進行權重共享,也就是說每個時間步共用同一個更新函數。最後,讀出函數:

代表神經網路, 代表哈達瑪積。

這個模型考慮了兩種情況,一種是每個節點都有自己的目標,另一種是有一個graph level的目標。它還考慮了在每個時間步驟中存在node level影響的情況,在這種情況下,更新函數將 連接作為輸入,其中 是一個外部向量,表示頂點 受到的外部影響。消息函數 是一個神經網路,使用拼接向量 作為輸入,節點更新函數 也是一個神經網路,使用 作為輸入。最終讀出函數得到一個graph level的輸出: ,這里 是一個神經網路。注意,這個模型只定義了 的情況。

這個模型與之前的MPNNs稍微有一些不同,是因為它引入了邊的表示 ,並且會在消息傳遞階段進行更新。消息函數為:

節點更新函數為:

同樣的 代表拼接, 代表ReLU激活函數, 是學習權重矩陣。邊狀態更新的方式是:

都是學習矩陣。

消息函數為:

是矩陣, 是偏置向量。更新函數為:

讀出函數使用單個隱層神經網路獨立地通過每個節點,並對輸出進行求和:

8篇文獻中有3篇屬於這一類。其中兩篇採用消息函數:

矩陣 通過拉普拉斯矩陣的特徵向量和模型的學習參數來參數化。更新函數為:

代表非線性函數,比如ReLU激活函數。

另一篇文獻採用消息函數:

這里 。節點更新函數為:

本文以前述GG-NN作為baseline進行改進,提出一種新的MPNN變種。下文中以 代表節點特徵的維度,以 代表圖的節點的數量。這一變種適用於有向圖,這意味著入邊和出邊有分別的信息通道,那麼信息 由 和 拼接而成,當我們將模型應用無向圖時,就把無向圖的邊看做兩條邊,包含一條入邊,一條出邊,有相同的標簽,這樣處理的方式意味著信息通道的大小是 而不是 。

模型的輸入是每個節點的特徵向量 以及鄰接矩陣 ,鄰接矩陣 具有向量分量,表示分子中的不同化學鍵以及兩個原子之間的成對空間距離。初始狀態 是原子輸入特徵集合 ,並且需要padding到維度 。在實驗中的每個時間步 都要進行權重共享,並且更新函數採用GRU。

GG-NN原本採用的消息函數,採用矩陣相乘的方式(注意原來的GG-NN的邊有離散的標簽,而現在我們假設的邊有一個特徵向量 ):

是特定於邊的標簽的學習矩陣。為了兼容邊特徵,本文提出了新的消息函數:

是一個神經網路,將邊的特徵向量 映射到一個 的矩陣。上述兩種消息函數的特點是消息只依賴於 和 而不依賴於 ,如果消息同時依賴目標節點與源節點,那麼應該是更加高效的,可以嘗試以下這種消息函數:

這里 是一個神經網路。

對於有向圖,一共有兩個消息函數 和 ,對於邊 應用哪個消息函數取決於邊的方向。

本文探索了兩種方式來改變模型中信息的傳遞。第一種是為未連接的節點對添加一個單獨的「虛擬」邊類型。這一處理可以在預處理時實現,效果是可以使得在傳播過程中讓信息傳播更遠的距離。

另一種方式是添加一個「master」節點,讓它通過一種特殊類型的邊與所有節點連接。「master」節點充當全局暫存空間,每個節點在消息傳遞的每個步驟中都對其進行讀寫操作。另外「master」節點擁有單獨的節點維度 ,以及內部更新函數(實驗中是GRU)的單獨權重。這同樣可以使得在傳播過程中讓信息傳播更遠的距離。這樣可以允許模型有更大的容量,同時也不會過多的損失效率,其復雜度為 。

讀出函數採用set2set模型,這個模型使用 作為輸入,然後再經過 步計算後生成一個graph level的embedding ,其中過程與 內節點順序無關,最終將 輸入到一個神經網路中來獲得最終輸出。具體參考文獻: Sequence to sequence for sets。

由於消息傳遞階段的復雜度為 ,當 和 增大時,計算上就會是昂貴的。處理的方法是將 拆分成 個不同的 維的embedding ,並且在每個 上獨立運行傳播過程得到 ,然後進行混合:

代表神經網路, 代表拼接, 在所有節點上共享。這樣的混合過程保持了節點排列的不變性,同時允許圖的不同副本在傳播階段相互通信。這樣的設計提升了計算效率,比如在使用矩陣相乘的消息函數時一個副本的復雜度為 ,當有 個副本時一共為 。

一個分子有很多特徵,如下圖所示:

邊的特徵包括化學鍵與距離,因此有以下三種表示方式:
①化學圖(Chemical Graph):在不考慮距離的情況下,鄰接矩陣的值是離散的鍵類型:單鍵,雙鍵,三鍵或芳香鍵;
②距離分桶(Distance bins):GG-NN基於矩陣乘法的消息函數的前提假設是「邊信息是離散的」,因此作者將鍵的距離分為 10 個 bin,比如說 中均勻劃分 8 個 bin, 為 1 個 bin, 為 1 個 bin;
③原始距離特徵(Raw distance feature):也可以同時考慮距離和化學鍵的特徵,這時每條邊都有自己的特徵向量,此時鄰接矩陣的每個實例都是一個 5 維向量,第一維是距離,其餘4維是一個獨熱向量,代表4種不同的化學鍵。

實驗中對比了本文提出的方法與現有的方法:

以下為不考慮空間信息的結果:

以下為一些消融實驗:

具體實驗設置參照原文。

㈤ 關於e day計算方法的請教

我測試的系統是4.5b,也沒有mir4這個t-code呀?對於e date,簡單的演算法是baseline data + paymentterm 中定義的天數。至於baseline date,可以指定默認的,比如用document date, posting date 等等,一般用document date吧,因為它是發票日期。payment term中的baseline date calculation中的fix date是固定日期付款,additional month表示下幾個月的某一天。我的解釋比較簡單,不同欄位是否設置都會影響

閱讀全文

與baseline標簽傳播演算法相關的資料

熱點內容
自己購買雲主伺服器推薦 瀏覽:421
個人所得稅java 瀏覽:761
多餘的伺服器滑道還有什麼用 瀏覽:191
pdf劈開合並 瀏覽:28
不能修改的pdf 瀏覽:752
同城公眾源碼 瀏覽:489
一個伺服器2個埠怎麼映射 瀏覽:297
java字元串ascii碼 瀏覽:79
台灣雲伺服器怎麼租伺服器 瀏覽:475
旅遊手機網站源碼 瀏覽:332
android關聯表 瀏覽:945
安卓導航無聲音怎麼維修 瀏覽:332
app怎麼裝視頻 瀏覽:430
安卓系統下的軟體怎麼移到桌面 瀏覽:96
windows拷貝到linux 瀏覽:772
mdr軟體解壓和別人不一樣 瀏覽:904
單片機串列通信有什麼好處 瀏覽:340
游戲開發程序員書籍 瀏覽:860
pdf中圖片修改 瀏覽:288
匯編編譯後 瀏覽:491