⑴ 搜索引擎的排序演算法都有哪些是怎麼實現的
2.1基於詞頻統計——詞位置加權的搜索引擎
利用關鍵詞在文檔中出現的頻率和位置排序是搜索引擎最早期排序的主要思想,其技術發展也最為成熟,是第一階段搜索引擎的主要排序技術,應用非常廣泛,至今仍是許多搜索引擎的核心排序技術。其基本原理是:關鍵詞在文檔中詞頻越高,出現的位置越重要,則被認為和檢索詞的相關性越好。
1)詞頻統計
文檔的詞頻是指查詢關鍵詞在文檔中出現的頻率。查詢關鍵詞詞頻在文檔中出現的頻率越高,其相關度越大。但當關鍵詞為常用詞時,使其對相關性判斷的意義非常小。TF/IDF很好的解決了這個問題。TF/IDF演算法被認為是信息檢索中最重要的發明。TF(Term Frequency):單文本詞彙頻率,用關鍵詞的次數除以網頁的總字數,其商稱為「關鍵詞的頻率」。IDF(Inverse Document Frequency):逆文本頻率指數,其原理是,一個關鍵詞在N個網頁中出現過,那麼N越大,此關鍵詞的權重越小,反之亦然。當關鍵詞為常用詞時,其權重極小,從而解決詞頻統計的缺陷。
2)詞位置加權
在搜索引擎中,主要針對網頁進行詞位置加權。所以,頁面版式信息的分析至關重要。通過對檢索關鍵詞在Web頁面中不同位置和版式,給予不同的權值,從而根據權值來確定所搜索結果與檢索關鍵詞相關程度。可以考慮的版式信息有:是否是標題,是否為關鍵詞,是否是正文,字體大小,是否加粗等等。同時,錨文本的信息也是非常重要的,它一般能精確的描述所指向的頁面的內容。
2.2基於鏈接分析排序的第二代搜索引擎
鏈接分析排序的思想起源於文獻引文索引機制,即論文被引用的次數越多或被越權威的論文引用,其論文就越有價值。鏈接分析排序的思路與其相似,網頁被別的網頁引用的次數越多或被越權威的網頁引用,其價值就越大。被別的網頁引用的次數越多,說明該網頁越受歡迎,被越權威的網頁引用,說明該網頁質量越高。鏈接分析排序演算法大體可以分為以下幾類:基於隨機漫遊模型的,比如PageRank和Repution演算法;基於概率模型的,如SALSA、PHITS;基於Hub和Authority相互加強模型的,如HITS及其變種;基於貝葉斯模型的,如貝葉斯演算法及其簡化版本。所有的演算法在實際應用中都結合傳統的內容分析技術進行了優化。本文主要介紹以下幾種經典排序演算法:
1)PageRank演算法
PageRank演算法由斯坦福大學博士研究生Sergey Brin和Lwraence Page等提出的。PageRank演算法是Google搜索引擎的核心排序演算法,是Google成為全球最成功的搜索引擎的重要因素之一,同時開啟了鏈接分析研究的熱潮。
PageRank演算法的基本思想是:頁面的重要程度用PageRank值來衡量,PageRank值主要體現在兩個方面:引用該頁面的頁面個數和引用該頁面的頁面重要程度。一個頁面P(A)被另一個頁面P(B)引用,可看成P(B)推薦P(A),P(B)將其重要程度(PageRank值)平均的分配P(B)所引用的所有頁面,所以越多頁面引用P(A),則越多的頁面分配PageRank值給P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的頁面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其計算公式為:
PR(A):頁面A的PageRank值;
d:阻尼系數,由於某些頁面沒有入鏈接或者出鏈接,無法計算PageRank值,為避免這個問題(即LinkSink問題),而提出的。阻尼系數常指定為0.85。
R(Pi):頁面Pi的PageRank值;
C(Pi):頁面鏈出的鏈接數量;
PageRank值的計算初始值相同,為了不忽視被重要網頁鏈接的網頁也是重要的這一重要因素,需要反復迭代運算,據張映海撰文的計算結果,需要進行10次以上的迭代後鏈接評價值趨於穩定,如此經過多次迭代,系統的PR值達到收斂。
PageRank是一個與查詢無關的靜態演算法,因此所有網頁的PageRank值均可以通過離線計算獲得。這樣,減少了用戶檢索時需要的排序時間,極大地降低了查詢響應時間。但是PageRank存在兩個缺陷:首先PageRank演算法嚴重歧視新加入的網頁,因為新的網頁的出鏈接和入鏈接通常都很少,PageRank值非常低。另外PageRank演算法僅僅依靠外部鏈接數量和重要度來進行排名,而忽略了頁面的主題相關性,以至於一些主題不相關的網頁(如廣告頁面)獲得較大的PageRank值,從而影響了搜索結果的准確性。為此,各種主題相關演算法紛紛涌現,其中以以下幾種演算法最為典型。
2)Topic-Sensitive PageRank演算法
由於最初PageRank演算法中是沒有考慮主題相關因素的,斯坦福大學計算機科學系Taher Haveli-wala提出了一種主題敏感(Topic-Sensitive)的PageRank演算法解決了「主題漂流」問題。該演算法考慮到有些頁面在某些領域被認為是重要的,但並不表示它在其它領域也是重要的。
網頁A鏈接網頁B,可以看作網頁A對網頁B的評分,如果網頁A與網頁B屬於相同主題,則可認為A對B的評分更可靠。因為A與B可形象的看作是同行,同行對同行的了解往往比不是同行的要多,所以同行的評分往往比不是同行的評分可靠。遺憾的是TSPR並沒有利用主題的相關性來提高鏈接得分的准確性。
3)HillTop演算法
HillTop是Google的一個工程師Bharat在2001年獲得的專利。HillTop是一種查詢相關性鏈接分析演算法,克服了的PageRank的查詢無關性的缺點。HillTop演算法認為具有相同主題的相關文檔鏈接對於搜索者會有更大的價值。在Hilltop中僅考慮那些用於引導人們瀏覽資源的專家頁面(Export Sources)。Hilltop在收到一個查詢請求時,首先根據查詢的主題計算出一列相關性最強的專家頁面,然後根據指向目標頁面的非從屬專家頁面的數量和相關性來對目標頁面進行排序。
HillTop演算法確定網頁與搜索關鍵詞的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權威頁面的方法,避免了許多想通過增加許多無效鏈接來提高網頁PageRank值的作弊方法。HillTop演算法通過不同等級的評分確保了評價結果對關鍵詞的相關性,通過不同位置的評分確保了主題(行業)的相關性,通過可區分短語數防止了關鍵詞的堆砌。
但是,專家頁面的搜索和確定對演算法起關鍵作用,專家頁面的質量對演算法的准確性起著決定性作用,也就忽略了大多數非專家頁面的影響。專家頁面在互聯網中占的比例非常低(1.79%),無法代表互聯網全部網頁,所以HillTop存在一定的局限性。同時,不同於PageRank演算法,HillTop演算法的運算是在線運行的,對系統的響應時間產生極大的壓力。
4)HITS
HITS(Hyperlink Inced Topic Search)演算法是Kleinberg在1998年提出的,是基於超鏈接分析排序演算法中另一個最著名的演算法之一。該演算法按照超鏈接的方向,將網頁分成兩種類型的頁面:Authority頁面和Hub頁面。Authority頁面又稱權威頁面,是指與某個查詢關鍵詞和組合最相近的頁面,Hub頁面又稱目錄頁,該頁面的內容主要是大量指向Authority頁面的鏈接,它的主要功能就是把這些Authority頁面聯合在一起。對於Authority頁面P,當指向P的Hub頁面越多,質量越高,P的Authority值就越大;而對於Hub頁面H,當H指向的Authority的頁面越多,Authority頁面質量越高,H的Hub值就越大。對整個Web集合而言,Authority和Hub是相互依賴、相互促進,相互加強的關系。Authority和Hub之間相互優化的關系,即為HITS演算法的基礎。
HITS基本思想是:演算法根據一個網頁的入度(指向此網頁的超鏈接)和出度(從此網頁指向別的網頁)來衡量網頁的重要性。在限定范圍之後根據網頁的出度和入度建立一個矩陣,通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量Authority和Hub值進行更新直至收斂。
實驗數據表明,HITS的排名准確性要比PageRank高,HITS演算法的設計符合網路用戶評價網路資源質量的普遍標准,因此能夠為用戶更好的利用網路信息檢索工具訪問互聯網資源帶來便利。
但卻存在以下缺陷:首先,HITS演算法只計算主特徵向量,處理不好主題漂移問題;其次,進行窄主題查詢時,可能產生主題泛化問題;第三,HITS演算法可以說一種實驗性質的嘗試。它必須在網路信息檢索系統進行面向內容的檢索操作之後,基於內容檢索的結果頁面及其直接相連的頁面之間的鏈接關系進行計算。盡管有人嘗試通過演算法改進和專門設立鏈接結構計算伺服器(Connectivity Server)等操作,可以實現一定程度的在線實時計算,但其計算代價仍然是不可接受的。
2.3基於智能化排序的第三代搜索引擎
排序演算法在搜索引擎中具有特別重要的地位,目前許多搜索引擎都在進一步研究新的排序方法,來提升用戶的滿意度。但目前第二代搜索引擎有著兩個不足之處,在此背景下,基於智能化排序的第三代搜索引擎也就應運而生。
1)相關性問題
相關性是指檢索詞和頁面的相關程度。由於語言復雜,僅僅通過鏈接分析及網頁的表面特徵來判斷檢索詞與頁面的相關性是片面的。例如:檢索「稻瘟病」,有網頁是介紹水稻病蟲害信息的,但文中沒有「稻瘟病」這個詞,搜索引擎根本無法檢索到。正是以上原因,造成大量的搜索引擎作弊現象無法解決。解決相關性的的方法應該是增加語意理解,分析檢索關鍵詞與網頁的相關程度,相關性分析越精準,用戶的搜索效果就會越好。同時,相關性低的網頁可以剔除,有效地防止搜索引擎作弊現象。檢索關鍵詞和網頁的相關性是在線運行的,會給系統相應時間很大的壓力,可以採用分布式體系結構可以提高系統規模和性能。
2)搜索結果的單一化問題
在搜索引擎上,任何人搜索同一個詞的結果都是一樣。這並不能滿足用戶的需求。不同的用戶對檢索的結果要求是不一樣的。例如:普通的農民檢索「稻瘟病」,只是想得到稻瘟病的相關信息以及防治方法,但農業專家或科技工作者可能會想得到稻瘟病相關的論文。
解決搜索結果單一的方法是提供個性化服務,實現智能搜索。通過Web數據挖掘,建立用戶模型(如用戶背景、興趣、行為、風格),提供個性化服務。
⑵ 如何消除演算法中的性別歧視
我們這個世界是有很多的物種組成的,在這其中也包括我們人類。而人類則是分為男人和女人,但是相比較來看男人的力量比女生要強大,可承受的抗擊能力也比女人強上很多。所以,在這個世界上是存在著性別的歧視的。因為女人普遍要弱於男人,所以社會上會認為男人生來就是比女人強。在演算法中也存在著一定的性別歧視。
消除性別歧視應該有科學的方法和實際上的行動。應該制定一個完整而又有規律的實施方案。應該多在生活中思考一下各有的優點以及對方的缺點。要把缺點和優點綜合起來,客觀的評價一個人。不能把那種帶有歧視的觀念帶到生活當中去。性別歧視本身就是不對的,是一種錯誤的思想,應該摒棄的。要在心中時刻都保持著這樣的一種想法。在演算法當中應當客觀的去評價一個人,而不是單從性別上去評判。
⑶ 理工男要統治地球了嗎
柯潔與阿爾法狗的大戰成為這幾天刷屏的事件,馬克·扎克伯格在斯坦福大學的演講也讓他成為了這個世界上最性感的理工男。這些事件再次印證了,人工智慧和計算機演算法儼然已經成為了這個地球上最受人艷羨、人人都想分一杯羹的領域。
計算機演算法,這個與人工智慧最密切相關的領域,面臨著與人工智慧一樣的雙面境遇。一方面,計算機科學至上的觀念在矽谷盛行,作為計算機工程專業學生的理工男受到社會的瘋狂膜拜,不管是工作面試還是工資對比,理工男顯然要比人文男吃香得多。然而,計算機演算法卻在一定程度上加劇了社會差距,沖動的演算法甚至還有可能陷社會於不義。
誠然,人工智慧、計算機演算法是未來發展的趨勢,但我們真的放心將我們的未來交到現在這群「理工男」手中嗎?現今社會對理工男的膜拜是否真的對這個社會、這個世界的未來有益呢?為了免於未來受其束縛,作為普通人的我們又該做出哪些改變?在人工智慧尚未發展成熟的現在,這些問題值得所有人考慮。
━━━━━
作為一名計算機學科的博士,我酷愛大數據。但我並沒有把數據看得太過神聖,因為我學到的一切知識,都是通過數據而得來的,不管是性,還是莎士比亞。一些把數學神聖化了的人也因此憤怒反駁過我。十幾歲的時候,我在斯坦福大學學會了計算機演算法,通過這種優雅又致命的武器,我可以在互聯網上找出最危險的通緝犯,也可以透過人們在網上的發言察覺到他對政府的不滿。
計算機科學的確很奇妙。但問題在於,矽谷的許多人認為計算機科學超越一切。比如招聘會上,那些面試員態度很鮮明,他們只對計算機科學背景的人感興趣;比如工資對比,計算機工程專業學生明顯要比其他非工程專業高出不少;再比如,當人文學科的學生透露自己的專業時,他們會受到質疑與不屑。
我曾見過一些傑出的計算機科學家對自己正在研究的人群表示出可悲的無知,我對他們進行了當面嘲笑。我曾見過一些軍事科學家以孩童般的熱情向人展示自己創新研製的殺傷性武器,卻對這些武器的目標攻擊人群閉口不談。世界上最恐怖的事情莫過於,科學家可以就如何槍擊同類進行一場學術對話,卻無法給出這樣做的理由。
Facebook 用1010萬用戶行為數據解釋「迴音室」效應
當外部研究者評估產品影響時,企業應該積極配合,盡量說明自己的演算法工作原理,在數據使用協議允許的范圍內適當公布數據。(研究人員還應允許在不被起訴的情況下進行演算法檢測。)
招聘面試時的問題也不應只局限於計算機演算法,還應考察對方的社會倫理知識。同時,學生也應該學會如何應答招聘經理的提問(微軟的 CEO 曾在技術采訪中被問到,如果看到一個嬰兒躺在十字路口他會怎麼做,而他的答案當然不是常人都能想到的將嬰兒抱起)。
企業應該僱傭一些被自家產品侵犯過的人群或者非產品目標用戶的人群,他們的臉部可能無法被計算機視覺系統識別,他們的笑容可能無法被 emoji 表情捕捉,他們的簡歷可能跟公司不大相關,他們的住房選擇可能受到了公司政策的限制,他們可能深陷網路巨魔的圈套(企業為網路巨魔提供了平台,卻沒有加以有效控制)。招聘一些其他領域科學家進公司來,讓他們參加午餐會談,使其對公司原有的世界觀造成沖擊。
傾聽這些非計算機領域科學家的意見,可能會減緩矽谷的發展腳步,因為不同世界觀的碰撞難免產生分歧。但是,當有人提出理性的反對聲音時,適當放慢腳步只會有益無害。在今天這個數字戰場會決定總統選舉輸贏的時代里,科技巨頭們需要放緩自己前進的步伐,不忘初心。
⑷ 有些經營者利用演算法進行價格歧視,我們究竟該如何避免被大數據殺熟
隨著互聯網時代的到來,現在想必大家很多的日常活動都是在互聯網上進行的,一般情況下,一個人的手機里邊兒最起碼要安裝二三十個不同類型的app。但是在我們經常使用app的時候,他們也會記錄我們的使用習慣,從而讓這些後台可以進行大數據殺熟。在此前央視就關於這樣的行為進行過報道。那麼我們應該如何做才能夠避免被大數據殺熟呢?接下來,關於這個話題,我將會從幾以下幾點進行分析。
第三,如何看待這些大數據殺熟的公司?
雖然現在大家都在抵制這些大數據殺熟,但說實話,想要通過一些蛛絲馬跡來掌握他們的證據還是非常困難的。畢竟互聯網本身就是一個非常隱秘的環境,如果不是掌握其核心生意的話,根本就難以直接指控他們在利用大數據。而且在某種程度上,大數據的確可以簡化選擇商品的時候的一些繁瑣搜索。
⑸ AI演算法為什麼會存在性別歧視
因為微軟那套演算法就是大量學習人類的對話 以及人工教授
⑹ 人工智慧的安全評估和評測包括哪些方面的內容
隨著人工智慧的高速發展,這不僅為企業帶來了一定的好處,同時還存在一些安全風向,為了能夠深入了解人工智慧,需要明白人工智慧技術的安全風險包括哪些類型?該如何應對這些風險?
人工智慧的安全類型分為數據安全和演算法安全。數據安全分為三個部分,數據隱私、數據質量、數據保護。無論是訓練機器所需的現場數據還是以後用它做服務的數據,數據的質量十分關鍵。
演算法安全包括三個方面:
第一是魯棒性,環境發生變化能夠具有相應的韌性;
第二是可解釋性,包括代碼功能正確性、對抗樣本影響;
第三是可靠性,包括問題目標影響,軟硬體平台依賴。
為應對人工智慧的安全風險,可以圍繞以下七個方面加強應對:
第一,演算法可解釋性。在需要了解或解決一件事情的時候,可以獲得我們所需要的足夠的可以理解的信息。黑盒演算法缺乏透明性和可解釋性,難以分析和驗證。因此,需要進行建模前的數據可解釋性分析,構建可解釋性的模型,並開展模型部署後的可解釋性評估。
第二,隱私保護。人工智慧演算法存在矛盾,隱私保護與知識挖掘之間不完全一致,數據挖掘可能會挖掘到個人隱私。
第三,公平建模。在演算法實踐過程中,無論在採集階段、學習階段、部署階段都存在所謂的公平問題,最後建設模型希望能夠實現統計公平、個體公平、因果公平。
第四,可信驗證。可信驗證的引擎主要是對人工智慧系統做驗證、模擬、測試,這是一種很重要的智能手段,通過提供系統性訓練和測試的可信保證,從而對成果進行定量形式化驗證。
第五,主動防禦。雖然被攻擊方在明處,攻擊方在暗處,但是被攻擊方同樣也有手段保護自己,通過安全評估、威脅者理解、預測手段等進行主動防禦。
第六,倫理法律。人工智慧倫理和治理成基本共識,國際社會探索建立廣泛認可的人工智慧倫理原則。
第七,系統倫理。這其中既包含了哲學倫理的思考,也包括理論研究、工程學的考慮。
⑺ 2018我們可能要忍受的人工智慧陰暗面
2017年的網路安全世界並不平穩,各種各樣的病毒和黑客肆虐不絕於耳。進入2018,我們很可能會在這個戰場看到更激烈的搏殺。
結束語
就像任何一種技術革新一樣,AI也同樣在帶來價值的同時創造了危險。而且憑借著識別和學習能力的特徵,AI帶來的負面影響說不定會比過往更大。
但是無論如何,技術就是這么一步步推進的。更好的風景總是伴隨著更難走的路途。認識風險,並探索解決方案,或許才是人類與AI相處時更舒服的方式。
⑻ 演算法歧視名詞解釋
人工智慧在影響人們的生活,網上的和現實世界中的生活。演算法將人們在網路世界中的上網習慣、購物記錄、GPS位置數據等各種網上足跡和活動,轉變為對人們的各種打分和預測。這些打分和預測進而左右影響人們的生活的各種決策工作,其中的歧視和不公平由此成為一個顯著的問題,無論人們是否意識到歧視的存在。
以大數據、機器學習、人工智慧、演算法等為核心的自動決策系統的應用日益廣泛,從購物推薦、個性化內容推薦、精準廣告到貸款評估、保險評估、雇員評估再到司法程序中的犯罪風險評估,越來越多的決策工作為機器、演算法和人工智慧所取代,認為演算法可以為人類社會中的各種事務和決策工作帶來完全的客觀性。然而,這不過是妄想,是一廂情願。無論如何,演算法的設計都是編程人員的主觀選擇和判斷,他們是否可以不偏不倚地將既有的法律或者道德規則原封不動地編寫進程序,是值得懷疑的。演算法歧視(Algorithmic Bias)由此成為一個需要正視的問題。規則代碼化帶來的不透明、不準確、不公平、難以審查等問題,需要認真思考和研究。
⑼ 中消協指出網路領域涉及消費者權益的演算法應用問題有哪幾種
中消協指出,根據消費者投訴、有關調查和相關報道,網路領域涉及消費者權益的演算法應用問題主要有以下幾種:
一、推薦演算法。通過監測分析消費者的消費行蹤軌跡,如瀏覽過的頁面、廣告、商品服務、話題等,有針對性地對消費者進行商業營銷。這類推薦演算法利用消費者的數據畫像,實施所謂精準推送。許多消費者誤以為自己看到的與旁人無異,導致知情、選擇不足。有些經營者通過演算法應用推送的商品、服務內容甚至違背法律和公序良俗。二、價格演算法。有些經營者利用演算法進行價格歧視。一是對新老用戶制定不同價格,會員用戶反而比普通用戶價格更貴。二是對不同地區的消費者制定不同價格。三是多次瀏覽頁面的用戶可能面臨價格上漲。四是利用繁復促銷規則和演算法,實行價格混淆設置,吸引計算真實價格困難的消費者。這類演算法造成選擇性目標傷害。
三、評價演算法。部分平台及平台內經營者為了獲得好評,運用刷單等方式,編造虛假高分評價,或者隱匿中評、差評,使真實評價無法顯現。虛假評價、評價失實呈現,不僅破壞經營者之間的公平競爭,也對消費者購買決策產生誤導。
四、排名演算法。平台經營者制定各類排名榜,聲稱基於消費者好評率、銷量等,對各行業或商品服務類別進行排序,引導消費者選擇,但具體如何計算得出的難以知曉。還有的混淆競價排名與自然排名,左右消費者決策。
五、概率演算法。一些線上經營者開展有獎銷售、抽獎兌換,特別是部分網路游戲公司經常性推送游戲道具抽獎活動,雖然公示了中獎(掉落)概率,但是其演算法程序不透明,實際中獎概率缺乏管控,屢遭消費者詬病。
六、流量演算法。一些平台利用所處優勢地位通過演算法在流量分配、搜索排名等方面設置障礙和限制,控制平台內經營者開展交易,影響公平競爭和消費者選擇。
⑽ 中消協加強網路消費演算法規制,這對杜絕價格歧視有何幫助
中國消費者協會(以下簡稱中國消費者協會)在京召開網路消費領域演算法監管與消費者保護研討會。中國消費者協會表示,將加強對網路消費演算法的監管,保護消費者的知情權、選擇權和公平交易權。中國消費者協會指出,近年來,隨著平台經濟的快速發展,網路購物、交通運輸、旅遊住宿、訂購外賣、網路游戲等生活消費領域出現了大型平台企業。不少平台存在一些侵犯消費者權益的行為,引起廣泛關注。
據了解,評價演算法是指一些平台和運營商在平台上,為了獲得好評,編造虛假的高分評價,或隱藏中差評價,使真實評價無法出現。虛假評價和虛假評價不僅破壞了經營者之間的公平競爭,也誤導了消費者的購買決策。此外,概率演算法還包括一些在線運營商進行有獎銷售和抽獎兌換。特別是一些網路游戲公司經常為抽獎活動推送游戲道具。雖然中獎(落選)概率公開,但演算法程序不透明,實際中獎概率缺乏控制,屢遭消費者詬病。對於演算法的應用,中國消費者協會表示,希望各行業組織加強指導和監督,促進網路運營商合理、合規地應用演算法,凈化行業氛圍,促進良性發展,切實維護合法權益以及消費者的利益。中國消費者協會進一步指出,建議有關司法機關加強演算法應用案例分析研究,推動出台相關司法解釋,充分發揮司法機關的審判監督作用,強化經營者舉證責任,加強對演算法應用問題的實質審查,通過司法判例促進公平正義,加強對消費者權益的保護。