久久久精品一区ed2k-女人被男人叉到高潮的视频-中文字幕乱码一区久久麻豆樱花-俄罗斯熟妇真实视频

預(yù)測(cè)算法JAVA代碼,java預(yù)測(cè)模型

關(guān)于java新聞網(wǎng)站的算法

(一) 算法倫理的研究

目前成都創(chuàng)新互聯(lián)已為近1000家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間、網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計(jì)、藤縣網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。

1.算法內(nèi)涵界定。算法源于數(shù)學(xué),但現(xiàn)代算法又遠(yuǎn)遠(yuǎn)不止于傳統(tǒng)數(shù)學(xué)的計(jì)算范疇。算法多被理解為是計(jì)算機(jī)用于解決問題的程序或步驟,是現(xiàn)代人工智能系統(tǒng)的運(yùn)行支柱?!队?jì)算主義:一種新的世界觀》(李建會(huì)等,2012)中將算法定義為能行的方法,在外界的常識(shí)性理解中所謂算法就是能感受到的一套運(yùn)算規(guī)則,這個(gè)規(guī)則的特點(diǎn)在于運(yùn)算時(shí)間的有限性、計(jì)算步驟的有窮性、輸入結(jié)果的確切性,它是機(jī)械步驟或能行可算計(jì)程序。該定義點(diǎn)明了算法應(yīng)具備的兩個(gè)基本屬性——有限性與有窮性?!队糜?jì)算的觀點(diǎn)看世界》( 酈全民,2016) 則從信息傳播的角度解讀算法,認(rèn)為算法實(shí)質(zhì)上是信息處理方法。

2.算法倫理研究

倫理關(guān)乎道德價(jià)值真理及其判斷。存在于自然界、社會(huì)中的人,其行為應(yīng)遵循一定的倫理道德規(guī)范。倫理的效應(yīng)要導(dǎo)向善。倫理道德關(guān)注對(duì)個(gè)體存在的尊重、個(gè)體的自由、公平正義以及組織團(tuán)體的延續(xù)與發(fā)展等問題。在一定程度上可以說,當(dāng)今的人類社會(huì)已經(jīng)不能脫離智能算法系統(tǒng)而運(yùn)行了。

算法無時(shí)無處不在對(duì)世界產(chǎn)生影響,因而算法也會(huì)必然的觸碰到倫理道德。和鴻鵬(2017)已指出,算法系統(tǒng)在人類社會(huì)生活中的廣泛應(yīng)用,會(huì)陷入諸多如人類面臨且無法回避的倫理兩難選擇困境之中。而當(dāng)算法與倫理發(fā)生關(guān)聯(lián)時(shí),學(xué)界一般認(rèn)為會(huì)引出職業(yè)倫理和技術(shù)倫理兩種倫理問題。

職業(yè)倫理主要與算法系統(tǒng)的開發(fā)者有關(guān),指開發(fā)者是帶有個(gè)性價(jià)值觀、倫理道德觀去研發(fā)算法系統(tǒng)的行為體,因而算法系統(tǒng)一開始便會(huì)摻雜著設(shè)計(jì)人主觀性的倫理道德觀。設(shè)計(jì)者出于何種目的開發(fā)某算法系統(tǒng)、面對(duì)不同問題設(shè)計(jì)者持有的倫理道德態(tài)度,這些都會(huì)在算法系統(tǒng)的運(yùn)行中得到體現(xiàn)。

技術(shù)倫理是算法系統(tǒng)在一定意義上可稱之為一種科學(xué)技術(shù),這種技術(shù)自身及其運(yùn)作結(jié)果都會(huì)負(fù)載著倫理價(jià)值。其實(shí)在一些情況下,職業(yè)倫理與技術(shù)倫理之間并沒有很明確的界別,關(guān)于這一點(diǎn),劉則淵跟王國豫已做過論述。

本文將主要從技術(shù)倫理的角度對(duì)算法關(guān)涉?zhèn)惱磉@一問題嘗試做深入研究。

(二)網(wǎng)絡(luò)新聞傳播的算法倫理研究

算法與技術(shù)的融合不斷英語于網(wǎng)絡(luò)新聞傳播領(lǐng)域中,從數(shù)據(jù)新聞到機(jī)器寫作,從算法推送到輿情到分析,國內(nèi)新聞傳媒領(lǐng)域的機(jī)器新聞和相關(guān)研究逐漸發(fā)展,金兼斌在《機(jī)器新聞寫作:一場(chǎng)正在發(fā)生的革命》(2014),作者較早的將眼光聚焦于基于算法的新聞內(nèi)容生產(chǎn)和編輯。認(rèn)為在自動(dòng)化新聞生產(chǎn)大發(fā)展的前提下,諸如新聞生產(chǎn)或分發(fā)中勞動(dòng)密集型的基礎(chǔ)性工作與環(huán)節(jié)都將被技術(shù)取代。張超、鐘新在《從比特到人工智能:數(shù)字新聞生產(chǎn)的算法轉(zhuǎn)向》(2017) 認(rèn)為算法正在從比特形式走向人工智能階段,這種轉(zhuǎn)向使得數(shù)字新聞與傳統(tǒng)新聞的邊界進(jìn)一步明晰,促使數(shù)字新聞生產(chǎn)也產(chǎn)生了變革。胡萬鵬在《智能算法推薦的倫理風(fēng)險(xiǎn)及防范策略》中總結(jié)了從算法推送方面:針對(duì)新聞的價(jià)值觀所受到的負(fù)面影響;以及新聞的公共性、客觀性和真實(shí)性受到的削弱進(jìn)行分析;從受眾方面:將具體對(duì)信息繭房現(xiàn)象以及受眾的知情權(quán)和被遺忘權(quán)展開探討;從社會(huì)影響方面,則針對(duì)社會(huì)群體、社會(huì)公共領(lǐng)域和社會(huì)文化所受到的消極影響展開論述。

根據(jù)以上文獻(xiàn)的梳理可以看出,國內(nèi)目前對(duì)網(wǎng)絡(luò)新聞傳播的算法倫理研究主要集中在新聞業(yè)態(tài)算法倫理失范的相關(guān)問題,因?yàn)榕c其他失范問題相比,這是比較容易發(fā)現(xiàn)的。但目前關(guān)于網(wǎng)絡(luò)新聞傳播的算法倫理的國內(nèi)研究還存在不足:國內(nèi)算法倫理和網(wǎng)絡(luò)新聞傳播算法倫理的研究還是在起步階段,比較成熟的系統(tǒng)性研究還未出現(xiàn);關(guān)于算法開發(fā)人員和平臺(tái)的責(zé)任機(jī)制的研究都比較薄弱,總上所述,算法推送新聞的倫理問題研究是有必要繼續(xù)加強(qiáng)的。

2.新聞推薦算法的興起、發(fā)展與原理

2.1 新聞推薦算法的興起

隨著計(jì)算機(jī)技術(shù)的信息處理的維度越來越高,信息處理的能力不斷提升,算法技術(shù)可以從大數(shù)據(jù)中篩選出用戶最關(guān)心最感興趣的信息,改變了原有的新聞信息傳播方式,重塑了新的媒介生態(tài)和傳播格局。

但反過來看,在人人都能生產(chǎn)信息的背景下,信息的生產(chǎn)、傳播和反饋的速度都是呈幾何倍數(shù)增長,用戶面對(duì)的信息越來越多。由于設(shè)備的局限性和信息海量,用戶無法集中注意力看自己感興趣的內(nèi)容,也無法及時(shí)抓取對(duì)自己有用的信息,于是出現(xiàn)了“注意力經(jīng)濟(jì)”。美國經(jīng)濟(jì)學(xué)家邁克爾·戈德海伯(1997)認(rèn)為,當(dāng)今社會(huì)是一個(gè)信息極大豐富甚至泛濫的社會(huì),而互聯(lián)網(wǎng)的出現(xiàn),加快了這一進(jìn)程,信息非但不是稀缺資源,相反是過剩的。相對(duì)于過剩的信息,只有一種資源是稀缺的,那就是人們的注意力。換句話說,信息不能夠一味追求量,還要有價(jià)值,價(jià)值就在于用戶對(duì)信息的注意力,誰獲得了用戶的注意力就可以有市場(chǎng)的發(fā)展空間,通過“販賣”用戶的注意力能夠使新媒體聚合平臺(tái)獲得利潤,維持發(fā)展。再加上現(xiàn)在生活節(jié)奏越來越快,人們對(duì)信息獲取的量和效率要求提高,不想把時(shí)間浪費(fèi)在自己不感興趣的信息,從而用戶獲取信息的“個(gè)性化”特征變得明顯起來。

基于此背景下,算法推送新聞的傳播機(jī)制應(yīng)運(yùn)而生,用戶不需要特意搜索自己需要的信息,而是海量的信息會(huì)自行“找到”用戶,為用戶節(jié)省搜索時(shí)間之余,又能做到真正為用戶提供有用的信息。

2.2新聞推薦算法的發(fā)展現(xiàn)狀

算法推薦是依據(jù)用戶數(shù)據(jù)為用戶推薦特定領(lǐng)域的信息,根據(jù)受眾使用反饋不斷修正并完善推薦方案。目前主要有兩類新聞機(jī)構(gòu)使用算法推送,其一是新型的互聯(lián)網(wǎng)新聞聚合類平臺(tái),國內(nèi)主要是以今日頭條和一點(diǎn)資訊等算法類平臺(tái)為代表,在我國新聞客戶端市場(chǎng)上擁有極高的占有率。張一鳴創(chuàng)建今日頭條是依靠大數(shù)據(jù)和算法為用戶推薦信息,提供連接人與信息的服務(wù),算法會(huì)以關(guān)鍵詞等元素判斷用戶的興趣愛好,從全網(wǎng)抓取內(nèi)容實(shí)現(xiàn)個(gè)性化推薦。國外則是以Facebook、Instagram等平臺(tái)為代表,這些APP都是通過算法挖掘用戶的數(shù)據(jù),以用戶個(gè)性化需求為導(dǎo)向?qū)τ脩暨M(jìn)行新聞推送。另一種則是專業(yè)新聞生產(chǎn)的傳統(tǒng)媒體,為積極應(yīng)對(duì)新聞市場(chǎng)的競(jìng)爭(zhēng)和提高技術(shù)水平而轉(zhuǎn)型到新聞全媒體平臺(tái),如國內(nèi)的“人民日?qǐng)?bào)”等,國外利用算法推送向用戶推送新聞的傳統(tǒng)媒體則有美國的美聯(lián)社、華盛頓郵報(bào)和英國的BBC等,他們利用算法監(jiān)督受眾的數(shù)量還有閱讀行為,使他們的新聞報(bào)道能夠更加受受眾的喜歡,增加用戶的粘性。

2.2 新聞推薦算法的原理

2.2.1 新聞推薦算法的基本要素

算法推送有三個(gè)基本要素,分別是用戶、內(nèi)容和算法。用戶是算法推送系統(tǒng)的服務(wù)對(duì)象,對(duì)用戶的理解和認(rèn)知越是透徹,內(nèi)容分法的準(zhǔn)確性和有效性就越準(zhǔn)確。內(nèi)容是算法推送系統(tǒng)的基本生產(chǎn)資料,對(duì)多種形式內(nèi)通的分析、組織、儲(chǔ)存和分發(fā)都需要科學(xué)的手段與方法。算法是算法推送技術(shù)上的支持,也是最核心的。系統(tǒng)中大量用戶與海量的信息是無法自行匹配的,需要推送算法把用戶和內(nèi)容連接起來,在用戶和內(nèi)容之間發(fā)揮橋梁作用,高效把合適的內(nèi)容推薦給合適的用戶。

2.2.2 新聞推薦算法的基本原理

算法推送的出現(xiàn)需要具備兩個(gè)條件:足夠的信息源和精確的算法框架。其中,算法的內(nèi)容生產(chǎn)源與信息分發(fā)最終效果密切相關(guān):是否有足夠多的信息可供抓取與信息是否有足夠的品質(zhì)令用戶滿意都將對(duì)信息的傳播效果產(chǎn)生影響。與此同時(shí),分發(fā)環(huán)節(jié)也在向前追溯,改變著整個(gè)傳播的生態(tài)。目前,國內(nèi)新聞傳播領(lǐng)域所使用的算法推送主要有三大類——協(xié)同過濾推送、基于內(nèi)容推送和關(guān)聯(lián)規(guī)則推送。

協(xié)同過濾推送分為基于用戶的協(xié)同過濾和基于模型的協(xié)同過濾。前者主要考慮的是用戶和用戶之間的相似度,只要找出相似用戶喜歡的新聞文章類別,并預(yù)測(cè)目標(biāo)用戶對(duì)該文章的喜歡程度,就可以將其他文章推薦給用戶;后者和前者是類似的,區(qū)別在此時(shí)轉(zhuǎn)向找到文章和文章之間的相似度,只有找到了目標(biāo)用戶對(duì)某類文章的喜愛程度,那么我們就可以對(duì)相似度高的類似文章進(jìn)行預(yù)測(cè),將喜愛程度相當(dāng)?shù)南嗨莆恼峦扑]給用戶。因此,前者利用用戶歷史數(shù)據(jù)在整個(gè)用戶數(shù)據(jù)庫中尋找相似的推送文章進(jìn)行推薦,后者通過用戶歷史數(shù)據(jù)構(gòu)造預(yù)測(cè)模型,再通過模型進(jìn)行預(yù)測(cè)并推送。

基于內(nèi)容的推送即根據(jù)用戶歷史進(jìn)行文本信息特征抽取、過濾,生成模型,向用戶推薦與歷史項(xiàng)目內(nèi)容相似的信息。它的優(yōu)點(diǎn)之一就是解決了協(xié)同過濾中數(shù)據(jù)稀少時(shí)無法準(zhǔn)確判斷分發(fā)的問題。但如果長期只根據(jù)用戶歷史數(shù)據(jù)推薦信息,會(huì)造成過度個(gè)性化,容易形成“信息繭房”。

關(guān)聯(lián)規(guī)則推送就是基于用戶歷史數(shù)據(jù)挖掘用戶數(shù)據(jù)背后的關(guān)聯(lián),以分析用戶的潛在需求,向用戶推薦其可能感興趣的信息?;谠撍惴ǖ男畔⑼扑]流程主要分為兩個(gè)步驟,第一步是根據(jù)當(dāng)前用戶閱讀過的感興趣的內(nèi)容,通過規(guī)則推導(dǎo)出用戶還沒有閱讀過的可能感興趣的內(nèi)容;第二是根據(jù)規(guī)則的重要程度,對(duì)內(nèi)容排序并展現(xiàn)給用戶。關(guān)聯(lián)規(guī)則推送的效果依賴規(guī)則的數(shù)量和質(zhì)量,但隨著規(guī)則數(shù)量的增多,對(duì)系統(tǒng)的要求也會(huì)提高。

2.2.3 算法推送的實(shí)現(xiàn)流程

在信息過載的時(shí)代,同一個(gè)新聞選題有很多同質(zhì)化的報(bào)道,因此分發(fā)前需要對(duì)新聞內(nèi)容進(jìn)行消重,消重后的新聞內(nèi)容便等待推送,此時(shí)的推送有三個(gè)類別:啟動(dòng)推送、擴(kuò)大推送和限制推送。

第一類是啟動(dòng)推送,先對(duì)用戶精準(zhǔn)推送,即將其訂閱賬號(hào)的更新內(nèi)容第一時(shí)間向用戶推薦;然后根據(jù)用戶的歷史瀏覽數(shù)據(jù),把相似的文本特征歸類后推送給其他用戶;最后是給關(guān)注用戶的相似人群進(jìn)行推薦。第二類擴(kuò)大推送是指對(duì)于某個(gè)點(diǎn)擊率、閱讀時(shí)長都明顯高于平均水平的新聞內(nèi)容,系統(tǒng)會(huì)將它自動(dòng)篩選出來,并向更多的人進(jìn)行推薦。但在擴(kuò)大推薦的過程中,系統(tǒng)會(huì)依據(jù)用戶的反饋進(jìn)行調(diào)整。第三為限制推送,指某個(gè)點(diǎn)擊率、閱讀時(shí)長都明顯低于平均水平的新聞內(nèi)容,會(huì)被系統(tǒng)自動(dòng)篩選出來,遏制推送,這樣的內(nèi)容會(huì)被縮小推薦范圍。

3. “今日頭條”新聞推薦算法分析

“今日頭條”是國內(nèi)一款資訊類的媒體聚合平臺(tái),每天有超過1.2億人使用。從“你關(guān)心的,才是頭條!”到如今的“信息創(chuàng)造價(jià)值!”,產(chǎn)品slogan的變化也意味著今日頭條正逐漸擺脫以往單一、粗暴的流量思維,而開始注重人與信息的連接,在促進(jìn)信息高效、精準(zhǔn)傳播的同時(shí)注重正確的價(jià)值引導(dǎo)。

在2018年初,“今日頭條”的資深算法架構(gòu)師曹歡歡博士在一場(chǎng)分享交流會(huì)上公開了其算法運(yùn)行原理。在他的敘述中,非常詳細(xì)地介紹了“今日頭條”的算法推薦系統(tǒng)概述以及算法推薦系統(tǒng)的操作原理。

3.1.1-1 曹歡歡博士的今日頭條算法建模

上圖用數(shù)學(xué)形式化的方法去描述“今日頭條”的算法推送,實(shí)際上就是一個(gè)能夠得出用戶對(duì)內(nèi)容滿意程度的函數(shù):即y為用戶對(duì)內(nèi)容的滿意度,Xi,Xc,Xu分別是今日頭條公開的算法推送的三個(gè)維度:Xi是用戶,包括用戶的性別、年齡、職業(yè)和興趣標(biāo)簽,還有其他算法模型刻畫的隱形用戶偏好等;Xc是環(huán)境,這也是移動(dòng)互聯(lián)網(wǎng)時(shí)代新聞推送的特點(diǎn),由于用戶隨時(shí)隨地在不停移動(dòng),移動(dòng)終端也在移動(dòng),用戶在不同的工作場(chǎng)合、旅行等場(chǎng)景信息推送偏好也會(huì)不同;Xu是內(nèi)容,今日頭條本身就是信息聚合類平臺(tái),平臺(tái)上涵蓋各種不同形式的內(nèi)容。本章將以該函數(shù)為基礎(chǔ),逐一分析今日頭條的推薦算法。

3.1 推薦維度之一:內(nèi)容分析

內(nèi)容分析原指第二次世界大戰(zhàn)期間,傳播學(xué)家拉斯韋爾等研究學(xué)家組織了“戰(zhàn)士通訊研究”的工作,以德國公開出版的戰(zhàn)時(shí)報(bào)紙為分析研究對(duì)象,弄清報(bào)紙內(nèi)容本質(zhì)性的事實(shí)和趨勢(shì),揭示隱含的隱性情報(bào)內(nèi)容,獲取了許多軍情機(jī)密情報(bào)并且對(duì)事態(tài)發(fā)展作出情報(bào)預(yù)測(cè)。在“今日頭條”中,內(nèi)容分析則是對(duì)文章、視頻內(nèi)容提取關(guān)鍵要素,通過對(duì)文本、視頻標(biāo)題關(guān)鍵字進(jìn)行語義識(shí)別,給內(nèi)容進(jìn)行分類。“今日頭條”的推送系統(tǒng)是典型的層次化文本分類算法,來幫助每篇新聞?wù)业胶线m的分類,比如:第一大分類是政治、科技、財(cái)經(jīng)、娛樂、體育等,體育類可以下分籃球、足球、網(wǎng)球等,足球又可以下分中國足球和國際足球,中國足球最后下分為甲、中超、國家隊(duì)等。這一步是對(duì)文章進(jìn)行對(duì)這個(gè)工作主要目的是對(duì)文章進(jìn)行分類,方便以后對(duì)客戶推薦。

想要內(nèi)容分析實(shí)現(xiàn)效果,則需要海量的內(nèi)容信息給算法系統(tǒng)提供有效的篩選和分類?!敖袢疹^條”既然是依賴于算法推送新聞,那它背后的數(shù)據(jù)庫必然是強(qiáng)大的,“網(wǎng)頁蜘蛛”和“頭條號(hào)”就是支撐今日頭條平臺(tái)消息來源的重要渠道,其消息來源極其豐富,何時(shí)何地有何新鮮事,都能高效率抓取信息。

第一個(gè)消息來源的渠道是“網(wǎng)頁蜘蛛”,“網(wǎng)頁蜘蛛”又叫網(wǎng)頁爬蟲,頭條使用的就是搜索引擎爬蟲叫“Bytespider”。它能按照一定的規(guī)則,自動(dòng)爬行抓取互聯(lián)網(wǎng)的信息或腳本,就像蜘蛛通過蛛網(wǎng)進(jìn)行捕食,當(dāng)發(fā)現(xiàn)新的信息資源,蜘蛛會(huì)立刻出動(dòng)抓取信息內(nèi)容并將其收入自己的數(shù)據(jù)庫中。和微信的垂直搜索不同,Bytespider是能夠抓取全網(wǎng)內(nèi)容的全新搜索引擎,因此“今日頭條”的搜索引擎功能很全面,搜索的資源很廣,資源包容性極高。

Bytespider信息抓取的基本流程如下:首先是網(wǎng)頁抓取。Bytespider順著網(wǎng)頁中的超鏈接,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。第二步是處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括消除重復(fù)網(wǎng)頁、判斷網(wǎng)頁類型、分析超鏈接、計(jì)算網(wǎng)頁的重要度、豐富度等。第三步提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁,為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息。

第二個(gè)消息來源渠道是“頭條號(hào)”。與“今日頭條”不同,它是今日頭條針對(duì)媒體、國家機(jī)構(gòu)、企業(yè)以及自媒體推出的專業(yè)信息發(fā)布平臺(tái)。致力于幫助生產(chǎn)者在移動(dòng)互聯(lián)網(wǎng)上高效率地獲得更多的曝光和關(guān)注。簡單來說頭條號(hào)是媒體在上面撰寫并發(fā)布文章、視頻后,會(huì)在今日頭條(包括今日頭條極速版)平臺(tái)展示。通過頭條號(hào)后臺(tái),媒體可以看到具體文章推薦量、閱讀量、粉絲閱讀量、評(píng)論量、轉(zhuǎn)發(fā)量和收藏量,最后通過這些可以量化的用戶閱讀行為的反饋,算法系統(tǒng)進(jìn)一步對(duì)目標(biāo)用戶進(jìn)行內(nèi)容推薦。

3.2 推薦維度之二:用戶分析

用戶分析通過提取用戶的有效數(shù)據(jù),如用戶經(jīng)常瀏覽的文字類型、經(jīng)常搜索的關(guān)鍵字、注冊(cè)時(shí)登記信息的內(nèi)容等,算法系統(tǒng)可以將每個(gè)用戶的瀏覽記錄、瀏覽時(shí)間、留言、評(píng)論和轉(zhuǎn)發(fā)等行為進(jìn)行關(guān)鍵字提取,最終形成用戶畫像,以便之后對(duì)用戶進(jìn)行文章和視頻的精準(zhǔn)推送。舉個(gè)例子,給喜歡閱讀“體育”的用戶標(biāo)上“體育”標(biāo)簽;給喜歡“娛樂”的用戶標(biāo)上“娛樂”的標(biāo)簽,這一步的作用是給用戶的興趣進(jìn)行建模,包括用戶對(duì)文章和視頻的全局熱度、分類熱度,主題熱度,以及關(guān)鍵詞熱度等。熱度信息在大的推薦系統(tǒng)能夠解決新聞冷啟動(dòng)問題,幫助新聞實(shí)現(xiàn)推送。

用戶分析還具有協(xié)同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問題。協(xié)同特征也就是“聯(lián)想式”的推送方法,并非只考慮用戶已有歷史,而是通過用戶行為分析不同用戶間相似性,比如點(diǎn)擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴(kuò)展模型的探索能力。根據(jù)用戶之間計(jì)算數(shù)據(jù)的相似程度,把用戶細(xì)化分類成為不同的目標(biāo)群體,再向目標(biāo)群體集中的推送其感興趣的新聞內(nèi)容

內(nèi)容分析和用戶分析是相輔相成的,如果沒有分析的文本標(biāo)簽,無法得到用戶興趣標(biāo)簽,沒有用戶的興趣標(biāo)簽就無法給用戶定位實(shí)現(xiàn)精準(zhǔn)推送。

3.3 推薦維度之三:環(huán)境分析

環(huán)境分析就是根據(jù)文章的時(shí)效性和接近性推送給相應(yīng)的用戶,比如獲取用戶當(dāng)前所在位置是否在旅游區(qū),這個(gè)可以通過獲取用戶的實(shí)時(shí)位置來實(shí)現(xiàn)。還會(huì)不斷與用戶之前經(jīng)常出現(xiàn)的所在地進(jìn)行對(duì)比等方式確認(rèn)當(dāng)前狀態(tài),分析出用戶是在常住地區(qū)還是在旅行。這時(shí)若系統(tǒng)檢測(cè)到用戶正在泰山及周邊游玩,則可能會(huì)相應(yīng)推送泰山的相關(guān)文章、周邊的交通新聞和天氣信息等等。

通過上面三個(gè)推薦維度可以作為數(shù)據(jù)基礎(chǔ),分析當(dāng)前用戶處于什么環(huán)境,結(jié)合用戶畫像以及文章的內(nèi)容分類來推薦,盡量做到推送的內(nèi)容都是用戶所感興趣的。算法系統(tǒng)還會(huì)通過內(nèi)容分類、分析抽取,把文本相似度高的文章,包括新聞主題、內(nèi)容相似的文章進(jìn)行消重,解決推送重復(fù)的問題,進(jìn)一步對(duì)目標(biāo)用戶進(jìn)行精確且不重復(fù)的內(nèi)容推薦。最后過濾質(zhì)量低俗色情的內(nèi)容,以免造成平臺(tái)會(huì)有負(fù)面傾向。

3.4 “今日頭條”新聞推薦算法的價(jià)值取向

3.4.1 “用戶為上”

“今日頭條”的算法推送是站在用戶的立場(chǎng)上的,以滿足用戶個(gè)性化和推送的精準(zhǔn)性,“今日頭條”也重新衡量了新聞價(jià)值標(biāo)準(zhǔn):以用戶為上,用戶對(duì)新聞內(nèi)容和閱讀方式的滿意度便是平臺(tái)推送新聞的價(jià)值宗旨。傳統(tǒng)媒體時(shí)代,只有報(bào)紙和電視,有什么受眾就得看什么,而如今“今日頭條”根據(jù)用戶興趣去進(jìn)行推送。算法推送平臺(tái)用戶范圍廣,很多用戶熱衷關(guān)注負(fù)面,也有許多用戶都有窺視欲和好奇心,喜歡無聊八卦和無聊新聞,而且在好奇心作用下用戶都有從眾心理。這使得生產(chǎn)者過度去迎合受眾,只要是用戶喜歡看就可以發(fā)表在“今日頭條”上。

3.4.2 “算法主導(dǎo)”

“今日頭條”更注重技術(shù)分發(fā),生產(chǎn)者是用戶,受眾者也是用戶,這樣一來內(nèi)容監(jiān)管和分發(fā)就很困難。算法推送機(jī)制根據(jù)用戶愛好進(jìn)行推送,這樣生產(chǎn)的內(nèi)容快、也無疑會(huì)加速內(nèi)容配送效率。在算法推送模型中,用戶點(diǎn)擊頻率、閱讀時(shí)間、點(diǎn)贊評(píng)論以及轉(zhuǎn)發(fā)在算法時(shí)代都是可以進(jìn)行量化的目標(biāo)。在這樣情況下生產(chǎn)的內(nèi)容,想要獲得較大點(diǎn)擊率和推送率,需要標(biāo)題才能吸引用戶,因?yàn)橛脩粼谄脚_(tái)一眼能看到的就是標(biāo)題和配圖。標(biāo)題和配圖決定用戶是否會(huì)打開你的內(nèi)容,這導(dǎo)致許多內(nèi)容生產(chǎn)者在編輯新聞標(biāo)題時(shí)陷入標(biāo)題黨的怪圈,還有導(dǎo)致低俗內(nèi)容的呈現(xiàn),以制造沖突制造懸念貼標(biāo)簽等方式引用戶點(diǎn)擊,意圖把自己的文章做成爆文。對(duì)于海量的信息內(nèi)容,即使今日頭條數(shù)據(jù)和智能推薦做的再好,目前來說也難以抵擋海量的垃圾信息。

4.算法推送新聞引發(fā)的倫理問題

在如今網(wǎng)絡(luò)時(shí)代的傳播思維中,“用戶為上”、“算法主導(dǎo)”的新聞價(jià)值取向已經(jīng)在算法聚合類平臺(tái)成為了普遍,算法推送技術(shù)作為吸引用戶的手段,搭建起一個(gè)充滿誘導(dǎo)的媒介環(huán)境,以此增加用戶對(duì)平臺(tái)的粘性。算法推送技術(shù)在獲取信息、傳播速度等方面與以往相比有著跨時(shí)代的進(jìn)步,但與此同時(shí),由于算法推送技術(shù)的加入,衍生出新的倫理問題,并且日漸復(fù)雜化。

4.1 算法推送引發(fā)的倫理問題

4.1.1 算法推送過于機(jī)械化,沒有思考能力

單向的算法推薦對(duì)用戶來說經(jīng)常會(huì)帶來內(nèi)容雜亂無章、信息量過大、信息價(jià)值低等問題。從邏輯講,算法只是從關(guān)鍵字的檢索匹配來完成統(tǒng)計(jì)推薦,但對(duì)新聞報(bào)道或文學(xué)作品具有藝術(shù)性、專業(yè)性的內(nèi)容來說,是不能保證推送的質(zhì)量的。算法方面,目前主要基于匹配檢索與統(tǒng)計(jì),大部分都是個(gè)人關(guān)注的信息類型和標(biāo)簽,難以達(dá)到較好的推送效果。一千個(gè)人眼里有一千個(gè)哈姆雷特,但是計(jì)算機(jī)只有只有一個(gè)。算法技術(shù)過于注重機(jī)械化的統(tǒng)計(jì),只根據(jù)關(guān)鍵詞來推薦用戶,對(duì)我們中國具有博大精深的中國文字文化底蘊(yùn),推薦算法是遠(yuǎn)遠(yuǎn)不夠的。整個(gè)新聞客戶端顯得像是一個(gè)菜市場(chǎng),沒有態(tài)度、沒有風(fēng)格,閱讀感受單一化,呈現(xiàn)了碎片化的特點(diǎn)。新聞不只是讓用戶能夠了解身邊發(fā)生的新鮮事,還有宣傳正面思想和傳播正能量的作用,新聞應(yīng)該還要給人們帶來新的思考。讓機(jī)器做出正確判斷很簡單,但是讓機(jī)器綜合心理學(xué)、社會(huì)學(xué)、乃至某細(xì)分領(lǐng)域內(nèi)的規(guī)則做出判斷還要正確地引導(dǎo)受眾則很難,正如現(xiàn)在算法技術(shù)還不能完成一篇富有人文性、文學(xué)性和批判性的深度報(bào)道,它止步在了碎片式的、表層的傳播范疇。

4.1.2 容易引起“信息繭房”效應(yīng)

“信息繭房”這一概念是凱斯.桑斯坦在《信息烏托邦》一書中提出的。意指受眾在過度的信息自我選擇之中,這樣會(huì)降低接觸外界其他信息的可能,從而將自己的生活桎梏于蠶繭一般的“蠶房”中的現(xiàn)象。人們的信息領(lǐng)域會(huì)習(xí)慣性被自己的興趣引導(dǎo),信息窄化帶來了受眾對(duì)信息接收的單一性,這種單一性的可能會(huì)使受眾陷入循環(huán),加重受眾信息同質(zhì)化。

在互聯(lián)網(wǎng)的普及初期,受眾主要是從主流媒體和門戶網(wǎng)站獲取新聞信息,主流媒體能夠保障新聞的質(zhì)量;對(duì)于其他資訊的獲取,由于技術(shù)的限制,此時(shí)的繭房并沒有過度被放大,受眾是有適當(dāng)?shù)淖灾鬟x擇性閱讀新聞的。但到了如今以智能技術(shù)的互聯(lián)網(wǎng)時(shí)代,情況發(fā)生了改變,信息繭房的現(xiàn)象越來越明顯,用戶被標(biāo)簽的情況下,算法系統(tǒng)進(jìn)行大量的主動(dòng)推送,使受眾被動(dòng)地成為信息的接收者。用戶的閱讀興趣不可能涵蓋所有的知識(shí)領(lǐng)域,算法分發(fā)的核心邏輯是根據(jù)用戶的行為數(shù)據(jù)來進(jìn)行精確推薦的,但同時(shí)算法又會(huì)自動(dòng)過濾掉“不感興趣”“不認(rèn)同”的信息,實(shí)現(xiàn)“看我想看,聽我想聽”。在此過程中,因?yàn)樗惴夹g(shù)的力量將用戶的信息選擇效果放大了倍數(shù),進(jìn)而將受眾困住在信息繭房當(dāng)中,受眾也很難憑借自身力量打破繭房,甚至在不知覺中受到更多負(fù)面的影響。

4.1.3 算法推送的“偽中立性”

客觀和全面是新聞倫理的基本要求,新聞從業(yè)者必須從可好信息源來獲取真實(shí)的信息,以客觀的態(tài)度反應(yīng)現(xiàn)實(shí)。我們慣常認(rèn)為,互聯(lián)網(wǎng)技術(shù)服務(wù)商是技術(shù)中立者,不需要承擔(dān)約束大眾媒體的社會(huì)責(zé)任,然而當(dāng)信息把關(guān)人又新聞編輯轉(zhuǎn)變?yōu)樗惴üこ處?,傳統(tǒng)的媒介倫理似乎已經(jīng)失效。算法具有商業(yè)傾向性,“中立性”是算法平臺(tái)用以逃避媒體責(zé)任的理由,給大眾媒介造成傳播亂象,如此一來更像是一場(chǎng)算法平臺(tái)“肆意妄為又不想負(fù)責(zé)”的詭辯。

算法平臺(tái)的信息源是經(jīng)過選擇和過濾的,“頭條號(hào)”的內(nèi)容占“今日頭條”整個(gè)信息系統(tǒng)的絕大部分,然而在“人人都可以做新聞人”的時(shí)代,頭條號(hào)平臺(tái)是一個(gè)開放的網(wǎng)絡(luò)媒介環(huán)境,存在大量的偏見和錯(cuò)誤的認(rèn)知。無論是“今日頭條”平臺(tái)設(shè)立的算法規(guī)則,還是其他爬蟲的抓取的關(guān)鍵詞,算法系統(tǒng)的信息源很多是具有目的性的、有偏見和非客觀的信息,所以信息源不能直接作用于用戶。因此,篩選算法系統(tǒng)的信息源與傳統(tǒng)的人工編輯相比較,范圍極廣且很難把關(guān),若算法被惡意利用,那么使整個(gè)傳播系統(tǒng)將會(huì)被輕易控制。

4.1.4 算法推送里的“議程設(shè)置”

原議程設(shè)置功能揭示的重要內(nèi)涵是:“受眾對(duì)新聞的看法雖然被大眾媒體議程設(shè)置功能所主導(dǎo),但其更深刻的是議程設(shè)置給大眾媒體新聞帶來放大與延伸,從而使受眾對(duì)新聞選擇做出能動(dòng)性修正,讓受眾在滿足需求和媒介依賴中逐漸培養(yǎng)出的潛在認(rèn)同感”。

推送算法技術(shù)在互聯(lián)網(wǎng)平臺(tái)的運(yùn)用,使原來傳統(tǒng)媒體主導(dǎo)的議程設(shè)置過程發(fā)生了變化,伴隨著傳播權(quán)的轉(zhuǎn)移、公眾參與度的提高和信息量劇增等原因?qū)е伦h程設(shè)置功逐漸能減弱。過往傳統(tǒng)新聞的內(nèi)容是由編輯有選擇地進(jìn)行報(bào)道后再呈現(xiàn)在受眾面前的,而個(gè)性化新聞推送是用戶自己來選擇看哪一方面的內(nèi)容,而這一環(huán)節(jié)中,天然的技術(shù)賦權(quán)將傳播權(quán)從傳統(tǒng)媒體下放至平臺(tái)的用戶,使得受眾和社會(huì)的連接無需依賴傳統(tǒng)媒介,新聞媒體作為把關(guān)人的作用和議程設(shè)置功能都在減弱。

4.2 算法新聞治理缺陷下的算法權(quán)利異化

算法作為人工智能的基石之一,是“一種有限、確定、有效并適合用計(jì)算機(jī)程序來實(shí)現(xiàn)的解決問題的方法,是計(jì)算機(jī)科學(xué)的基礎(chǔ)”。近年來,伴隨人工智能深度學(xué)習(xí)算法取得的重大突破和大數(shù)據(jù)時(shí)代的到來,人工智能的應(yīng)用場(chǎng)景不斷拓展,人工智能時(shí)代正逐漸從想象成為現(xiàn)實(shí)。借助于海量的大數(shù)據(jù)和具備強(qiáng)大計(jì)算能力的硬件設(shè)備,擁有深度學(xué)習(xí)算法的人工智能機(jī)器可以通過自主學(xué)習(xí)和強(qiáng)化訓(xùn)練來不斷提升自身的能力,解決很多人類難以有效應(yīng)對(duì)的治理難題。伴隨人工能算法在國家和社會(huì)治理中重要性的日漸凸顯,國家和社會(huì)對(duì)于算法的依賴也逐漸加深,一種新型的權(quán)力形態(tài)——算法權(quán)力也隨之出現(xiàn)。

可以把算法權(quán)利分為四種:數(shù)據(jù)主權(quán)、算法設(shè)計(jì)權(quán)、研發(fā)的資本權(quán)和算法控制權(quán)。由于前三種權(quán)利都是單向的、算法開發(fā)者賦予算法的權(quán)利,是屬于算法開發(fā)者的,與算法分發(fā)平臺(tái)呈現(xiàn)的效果沒有直接的影響,所以本文將著重論述算法控制權(quán)。

算法控制權(quán)是雙向的,用戶是算法技術(shù)數(shù)據(jù)行為的提供者,同時(shí)又是被算法技術(shù)控制的受害者。例如我們看到“今日頭條”會(huì)通過推送算法來監(jiān)管用戶的發(fā)布和瀏覽行為,同時(shí)平臺(tái)會(huì)通過算法決策系統(tǒng)來實(shí)現(xiàn)內(nèi)容的發(fā)布去引導(dǎo)用戶。算法控制權(quán)當(dāng)然是一種天然技術(shù)賦予的權(quán)利,但算法控制權(quán)是在用戶提供數(shù)據(jù)行為的情況下才得以實(shí)現(xiàn)的,因此算法控制權(quán)既存在內(nèi)容生產(chǎn)權(quán),同時(shí)有要尊重和保護(hù)算法相對(duì)人的義務(wù)。

正因?yàn)槿绱耍惴夹g(shù)被認(rèn)為是一種雙刃劍,一方面算法能夠做出精準(zhǔn)的行為預(yù)測(cè),可以為管理者提供非常好的循環(huán)干預(yù)機(jī)制;對(duì)于公共行為主體來說,可以通過對(duì)大數(shù)據(jù)的應(yīng)用來解決社會(huì)治理問題,對(duì)于私人主體來說可以借助數(shù)據(jù)來提供個(gè)性化和定制化的服務(wù);另一方面,算法技術(shù)存在著諸如利益和風(fēng)險(xiǎn)不對(duì)稱等問題,而且由于算法技術(shù)發(fā)展的超前性,新科技的創(chuàng)造者具備不對(duì)稱的信息和技術(shù)優(yōu)勢(shì),能夠按照自身利益的需求來塑造在平臺(tái)上的算法推送邏輯和社會(huì)系統(tǒng),這帶來了監(jiān)管的不確定性。人們要通過集體行為去承擔(dān)社會(huì)責(zé)任,通過這樣的方式規(guī)制算法權(quán)利,可以讓我們能夠?qū)λ惴ǚ职l(fā)系統(tǒng)的意義和價(jià)值得到更深刻的思考。

數(shù)據(jù)挖掘常用的軟件有哪些?

1、Rapid Miner

Rapid Miner是一個(gè)數(shù)據(jù)科學(xué)軟件平臺(tái),為數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、文本挖掘和預(yù)測(cè)分析提供一種集成環(huán)境。它是領(lǐng)先的數(shù)據(jù)挖掘開源系統(tǒng)之一。該程序完全用Java編程語言編寫。該程序提供了一個(gè)選項(xiàng),以便用戶試用大量可任意嵌套的操作符,這些操作符在XML文件中有詳細(xì)說明,可由Rapid Miner的圖形用戶界面來構(gòu)建。

2、Orange

Orange是一個(gè)開源數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具包。它有一個(gè)可視化編程前端,可用于探索性數(shù)據(jù)分析和交互式數(shù)據(jù)可視化。Orange是一個(gè)基于組件的可視化編程軟件包,用于數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和數(shù)據(jù)分析。Orange組件稱為窗口組件,范圍廣泛:從簡單的數(shù)據(jù)可視化、子集選擇和預(yù)處理,到學(xué)習(xí)算法和預(yù)測(cè)建模的評(píng)估,不一而足。Orange的可視化編程通過界面來進(jìn)行,其中工作流程通過連接預(yù)定義或用戶設(shè)計(jì)的窗口組件來創(chuàng)建,而高級(jí)用戶可以將Orange用作Python庫,以便操縱數(shù)據(jù)和更改窗口組件。

3、Kaggle

Kaggle是世界上數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)者社區(qū)。Kaggle以開設(shè)機(jī)器學(xué)習(xí)競(jìng)賽起家,但現(xiàn)在逐漸變成基于公共云的數(shù)據(jù)科學(xué)平臺(tái)。Kaggle是一個(gè)平臺(tái),有助于解決難題、招募強(qiáng)大的團(tuán)隊(duì)并宣傳數(shù)據(jù)科學(xué)的力量。

4、Weka

懷卡托知識(shí)分析環(huán)境(Weka)是新西蘭懷卡托大學(xué)開發(fā)的一套機(jī)器學(xué)習(xí)軟件。該軟件用Java編寫。它含有一系列面向數(shù)據(jù)分析和預(yù)測(cè)建模的可視化工具和算法,附帶圖形用戶界面。Weka支持幾種標(biāo)準(zhǔn)數(shù)據(jù)挖掘任務(wù),更具體地說是指數(shù)據(jù)預(yù)處理、聚類、分類、回歸、可視化和特征選擇。

關(guān)于數(shù)據(jù)挖掘常用的軟件有哪些,青藤小編就和您分享到這里了。如果你對(duì)大數(shù)據(jù)工程有濃厚的興趣,希望這篇文章能夠?qū)δ阌兴鶐椭?。如果您還想了解更多數(shù)據(jù)分析師、大數(shù)據(jù)工程師的技巧及素材等內(nèi)容,可以點(diǎn)擊本站的其他文章進(jìn)行學(xué)習(xí)。

java偽隨機(jī)數(shù)是否有可以預(yù)測(cè)的方法?

只要知道了種子,就能預(yù)測(cè)了

java的偽隨機(jī)數(shù)的生成完全依賴于種子

如果有相同的種子,那么生成的偽隨機(jī)數(shù)序列就會(huì)相同

Java簡單算法問題

初步做了一個(gè)出來,但是效率并不是很高,前100個(gè)計(jì)算速度還可以,但是往后就很慢了。如果什么時(shí)候有空的話可以再看看,先給你代碼吧,不知道能不能幫上你

public?class?AlisandaNumber?{

private?static?final?int?MAX_INDEX?=?1000;?//?可以先把這個(gè)常量改為1-6,驗(yàn)證正確性

public?static?void?main(String[]?args)?{

int?a?=?0;

int?index?=?0;

while(index??MAX_INDEX)?{

a?+=?6;?//?每次循環(huán)自增6,由題目規(guī)律可知A是6的倍數(shù)

boolean?breakOut?=?false;

//?最大的約數(shù)為此數(shù)的平方根,因?yàn)槿绻莾蓚€(gè)平方根相乘的話,剩下的就只有1了

int?maxNum?=?(int)?Math.ceil(Math.sqrt(a));

p:

for(int?p?=?1;?p?=?maxNum;?p?++)?{

if(a?%?p?!=?0)?{

continue;?//?如果不是約數(shù)的話,沒必要考慮,下同

}

//?最大約數(shù)為平方根的相反數(shù),原理同上

maxNum?=?(int)?Math.ceil(Math.sqrt(a?/?p));

for(int?q?=?-1;?q?=?-maxNum;?q?--)?{?//?q和r必為負(fù)數(shù)

if(a?%?q?!=?0)?{

continue;

}

int?r?=?a?/?(p?*?q);

int?nonZero?=?p?*?q?+?p?*?r?+?q?*?r;

if?(nonZero?==?0)?{

continue;

}

if((a?==?p?*?q?*?r)??(a?==?(p?*?q?*?r)?/?(nonZero)))?{

index?++;

breakOut?=?true;

break?p;?//?跳出外層循環(huán)

}

}

}

if(breakOut)?{

System.out.println(String.format("第%d個(gè)壓力山大數(shù)是%d",?index,?a));

}

}

}

}

本文標(biāo)題:預(yù)測(cè)算法JAVA代碼,java預(yù)測(cè)模型
網(wǎng)站路徑:http://sd-ha.com/article42/hcoshc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、搜索引擎優(yōu)化、Google、網(wǎng)站建設(shè)網(wǎng)站維護(hù)、自適應(yīng)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)