久久久精品一区ed2k-女人被男人叉到高潮的视频-中文字幕乱码一区久久麻豆樱花-俄罗斯熟妇真实视频

怎樣用Python來分析b站彈幕-創(chuàng)新互聯(lián)

怎樣用Python來分析b站彈幕,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

創(chuàng)新互聯(lián)公司是專業(yè)的福山網(wǎng)站建設公司,福山接單;提供成都網(wǎng)站制作、網(wǎng)站建設,網(wǎng)頁設計,網(wǎng)站設計,建網(wǎng)站,PHP網(wǎng)站建設等專業(yè)做網(wǎng)站服務;采用PHP框架,可快速的進行福山網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!

用Python分析b站彈幕

紙巾再濕也是干垃圾?瓜子皮再干也是濕垃圾??最近大家都被垃圾分類折磨的不行,傻傻的你是否拎得清?自2019.07.01開始,上海已率先實施垃圾分類制度,違反規(guī)定的還會面臨罰款。

為了避免巨額損失,我決定來b站學習下垃圾分類的技巧。為什么要來b站,聽說這可是當下年輕人最流行的學習途徑之一。

打開b站,搜索了下垃圾分類,上來就被這個標題嚇(吸)到(引)了:在上海丟人的正確姿勢。

怎樣用Python來分析b站彈幕

當然,這里的丟人非彼丟人,指的是丟垃圾的丟。

點開發(fā)現(xiàn),原來是一段對口相聲啊,還是兩個萌妹子(AI)的對口相聲,瞬間就來了興趣,闡述的是關于如何進行垃圾分類的。

怎樣用Python來分析b站彈幕

怎樣用Python來分析b站彈幕

怎樣用Python來分析b站彈幕

看完一遍又一遍,簡直停不下來了,已經(jīng)開啟了洗腦模式,畢竟視頻很好玩,視頻中的彈幕更是好玩!

獨樂樂不如眾樂樂,且不如用Python把彈幕保存下來,做個詞云圖?就這么愉快地決定了!

1 環(huán)境

操作系統(tǒng):Windows

Python版本:3.7.3

2 需求分析

我們先需要通過<F12>開發(fā)調(diào)試工具,查詢這條視頻的彈幕的 cid 數(shù)據(jù)。

怎樣用Python來分析b站彈幕

拿到 cid 之后,再填入下面的鏈接中。

http://comment.bilibili.com/{cid}.xml

打開之后,就可以看到該視頻的彈幕列表。

怎樣用Python來分析b站彈幕

有了彈幕數(shù)據(jù)后,我們需要先將解析好,并保存在本地,方便進一步的加工處理,如制成詞云圖進行展示。

3 代碼實現(xiàn)

在這里,我們獲取網(wǎng)頁的請求使用 requests 模塊;解析網(wǎng)址借助 beautifulsoup4 模塊;保存為CSV數(shù)據(jù),這里借用 pandas 模塊。因為都是第三方模塊,如環(huán)境中沒有可以使用 pip 進行安裝。

pip install requests
pip install beautifulsoup4
pip install lxml
pip install pandas

模塊安裝好之后,進行導入

import requests
from bs4 import BeautifulSoup
import pandas as pd

請求、解析、保存彈幕數(shù)據(jù)

# 請求彈幕數(shù)據(jù)
url = 'http://comment.bilibili.com/99768393.xml'
html = requests.get(url).content
# 解析彈幕數(shù)據(jù)
html_data = str(html, 'utf-8')
bs4 = BeautifulSoup(html_data, 'lxml')
results = bs4.find_all('d')
comments = [comment.text for comment in results]
comments_dict = {'comments': comments}
# 將彈幕數(shù)據(jù)保存在本地
br = pd.DataFrame(comments_dict)
br.to_csv('barrage.csv', encoding='utf-8')

接下來,我們就對保存好的彈幕數(shù)據(jù)進行深加工。

制作詞云,我們需要用到 wordcloud 模塊、matplotlib 模塊、jieba 模塊,同樣都是第三方模塊,直接用 pip 進行安裝。

pip install wordcloud
pip install matplotlib
pip install jieba

模塊安裝好之后,進行導入,因為我們讀取文件用到了 panda 模塊,所以一并導入即可

from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import pandas as pd
import jieba

我們可以自行選擇一張圖片,并基于此圖片來生成一張定制的詞云圖。我們可以自定義一些詞云樣式,代碼如下:

# 解析背景圖片
mask_img = plt.imread('Bulb.jpg')
'''設置詞云樣式'''
wc = WordCloud(
 # 設置字體 
 font_path='SIMYOU.TTF',
 # 允許大詞匯量
 max_words = 2000,
 # 設置大號字體大小
 max_font_size = 80,
 # 設置使用的背景圖片
 mask = mask_img,
 # 設置輸出的圖片背景色
 background_color=None, mode="RGBA",
 # 設置有多少種隨機生成狀態(tài),即有多少種配色方案
 random_state=30)

接下來,我們要讀取文本信息(彈幕數(shù)據(jù)),進行分詞并連接起來:

# 讀取文件內(nèi)容
br = pd.read_csv('barrage.csv', header=None)
# 進行分詞,并用空格連起來
text = ''
for line in br[1]:
 text += ' '.join(jieba.cut(line, cut_all=False))

最后來看看我們效果圖

怎樣用Python來分析b站彈幕

有沒有感受到大家對垃圾分類這個話題的熱情,莫名喜感涌上心頭。

4 后記

這兩個AI萌妹子說的相聲很不錯,就不知道郭德綱看到這個作品會作何感想?;氐嚼诸惖脑掝},目前《上海市生活垃圾管理條例》已正式施行,不在上海的朋友們也不要太開心,住建部表示,全國其它46個重點城市也即將體驗到……哈哈哈哈哈,有趣!

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注創(chuàng)新互聯(lián)-成都網(wǎng)站建設公司行業(yè)資訊頻道,感謝您對創(chuàng)新互聯(lián)的支持。

當前名稱:怎樣用Python來分析b站彈幕-創(chuàng)新互聯(lián)
本文地址:http://sd-ha.com/article46/cdhphg.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設、企業(yè)網(wǎng)站制作、網(wǎng)站改版網(wǎng)站維護、云服務器、用戶體驗

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運營