欧美日韩激情_美女国产一区_国产精品久久久久影院日本_69xxx在线

你會用Python做數據預處理嗎?

2021-02-08    分類: python

在拿到一份數據準備做挖掘建模之前,首先需要進行初步的數據探索性分析(你愿意花十分鐘系統了解數據分析方法嗎?),對數據探索性分析之后要先進行一系列的數據預處理步驟。因為拿到的原始數據存在不完整、不一致、有異常的數據,而這些“錯誤”數據會嚴重影響到數據挖掘建模的執行效率甚至導致挖掘結果出現偏差,因此首先要數據清洗。數據清洗完成之后接著進行或者同時進行數據集成、轉換、歸一化等一系列處理,該過程就是數據預處理。一方面是提高數據的質量,另一方面可以讓數據更好的適應特定的挖掘模型,在實際工作中該部分的內容可能會占整個工作的70%甚至更多。

01、缺失值處理

由于人員錄入數據過程中或者存儲器損壞等原因,缺失值在一份數據中或多或少存在,所以首先就需要對缺失值進行處理,缺失值處理總的原則是:使用最可能的值代替缺失值,使缺失值與其他數值之間的關系保持大。具體的常用方法如下:

  • 刪除缺失值(缺失值占比很小的情況)
  • 人工填充 (數據集小,缺失值少)
  • 用全局變量填充(將缺失值填充一常數如“null”)
  • 使用樣本數據的均值或中位數填充
  • 用插值法(如拉格朗日法、牛頓法)

Python缺失值處理實例代碼:

a、判斷刪除缺失值- -isnull,notnull

  • 判斷缺失值可以用來計算缺失值占比整個數據的大小,如果占比很小可以刪除缺失值。

b、填充替換缺失值--fillna

  • 如果缺失值不可以占比很多,就不能能夠輕易的刪除缺失值,可以用上述的插值方法填充缺失值。

c、核心代碼和結果圖:

02、異常值處理

異常值是數據集中偏離大部分數據的數據。從數據值上表現為:數據集中與平均值的偏差超過兩倍標準差的數據,其中與平均值的偏差超過三倍標準差的數據(3σ原則),稱為高度異常的異常值。

  • 異常值分析方法
  • 3σ原則 (數據分布為正態分布)
  • 箱型圖分析(內限or外限)。

常用處理方法如下:

  • 直接刪除 (異常值占比小)
  • 暫且保留,待結合整體模型綜合分析
  • 利用現有樣本信息的統計量填充(均值等)

Python異常值處理實例代碼:

  • 檢驗是否符合正態分布,符合用3σ原則判斷并處理,核心代碼結果如下:

2. 當不符合正態分布時可用箱型圖分析處理,核心結果代碼如下:

你會用Python做數據預處理嗎?

你會用Python做數據預處理嗎?

03、數據標準化處理

數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化為無量綱的純數值,便于不同單位或量級的指標能夠進行比較和加權,最典型的就是數據歸一化處理就是將數據統一映射到[0,1]區間上 。

常用數據標準化方法:

  • MIN- MAX標準化(x - x_min)/(x_max-x_min)
  • z-score標準化(x-x_mean)/x_std
  • 小數定標標準化
  • 向量歸一化
  • 線性比例變換法
  • 平均值法
  • 指數轉換法

歸一化的目的:

  • 使得預處理的數據被限定在一定的范圍
  • 消除奇異樣本數據導致的不良影響

在大佬Ng的視頻課中聽過一句話,歸一化會加快梯度下降的求解速度。

應用場景說明:

  • SVM、線性回歸之類的最優化問題需要歸一化,是否歸一化主要在于是否關心變量取值;
  • 神經網絡需要標準化處理,一般變量的取值在-1到1之間,這樣做是為了弱化某些變量的值較大而對模型產生影響。一般神經網絡中的隱藏層采用tanh激活函數比sigmod激活函數要好些,因為tanh雙曲正切函數的取值[-1,1]之間,均值為0;
  • 在K近鄰算法中,如果不對解釋變量進行標準化,那么具有小數量級的解釋變量的影響就會微乎其微。

注意:沒有一種數據標準化的方法,放在每一個問題,放在每一個模型,都能提高算法精度和加快算法的收斂速度。所以對于不同的問題可能會有不同的歸一化方法。在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候,Z-score standardization表現更好。

04、數據連續屬性離散化

一些數據挖掘算法,特別是分類算法,要求數據是分類屬性形式。常常需要將連續屬性變換成分類屬性,即連續屬性離散化。 常用的離散化方法:

  • 等寬法:將屬性值域分成具有相同寬度的區間,區間的個數由數據本身的特點決定,或者由用戶指定,類似于制作頻率分布表。
  • 等頻法:將相同數量的記錄放進每個區間。
  • 基于聚類分析的方法。 通過分箱離散化、通過直方圖分析離散化、通過聚類、決策樹和相關分析離散化、標稱數據的概念分層產生。

05、總結

本文是筆者在學習數據分析過程中記錄下來的一些通用的數據預處理步驟,并且用Numpy、Pandas、Matplotlib等實現了每一種處理方法并可視化了處理結果。

標題名稱:你會用Python做數據預處理嗎?
網站地址:http://www.kartarina.com/news6/99756.html

網站建設、網絡推廣公司-創新互聯,是專注品牌與效果的網站制作,網絡營銷seo公司;服務項目有python

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

成都app開發公司
欧美日韩激情_美女国产一区_国产精品久久久久影院日本_69xxx在线
午夜精品aaa| 亚洲日本成人在线观看| 欧美影片第一页| 91麻豆福利精品推荐| 99久久久精品| 在线免费观看一区| 欧美在线视频你懂得| 欧美性色黄大片| 欧美精品自拍偷拍| 欧美一区二区性放荡片| 欧美一级久久久| 日韩欧美国产综合| 精品国产99国产精品| 欧美tickling挠脚心丨vk| 久久亚洲精精品中文字幕早川悠里| 精品欧美乱码久久久久久1区2区| 久久久精品2019中文字幕之3| 国产丝袜欧美中文另类| 亚洲欧洲日本在线| 亚洲综合清纯丝袜自拍| 日本中文字幕一区| 懂色av中文一区二区三区| 99re热这里只有精品免费视频| 91久久线看在观草草青青| 精品视频1区2区3区| 精品国产91久久久久久久妲己 | 97久久精品人人爽人人爽蜜臀 | 欧美日韩国产综合久久| 69p69国产精品| 久久久亚洲精华液精华液精华液| 亚洲视频狠狠干| 免费成人在线观看视频| 99热国产精品| 日韩欧美久久久| 亚洲精品成a人| 精品一区在线看| 在线视频综合导航| 精品福利一二区| 亚洲一区二区三区在线看| 久久精品国产99| 一本久久精品一区二区| 欧美成人乱码一区二区三区| 中文字幕五月欧美| 久久精品国产99国产精品| 91久久精品网| 国产精品福利av | 久久中文字幕电影| 亚洲一区二区三区在线| 粉嫩av一区二区三区在线播放| 3d动漫精品啪啪一区二区竹菊| 国产色婷婷亚洲99精品小说| 偷拍一区二区三区四区| 97久久精品人人做人人爽| 久久久久成人黄色影片| 日韩精品一二三| 欧美日韩国产小视频在线观看| 国产精品不卡在线| 国产精品99久久久久久似苏梦涵| 欧美人伦禁忌dvd放荡欲情| 亚洲欧美视频一区| 从欧美一区二区三区| 久久久综合激的五月天| 美腿丝袜在线亚洲一区| 欧美喷水一区二区| 亚洲成人福利片| 欧美唯美清纯偷拍| 樱花影视一区二区| 99精品1区2区| 亚洲另类春色国产| 99久久精品国产麻豆演员表| 久久精品视频一区| 国产精品影视网| 久久精品男人天堂av| 国产精品系列在线播放| 精品1区2区在线观看| 日本网站在线观看一区二区三区| 精品视频在线免费观看| 无码av免费一区二区三区试看| 欧美午夜片在线观看| 亚洲一区二区三区在线| 欧美人体做爰大胆视频| 日本亚洲三级在线| 久久精品人人爽人人爽| 国产成人精品一区二| 国产精品欧美综合在线| 91蜜桃在线观看| 亚洲成人免费影院| 欧美一级高清片在线观看| 国产呦萝稀缺另类资源| 国产午夜精品福利| 成人福利视频在线| 亚洲香肠在线观看| 欧美一区二区精美| 国产电影精品久久禁18| 亚洲天堂福利av| 欧美日本在线观看| 国产一区欧美日韩| 亚洲天堂免费在线观看视频| 欧美日韩成人在线一区| 国产在线精品一区二区| 亚洲人成小说网站色在线| 欧美久久一区二区| 国产成人av电影| 亚洲国产一区在线观看| 精品国产网站在线观看| 色噜噜狠狠色综合中国| 麻豆精品视频在线观看视频| 国产精品麻豆视频| 91精品国产综合久久久蜜臀粉嫩| 狠狠色狠狠色合久久伊人| 亚洲天堂精品视频| 精品久久久久久久久久久久久久久| 成人av在线资源网| 免费成人av在线| 亚洲美女视频一区| 久久综合九色欧美综合狠狠 | 天天操天天色综合| 中文字幕欧美三区| 欧美一级专区免费大片| www.日韩精品| 国产一区二区三区综合| 亚洲国产综合色| 中文字幕在线观看不卡视频| 日韩午夜激情av| 欧美日韩国产高清一区二区| 成人午夜碰碰视频| 国产真实乱子伦精品视频| 亚洲主播在线观看| 日韩一区欧美一区| 久久在线免费观看| 91精品国产色综合久久久蜜香臀| 99久久精品情趣| 成人性生交大片| 国产精品一二三在| 久久99国产精品久久99果冻传媒| 亚洲电影一区二区三区| 亚洲视频每日更新| 中文字幕亚洲精品在线观看| 国产日产亚洲精品系列| 精品久久久久一区二区国产| 欧美一区二区三区视频免费| 欧美日韩一区高清| 欧美日韩免费不卡视频一区二区三区| 成人av影视在线观看| 国产91高潮流白浆在线麻豆| 韩国av一区二区三区四区| 美日韩一级片在线观看| 欧美a级理论片| 美女视频黄 久久| 裸体歌舞表演一区二区| 久久精品国产久精国产| 国产制服丝袜一区| 国产不卡免费视频| 成人免费av网站| av在线不卡免费看| 91一区在线观看| 色综合久久88色综合天天6| 91久久精品一区二区三| 欧美日韩一卡二卡三卡 | 精品一区二区三区免费播放 | 91最新地址在线播放| 91片黄在线观看| 欧美少妇一区二区| 欧美高清视频不卡网| 日韩三级视频在线看| 久久一区二区三区四区| 久久久精品影视| 亚洲欧美日韩精品久久久久| 亚洲成人精品一区| 久久精品国产精品亚洲精品| 国产毛片精品视频| 99久久精品99国产精品| 欧美日韩一区三区四区| 精品国产乱子伦一区| 国产精品理论在线观看| 亚洲成人第一页| 国产精品综合网| 日本精品免费观看高清观看| 欧美精品99久久久**| 久久青草欧美一区二区三区| 国产精品免费视频观看| 亚洲高清久久久| 国产一区二区三区黄视频 | 亚洲第一av色| 国产精品一卡二| 欧美日韩国产精品自在自线| 久久久91精品国产一区二区三区| 国产精品视频观看| 日本亚洲一区二区| av爱爱亚洲一区| 精品免费日韩av| 亚洲在线一区二区三区| 狠狠色丁香久久婷婷综合丁香| 成年人网站91| 欧美一卡在线观看| 中文字幕中文乱码欧美一区二区| 日本特黄久久久高潮| 在线观看日韩精品| 欧美国产日韩一二三区| 蜜臀精品一区二区三区在线观看|