精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

終于把機器學習中的特征工程搞懂了!!

人工智能 機器學習
特征工程是機器學習中的重要步驟之一,其目的是通過對原始數據進行處理、變換或生成新的特征,以增強模型的學習能力和預測性能。

特征工程是機器學習中的重要步驟之一,其目的是通過對原始數據進行處理、變換或生成新的特征,以增強模型的學習能力和預測性能。

特征工程直接影響機器學習模型的表現,因為模型的效果很大程度上取決于輸入數據的質量和特征的選擇。

下面,我們來分享10個常用的特征工程技術。

1.插補

插補是處理數據集中的缺失值的一種常用方法。

大多數機器學習算法無法直接處理缺失值,因此在特征工程中必須解決這個問題。

插補方法根據已有的數據推測或生成合理的替代值,以填補缺失的數據。

常見插補方法:

  • 均值插補,將缺失值用該特征的均值替代,適用于數值型數據。
  • 中位數插補,用中位數替代缺失值,適用于具有異常值的數值數據,因為中位數對極端值不敏感。
  • 眾數插補,對于類別型數據,使用該特征的眾數(最常出現的值)進行插補。
  • K近鄰插補,基于 K 最近鄰算法,用與缺失值最近的 K 個相似樣本的平均值進行插補。
  • 插值,對時間序列或連續數據,可以使用線性插值或多項式插值方法進行插補。

優缺點

  • 插補可以讓數據集保持完整,但如果插補策略不當,可能會引入偏差或噪聲,影響模型的性能。
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import gensim.downloader as api 
from gensim.models import Word2Vec 
from sklearn.pipeline import Pipeline 
from sklearn.decomposition import PCA 
from sklearn.datasets import load_iris 
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.preprocessing import MinMaxScaler, StandardScaler 


data = pd.DataFrame({
    'doors': [2, np.nan, 2, np.nan, 4],
    'topspeed': [100, np.nan, 150, 200, np.nan],
    'model': ['Daihatsu', 'Toyota', 'Suzuki', 'BYD','Wuling']
})

doors_imputer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value=0))
])

topspeed_imputer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median'))
])

pipeline = ColumnTransformer(
    transformers=[
        ('doors_imputer', doors_imputer, ['doors']),
        ('topspeed_imputer', topspeed_imputer, ['topspeed'])
    ],
    remainder='passthrough'
)

transformed = pipeline.fit_transform(data)

transformed_df = pd.DataFrame(transformed, columns=['doors', 'topspeed', 'model'])

圖片

2.分箱

分箱是將連續型數值特征離散化的過程,通過將數值范圍劃分為多個區間或“箱”,將原始數值轉換為離散的類別。

常見的分箱方法

  • 等寬分箱,將數值區間按等寬度分成若干個區間,適合均勻分布的數據。
  • 等頻分箱,將數值按頻數分箱,每個箱中的樣本數大致相同,適用于不均勻分布的數據。
  • 自定義分箱,根據業務邏輯或數據特點,自定義分箱的邊界。

應用場景

  • 在信用評分等領域,通過分箱處理連續型變量,可以減少數據的噪聲,增加模型的穩健性。
np.random.seed(42)
data = pd.DataFrame({'age' : np.random.randint(0, 100, 100)})
data['category'] = pd.cut(data['age'], [0, 2, 11, 18, 65, 101], labels = ['infants', 'children', 'teenagers', 'adults', 'elders'])
print(data)
print(data['category'].value_counts())
data['category'].value_counts().plot(kind='bar')

3.對數變換

對數變換是一種數值轉換方法,用于處理數據中呈現偏態分布的特征,將其轉換為更接近正態分布的數據形式。

對數變換可以減小大值的影響,壓縮特征的數值范圍。

應用場景

  • 處理右偏分布的特征,如收入、價格等數據。
  • 適用于減少數據中極大值的影響,避免模型對大值的過度關注。
rskew_data = np.random.exponential(scale=2, size=100)

log_data = np.log(rskew_data)

plt.title('Right Skewed Data')
plt.hist(rskew_data, bins=10)
plt.show()
plt.title('Log Transformed Data')
plt.hist(log_data, bins=20)
plt.show()

4.縮放

縮放是將特征的數值范圍轉換到某一固定區間內的過程。

常見的縮放方法

  • 標準化將特征值縮放為均值為 0,標準差為1的標準正態分布。公式為:

其中,μ是均值,σ是標準差。

  • 歸一化
    將特征縮放到 [0, 1] 范圍內。
    公式為:

應用場景

  • 縮放對于基于距離的算法(如KNN、SVM)和梯度下降優化的算法特別重要,因為特征值的尺度會影響模型的性能。
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)

scaler = MinMaxScaler()
minmax = scaler.fit_transform(data)

scaler = StandardScaler()
standard = scaler.fit_transform(data)

df = pd.DataFrame({'original':data.flatten(),'Min-Max Scaling':minmax.flatten(),'Standard Scaling':standard.flatten()})
df

5.獨熱編碼

獨熱編碼是一種將類別型變量轉換為二進制特征的編碼方式。

每個類別值被轉換為一個獨立的二進制特征,這些特征值為0或1,表示該樣本是否屬于對應的類別。

舉例

對于類別型特征 “顏色” = {紅,藍,綠},獨熱編碼會將其轉換為三個新特征

  • 紅:1, 0, 0
  • 藍:0, 1, 0
  • 綠:0, 0, 1

應用場景

  • 獨熱編碼適用于無序的類別型數據,如國家、城市、產品種類等。
  • 適用于不具備自然排序關系的特征。

優缺點

  • 優點:可以避免類別之間的錯誤關系,適合沒有順序的分類變量。
  • 缺點:當類別數過多時,會導致維度爆炸
data = pd.DataFrame({'models':['toyota','ferrari','byd','lamborghini','honda','tesla'],
                    'speed':['slow','fast','medium','fast','slow','medium']})
data = pd.concat([data, pd.get_dummies(data['speed'], prefix='speed')],axis=1)
data

6.目標編碼

目標編碼是一種處理類別型變量的編碼方式,通過用該類別與目標變量的統計信息(如均值、概率)來替代類別值。

通常用于高基數的類別變量,避免獨熱編碼導致維度過高的問題。

舉例

假設目標是二分類問題,對于類別型特征“城市”,可以用每個城市對應的目標變量均值來替換原始的類別值。

例如,城市A的目標變量均值為0.7,城市B的均值為0.3,城市C的均值為0.5。

應用場景

  • 適用于高基數類別型變量(如用戶ID、產品ID等),特別是在類別與目標變量有顯著關系時。

注意事項

  • 為了避免數據泄露(即使用目標值信息),需要對訓練集和測試集分別進行編碼,或者使用交叉驗證技術。
fruits = ['banana','apple','durian','durian','apple','banana']
price = [120,100,110,150,140,160]
data = pd.DataFrame({
  'fruit': fruits,
  'price': price
})
data['encoded_fruits'] = data.groupby('fruit')['price'].transform('mean')
data

7.主成分分析

PCA 是一種線性降維方法,通過將高維數據投影到一個低維空間,同時盡量保留原始數據的方差信息。

PCA 通過計算數據的協方差矩陣,找到數據的主成分(特征向量),然后選擇前幾個主成分作為新的特征。

步驟

  1. 標準化數據。
  2. 計算協方差矩陣。
  3. 計算協方差矩陣的特征值和特征向量。
  4. 根據特征值大小選擇前K個特征向量作為主成分。
  5. 將原始數據投影到新的主成分上。

應用場景

  • PCA常用于高維數據集的降維,如圖像、基因數據,目的是減少特征數量,降低計算復雜度,同時保留最重要的信息。
iris_data = load_iris()
features = iris_data.data
targets = iris_data.target

pca = PCA(n_compnotallow=2)
pca_features = pca.fit_transform(features)

for point in set(targets):
    plt.scatter(pca_features[targets == point, 0], pca_features[targets == point,1], label=iris_data.target_names[point])
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.title('PCA on Iris Dataset')
plt.legend()
plt.show()

8.特征聚合

特征聚合是一種通過聚合現有特征來生成新特征的技術。

聚合可以通過多種方式實現,如計算平均值、總和、最大值、最小值等。

特征聚合特別適合處理時間序列數據或分組數據。

應用場景

  • 在時間序列數據中,可以對某一特征在多個時間窗口上計算統計量,如移動平均、累計總和等。
  • 在分組數據中,可以對每個用戶的購買記錄進行聚合,生成新的特征(如總購買金額、平均購買頻率等)。
quarter = ['Q1','Q2','Q3','Q4']
car_sales = [10000,9850,13000,20000]
motorbike_sales = [14000,18000,9000,11000]
sparepart_sales = [5000, 7000,3000, 10000]

data = pd.DataFrame({'car':car_sales,
    'motorbike':motorbike_sales,
    'sparepart':sparepart_sales}, index=quarter)
    
data['avg_sales'] = data[['car','motorbike','sparepart']].mean(axis=1).astype(int)
data['total_sales'] = data[['car','motorbike','sparepart']].sum(axis=1).astype(int)
data

9.TF-IDF

TF-IDF 是一種衡量文本中詞匯重要性的特征工程技術,廣泛應用于自然語言處理(NLP)任務。

它通過計算詞頻(TF)和逆文檔頻率(IDF)來評估某個詞在文本中的重要性:

  • 詞頻(TF),某個詞在文檔中出現的頻率。
  • 逆文檔頻率(IDF),表示詞在所有文檔中出現的稀有程度,常見詞會被削弱。

TF-IDF 公式:

其中 N 是文檔總數, 是詞 t 出現在多少個文檔中的次數。

texts = ["I eat rice with eggs.",
        "I also love to eat fried rice. Rice is the most delicious food in the world"]

vectorizer = TfidfVectorizer()
tfidfmatrix = vectorizer.fit_transform(texts)
features = vectorizer.get_feature_names_out()
data = pd.DataFrame(tfidfmatrix.toarray(), columns=features)

print("TF-IDF matrix")
data

10.文本嵌入

文本嵌入是將文本數據轉化為數值向量的技術,目的是將語義信息保留在低維向量空間中,使其能夠被機器學習模型處理。

常見的文本嵌入方法有:

  • Word2Vec,將詞映射為向量,類似語義的詞會在向量空間中更接近。
  • GloVe,基于共現矩陣生成詞向量,保持詞語之間的全局關系。
  • BERT,上下文感知的詞向量模型,能夠捕捉詞在不同上下文中的含義。

文本嵌入可以捕捉文本中的語義信息,使模型能夠理解文本間的關系。

corpus = api.load('text8') 
model = Word2Vec(corpus) 
dog = model.wv['dog']
print("Embedding vector for 'dog':\n", dog)

責任編輯:華軒 來源: 程序員學長
相關推薦

2024-10-08 10:16:22

2024-10-08 15:09:17

2024-10-28 00:00:10

機器學習模型程度

2025-01-20 09:21:00

2024-12-26 00:34:47

2024-10-30 08:23:07

2025-01-15 11:25:35

2024-08-23 09:06:35

機器學習混淆矩陣預測

2024-10-14 14:02:17

機器學習評估指標人工智能

2024-09-18 16:42:58

機器學習評估指標模型

2024-11-05 12:56:06

機器學習函數MSE

2024-11-25 08:20:35

2025-01-20 09:00:00

2025-01-07 12:55:28

2025-02-17 13:09:59

深度學習模型壓縮量化

2024-09-23 09:12:20

2024-07-17 09:32:19

2024-12-03 08:16:57

2024-10-16 07:58:48

2025-07-15 10:41:44

點贊
收藏

51CTO技術棧公眾號

中文字幕乱码人妻综合二区三区| 成人免费看片网址| 超碰人人干人人| 国产精品3区| 亚洲影院理伦片| 日韩av电影免费在线| 国产三级视频在线播放| 亚洲成人资源| 中文字幕av一区二区三区谷原希美| 欧美成人手机在线视频| 2021中文字幕在线| 国产精品网站在线观看| 成人免费看片网站| 中文字幕人妻一区二区三区视频| 欧美日韩中文| 亚洲欧美成人一区二区在线电影| 一级黄色在线播放| 成人做爰视频www网站小优视频| 亚洲欧洲av色图| 欧美一区二区福利| 日韩在线视频免费| 激情五月播播久久久精品| 欧美中文在线免费| 日本熟妇一区二区| 久久久9色精品国产一区二区三区| 日韩精品免费在线| 日本中文字幕精品| 桃花岛成人影院| 亚洲国产欧美在线人成| 一区二区三区av在线| 美丽的姑娘在线观看免费动漫| 国内成人免费视频| 国产精品一区av| 日本视频网站在线观看| 亚洲区国产区| 欧美国产中文字幕| 老女人性淫交视频| 亚洲澳门在线| www.日本久久久久com.| 黄色三级生活片| 夜夜春成人影院| 亚洲精品在线观看视频| 久久黄色一级视频| 精品三级国产| 91精品国产欧美一区二区成人| 亚洲天堂2018av| 主播大秀视频在线观看一区二区| 欧美日韩中文字幕在线| 成人午夜精品久久久久久久蜜臀| 欧洲中文在线| 亚洲一二三区视频在线观看| 成人污网站在线观看| 成人日批视频| 尤物视频一区二区| 高清无码一区二区在线观看吞精| av电影高清在线观看| 亚洲色图视频免费播放| 福利在线小视频| 性欧美ⅴideo另类hd| 亚洲欧美日韩成人高清在线一区| 欧美一级免费在线观看| 老司机在线看片网av| 亚洲欧洲www| 国产一级黄色录像片| 中文av资源在线| 亚洲v日本v欧美v久久精品| 黄色a级片免费看| 55av亚洲| 欧美性生交大片免网| 日本成人黄色网| 欧美91在线|欧美| 日韩一区二区在线观看视频播放| 91人妻一区二区三区| 99亚洲乱人伦aⅴ精品| 亚洲精品久久久久久下一站| 亚洲久久久久久| 精品国产一区二区三区av片| www.日本久久久久com.| 久久久久人妻一区精品色欧美| 99伊人成综合| 国产精品网站入口| 精品人妻少妇AV无码专区| 成人av电影在线| 日韩久久不卡| 国产不卡在线| 色综合天天综合网天天看片| 亚洲最大成人在线观看| 精品国产鲁一鲁****| 亚洲精品999| 色欲狠狠躁天天躁无码中文字幕 | 欧美亚洲一区| 国产精品久久久久久久久免费看 | 中文字幕亚洲乱码熟女1区2区| 久久精品日产第一区二区| 国产免费一区二区三区在线观看| 性一交一乱一透一a级| 久久日韩精品一区二区五区| 中文字幕日韩一区二区三区不卡| 丝袜在线观看| 欧美唯美清纯偷拍| 午夜视频在线观看国产| 日韩成人三级| 性色av香蕉一区二区| 最近中文字幕在线观看视频| 国产精品一二三四区| 精品一区二区国产| 99在线播放| 欧美系列在线观看| 亚洲 欧美 日韩在线| 久久久久久免费视频| 欧美一区二三区| 精品人妻一区二区三区三区四区| 久久精品日产第一区二区三区高清版| 2021狠狠干| 亚洲精品国产嫩草在线观看| 精品福利在线导航| 四虎永久免费地址| 久久不射中文字幕| 精品无码久久久久国产| 亚洲丝袜精品| 欧美另类久久久品| 在线免费观看污视频| 欧美不卡一区| 成人av在线亚洲| 国产三级在线免费| 懂色av影视一区二区三区| 久久国产免费视频| 亚洲精品小说| 成人黄色免费网站在线观看| 国产女人在线视频| 一本久久精品一区二区| 国产伦精品一区二区三区88av| 91视频久久| 国产乱肥老妇国产一区二| 婷婷在线免费视频| 亚洲图片有声小说| 亚洲熟妇一区二区| 欧美精选一区| 91青青草免费观看| 在线看三级电影| 91麻豆精品国产91久久久更新时间| 青娱乐国产视频| 三级精品在线观看| 日本不卡一区| av高清一区| 综合国产在线观看| 亚洲熟女乱色一区二区三区久久久| 久久久99精品久久| 日本美女高潮视频| 亚洲人和日本人hd| 国产精品久久久久久久久久免费| 青青草免费在线视频| 天天爽夜夜爽夜夜爽精品视频| 人妻av一区二区| 一本久道综合久久精品| 久久久一本精品99久久精品| 亚洲深夜视频| 亚洲性日韩精品一区二区| 精品无码一区二区三区的天堂| 国产亲近乱来精品视频| 国产又大又黄又粗又爽| 欧美国产小视频| 成人观看高清在线观看免费| 成人在线免费看片| 精品免费一区二区三区| 1级黄色大片儿| 久久久午夜精品| 在线黄色免费观看| 亚洲欧美偷拍自拍| 国产伦精品一区二区三区免费视频| 免费看电影在线| 亚洲女同性videos| 中文字字幕在线中文乱码| 亚洲欧美日韩在线| 国产精品九九视频| 日韩精品福利网| 中文视频一区视频二区视频三区| 麻豆一二三区精品蜜桃| 7777精品久久久久久| 高清毛片在线看| 制服丝袜亚洲播放| 久久久久久久久久免费视频| 国产香蕉久久精品综合网| 亚洲天堂网2018| 今天的高清视频免费播放成人| 麻豆视频成人| 97久久精品一区二区三区的观看方式| 欧美日韩福利视频| 高清美女视频一区| 精品少妇一区二区三区在线播放| 国产伦精品一区二区三区视频网站 | 成人av.网址在线网站| 黑人极品ⅴideos精品欧美棵| 亚洲欧美日韩网| 国产乱码精品一区二区三区精东| 亚洲成人av福利| 国产农村妇女精品一区| 不卡av在线免费观看| 亚洲老女人av| 亚洲青色在线| 欧美日韩一区二区三区电影| 日韩电影在线观看完整免费观看| 国产日韩欧美成人| 周于希免费高清在线观看| 精品国产欧美一区二区五十路| 性感美女视频一二三| 制服丝袜日韩国产| 一级黄色在线观看| 亚洲福中文字幕伊人影院| 日本爱爱小视频| 久久久久久9999| 精品无码人妻少妇久久久久久| 久久精品免费看| 日本精品一区二区三区四区| 亚洲网址在线| 一本二本三本亚洲码| 欧美一区二区性| 另类欧美小说| 粉嫩精品导航导航| 444亚洲人体| 欧美成人高清视频在线观看| 17婷婷久久www| wwwww亚洲| 欧美大胆a视频| 久久黄色美女电影| 三级精品视频久久久久| 国产色在线 com| 亚洲欧美日韩天堂| 九色在线播放| 亚洲欧美成人网| 欧美日韩国产中文字幕在线| 亚洲精品成人免费| 少妇高潮一区二区三区69| 欧美变态tickle挠乳网站| 国产又粗又黄视频| 欧美日韩亚洲综合在线| 日韩欧美国产另类| 色狠狠一区二区| 日韩欧美在线观看免费| 日韩欧美综合在线视频| 久久久久女人精品毛片九一| 福利二区91精品bt7086| 中日韩精品视频在线观看| 香蕉加勒比综合久久| 国产精品.www| 偷偷要91色婷婷| 日本韩国欧美中文字幕| 欧美日韩国产中文字幕| 久草手机在线视频| 色综合久久久久综合99| 伊人成年综合网| 欧美色爱综合网| 91尤物国产福利在线观看| 欧美日本高清视频在线观看| 国产一区二区在线不卡| 日韩丝袜情趣美女图片| www国产一区| 亚洲第一网站男人都懂| 天堂av电影在线观看| 亚洲人成自拍网站| 91大神xh98hx在线播放| 久久精品91久久香蕉加勒比| 1024在线播放| 久久久伊人欧美| a欧美人片人妖| 国产精品黄页免费高清在线观看| 欧美激情不卡| 国产98在线|日韩| 欧美色图五月天| 日本一区二区三区视频在线播放 | 国产欧美日韩亚州综合| 影音先锋男人看片资源| 一区二区三区在线免费播放| 国产在线观看免费视频今夜| 岛国av一区二区在线在线观看| 欧美另类高清videos的特点| 日韩欧美久久一区| 免费看男男www网站入口在线 | 国产视频精品免费| 亚洲午夜精品17c| 波多野结衣一区二区三区在线| 在线不卡中文字幕| 香蕉视频网站在线| 日韩一区二区在线视频| 天堂va在线| 日本午夜在线亚洲.国产| 四虎国产精品成人免费影视| 国产精品一区二区av| 精品美女久久| 2019日韩中文字幕mv| 蜜臀av性久久久久蜜臀av麻豆| 日本一级大毛片a一| 亚洲国产高清在线| 久久久久亚洲AV| 欧美色精品天天在线观看视频| 老熟妇高潮一区二区高清视频| 亚洲天堂第二页| 欧美黑人猛交| 国产日韩中文字幕| 亚洲福利网站| 欧美日韩福利在线| 精品一区二区三区免费播放| 亚洲国产综合视频| 亚洲欧美日韩久久| 天天综合久久综合| 亚洲国产精品电影在线观看| 黄色av电影在线播放| 日本欧美黄网站| 999久久精品| 中文网丁香综合网| 日韩国产欧美在线播放| 亚洲天堂美女视频| 一区二区三区欧美在线观看| 中文字幕一区二区三区四区视频| 亚洲大尺度美女在线| jizz性欧美| 国产日韩精品在线播放| 欧美日韩色图| 88av.com| 91麻豆精品一区二区三区| 久久精品国产亚洲AV无码麻豆| 欧美日韩mp4| av影片免费在线观看| 日本成人激情视频| 亚洲va久久| 久久国产精品视频在线观看| 国产精品亚洲综合一区在线观看| 免费黄色国产视频| 欧美性生活大片视频| 免费在线国产| 日本三级韩国三级久久| 色婷婷久久久| 欧美日韩在线中文| 91热门视频在线观看| 天堂中文字幕在线观看| 亚洲国产精品人人爽夜夜爽| 国产嫩草在线视频| 国产成人亚洲欧美| 狠狠爱www人成狠狠爱综合网| 下面一进一出好爽视频| 亚洲精品乱码久久久久久日本蜜臀| 91精品国产乱码久久久| 久久精品电影网| 欧美亚洲黄色| 粉嫩av一区二区三区天美传媒| 国产成人综合在线| 久久免费视频精品| 欧美精品一区二区三区蜜臀| 岛国毛片av在线| 精品国产电影| 国产精品普通话对白| 国产交换配乱淫视频免费| 日韩欧美亚洲综合| 成人77777| 成人福利视频网| 欧美a级片网站| 黑森林av导航| 欧美性生交xxxxxdddd| 川上优的av在线一区二区| 国产精品久久婷婷六月丁香| 久久电影院7| 亚洲天堂小视频| 狠狠躁18三区二区一区| 国产污视频在线| 92国产精品视频| 国产一区二区你懂的| 国产又粗又猛又爽又黄av| 欧美日本韩国一区| 大黄网站在线观看| 欧美日韩免费高清| 国产在线精品视频| 国产香蕉视频在线| 一区二区三区视频免费| www.欧美| heyzo亚洲| 国产精品久久久久久一区二区三区 | 一区二区日本视频| 最新日韩免费视频| 欧美sm美女调教| 欧美大电影免费观看| 国产又爽又黄ai换脸| jlzzjlzz亚洲日本少妇| 精品乱码一区内射人妻无码 | 中文在线а√在线8| 亚洲7777| 成人免费av在线| 中文字幕男人天堂| 久久久久久国产精品| 国产综合久久久| 亚洲熟女一区二区三区| 色欧美日韩亚洲| 中文字幕免费高清电视剧网站在线观看| 精品亚洲第一| 国产电影精品久久禁18| 亚洲大尺度在线观看| 欧美夫妻性生活视频| 第一会所亚洲原创| 午夜久久久久久久| 日韩欧美中文一区| 国精品产品一区|