人工智能專(zhuān)業(yè)主要學(xué)習(xí)哪些知識(shí)

作者： IT人劉俊明 2020-04-06 14:57:34

隨著當(dāng)前人工智能技術(shù)的快速發(fā)展，行業(yè)領(lǐng)域?qū)τ谌斯ぶ悄苋瞬诺男枨罅恳苍诓粩嘣龃螅砸徊糠指咝Ｒ查_(kāi)始把人工智能人才培養(yǎng)從研究生教育階段向本科教育階段覆蓋，相信在產(chǎn)業(yè)結(jié)構(gòu)升級(jí)的推動(dòng)下，未來(lái)人工智能人才的發(fā)展空間會(huì)非常大。

很多程序員都不喜歡字符串，我也是，字符串處理起來(lái)太麻煩了，而且字符串也比較占空間。舉個(gè)例子，一個(gè)字符要占1個(gè)字節(jié)，但一般常用字符就那么幾個(gè)(例如我們常要求用戶(hù)名只能是大小寫(xiě)字母與數(shù)字)。另外一個(gè)問(wèn)題，就是數(shù)據(jù)庫(kù)查詢(xún)的時(shí)候，用字符串查詢(xún)太不方便了。今天我們來(lái)了解下，數(shù)據(jù)庫(kù)中的字符串查詢(xún)問(wèn)題。

[[321170]]

在PC互聯(lián)網(wǎng)時(shí)代，我們的很多賬戶(hù)都需要綁定電子郵箱，我們偶爾需要使用電子郵箱，也就是字符串來(lái)進(jìn)行數(shù)據(jù)查詢(xún)，為了保證查詢(xún)效率，我們通常要對(duì)字符串字段建立索引。

我們都知道，在InnoDB中，通常使用的是B+樹(shù)索引，如果索引的類(lèi)型是字符串，那么我們可能會(huì)面臨這樣一個(gè)問(wèn)題，索引的長(zhǎng)度會(huì)變得特別長(zhǎng)，索引的長(zhǎng)度過(guò)長(zhǎng)會(huì)讓索引的索引占用更多的存儲(chǔ)空間，同時(shí)也會(huì)增加索引的維護(hù)成本。通常我們使用字符串索引，只會(huì)使用前面若干個(gè)字符，假如用戶(hù)的郵箱的開(kāi)頭是26個(gè)字母，并且用戶(hù)名隨機(jī)均勻分布的，那么我們即使使用第一個(gè)字符做索引，也能減少25/26的掃描量，假如使用前2個(gè)字符，就可以減少675/676次掃描。所以，即便我們只用前面的若干個(gè)字符，也能大大地減少數(shù)據(jù)庫(kù)的掃描，提升查詢(xún)速度。

但是在現(xiàn)實(shí)生活中，用戶(hù)名往往不是隨機(jī)分布的，像a開(kāi)頭的用戶(hù)往往占比較大。有些字符串的字段，往往開(kāi)頭是相似的，例如居民的身份證號(hào)，前面幾位數(shù)通常是省份跟城鎮(zhèn)，教育局的學(xué)生信息，通常id是入學(xué)時(shí)間加月份，索引的選擇最好要滿(mǎn)足唯一性，我們最好能使用更有特色的字段進(jìn)行索引的建立。

例如身份證的問(wèn)題，我們知道，身份證的前6位通常是地區(qū)信息，全國(guó)的省市區(qū)加起來(lái)也就是幾千個(gè)，而身份證的后六位是生日的日信息跟4個(gè)隨機(jī)數(shù)字。那么，僅有30萬(wàn)分之一的概率后六位的數(shù)字是相同的。也就是說(shuō)，如果把身份證號(hào)碼逆序存儲(chǔ)后，取前6位作為索引，可以減少近百分的數(shù)據(jù)掃描量，從而大大提升掃描的效率。

另外一種方法，就是建立哈希索引而不是B+樹(shù)索引，哈希索引的好處是在于查詢(xún)特定字符串的時(shí)候，幾乎都只要查詢(xún)一行數(shù)據(jù)。但是哈希索引的弊端是不支持范圍查詢(xún)，也不支持字符串匹配，假如的業(yè)務(wù)沒(méi)有這樣的場(chǎng)景，那可以使用哈希索引。

好了，今天我們簡(jiǎn)單地介紹了Mysql數(shù)據(jù)庫(kù)中，字符串索引的使用。不知道對(duì)你是否有所啟發(fā)，歡迎大家關(guān)注我，共同學(xué)習(xí)，共同進(jìn)步。

責(zé)任編輯：華軒來(lái)源：今日頭條