在 Python 里用 Rust:讓 Python 再次強大!

什么是 Rust?
Rust 屬于低層語言,程序員需要更貼近機器的真實工作方式來思考。
舉例:整數類型按字節位寬區分,對應 CPU 支持的類型。直覺上你或許會說:在 Rust 里 a + b 就是“一條機器指令”。但編譯鏈太復雜,這種說法只在粗略意義上成立。
Rust 的目標是零成本抽象:許多高級抽象在運行期會被編譯器“抹平”,不額外付費。
例如:對象默認分配在棧上(除非你顯式要求堆分配),因此創建原生對象沒有運行期開銷(盡管初始化仍然需要)。
最后,Rust 是內存安全語言。別的語言也可能提供內存安全或零成本抽象,但往往不是同一類。 內存安全并不代表“永不違規”,而是僅有兩種途徑會出事:
- 編譯器報錯;
- 你顯式寫了
unsafe的代碼。
標準庫里確實有一些 unsafe,但遠少于多數人的想象。這并不削弱前述結論:除非你(少數場景里)必須手寫 unsafe,大多數違規來自底層基礎設施而非業務面。
為什么要用 Rust?
Rust 誕生是為同時追求效率與內存安全。在互聯環境里,這個目標越來越關鍵。
典型場景:底層協議解析。輸入常來自不可信源,既要快,又要穩。
這聽起來像瀏覽器在做的事?沒錯。Rust 來自 Mozilla 基金會,最初就是為了改進 Firefox。
如今不止瀏覽器:常見的微服務同樣要快速解析不可信數據并且保證安全。
示例:統計字符
為理解“把 Rust 包一層給 Python 用”的例子,我們先設定一個問題,滿足:
- 足夠簡單;
- 能寫出高性能循環;
- 有點實際價值。
具體問題:判斷某字符在字符串里是否出現超過 X 次。這個需求用“高效正則”未必好寫;即便用 Numpy 等技巧,也常需要整串掃描,而直覺算法在低層語言里會更快且更易讀。
為了展示 Rust 的一些點,我們再加兩種“重置計數”的變體:
- 遇到換行重置(即“某行內是否超過 X 次?”)
- 遇到空白重置(即“某個單詞內是否超過 X 次?”)
枚舉(enum)
Rust 的枚舉很強大。這里用一個“三選一”的簡單枚舉,表示何時重置計數:
#[derive(Copy)]
enum Reset {
NewlinesReset,
SpacesReset,
NoReset,
}結構體(struct)
結構體有點像 Python 的 dataclass,但能做的更復雜。
#[pyclass]
struct Counter {
what: char,
min_number: u64,
reset: Reset,
}實現塊(impl)
通過 impl 給結構體加方法。本例里方法再調用外部函數,方便拆分邏輯;復雜場景下編譯器會內聯,提升可讀性同時不增加運行成本。
#[pymethods]
impl Counter {
#[new]
fn new(what: char, min_number: u64, reset: Reset) -> Self {
Counter{what: what, min_number: min_number, reset: reset}
}
fn has_count(
&self,
data: &str,
) -> bool {
has_count(self, data.chars())
}
}函數
Rust 變量默認不可變;計數 current_count 需要變化,所以要用 mut。
fn has_count(cntr: &Counter, chars: std::str::Chars) -> bool {
let mut current_count : u64 = 0;
for c in chars {
if got_count(cntr, c, &mut current_count) {
return true;
}
}
false
}循環逐字符處理,并調用 got_count。這也演示了可變引用的傳遞:調用方與被調方都要顯式標注可變,修改意圖更清晰。
計數邏輯
重置 → 自增 → 比較閾值。Rust 的語句序列以最后一個表達式的值為結果。
fn got_count(cntr: &Counter, c: char, current_count: &mut u64) -> bool {
maybe_reset(cntr, c, current_count);
maybe_incr(cntr, c, current_count);
*current_count >= cntr.min_number
}重置
這里用到了模式匹配。完整講解可以開一門課——本例只匹配元組的若干情形:
fn maybe_reset(cntr: &Counter, c: char, current_count: &mut u64) -> () {
match (c, cntr.reset) {
('\n', Reset::NewlinesReset) | (' ', Reset::SpacesReset)=> {
*current_count = 0;
}
_ => {}
};
}自增
按需比較字符并累加:
fn maybe_incr(cntr: &Counter, c: char, current_count: &mut u64) -> (){
if c == cntr.what {
*current_count += 1;
};
}
注:為講解直觀,本文代碼偏教學取向,并非最佳實踐或完美 API 設計范式。
把 Rust 包給 Python 用
可以使用 PyO3。這個 Rust crate 通過注解把 Rust 類型/方法暴露為 Python 擴展,讓兩端更易同時迭代。
引用 PyO3
use pyo3::prelude::*;包裝枚舉
派生 Clone/Copy 便于在 Python 側使用與傳遞。
#[pyclass]
#[derive(Clone)]
#[derive(Copy)]
enum Reset {
/* ... */
}包裝結構體
用 #[pyclass] 生成必要接口。
#[pyclass]
struct Counter {
/* ... */
}包裝實現(構造器)
#[pymethods] + #[new] 指定 Python 側的構造方法。
#[pymethods]
impl Counter {
#[new]
fn new(what: char, min_number: u64,
reset: Reset) -> Self {
Counter{what: what,
min_number: min_number, reset: reset}
}
/* ... */
}定義模塊
用 #[pymodule] 指定初始化函數與導出內容。
#[pymodule]
fn counter(_py: Python, m: &PyModule
) -> PyResult<()> {
m.add_class::<Counter>()?;
m.add_class::<Reset>()?;
Ok(())
}? 表示可能失敗(如類未正確注冊);PyResult 會在導入時轉換成 Python 異常。
用 maturin 開發/構建
快速迭代:把編譯后的擴展直接裝到當前虛擬環境。
$ maturin develop產出分發包:
$ maturin build會生成 manylinux 的 wheel(按 CPU 架構區分),可上傳到 PyPI。
在 Python 里使用
這一部分最“絲滑”:用法幾乎與純 Python 庫別無二致。這也意味著:如果你在優化既有 Python 庫,只要接口不變,原有單測就能直接覆蓋到 Rust 實現。
導入
import counter構造
我們暴露了構造器,因此可以直接在 Python 側實例化(也可以設計成由其他函數返回)
cntr = counter.Counter(
'c',
3,
counter.Reset.NewlinesReset,
)調用
檢驗字符串里是否至少有三個 'c':
>>> cntr.has_count("hello-c-c-c-goodbye")
True加入換行(觸發重置),不再滿足“三個 c 連續出現”:
>>> cntr.has_count("hello-c-c-\nc-goodbye")
FalseRust + Python,其實很容易
Press enter or click to view image in full size本文的目的,是讓你相信把 Rust 與 Python 結合并不難。 Rust 負責高性能與安全,但上手曲線更陡;Python 負責極快迭代,但存在性能上限。
因此:原型用 Python,瓶頸用 Rust。 有了 maturin,開發與發布都更順暢:寫 → 構建 → 享受組合拳。































