2. Linear Discriminant Analysis đến bài toán với 2 classes 3. Linear Discriminant Analysis cho multi-class classification problems 3.1. Xây dựng hàm mất non 4. lấy một ví dụ bên trên Pynhỏ bé

1. Giới thiệu

Trong nhị nội dung bài viết trước, tôi đang trình làng về thuật toán sút chiều tài liệu được áp dụng rộng thoải mái tốt nhất - Principle Component Analysis (PCA). Nlỗi đang đề cập, PCA là một phương pháp trực thuộc loại unsupervised learning, tức là nó chỉ áp dụng các vector diễn đạt tài liệu mà ko sử dụng cho tới labels, trường hợp gồm, của tài liệu. Trong bài xích tân oán classification, dạng điển hình duy nhất của supervised learning, vấn đề thực hiện labels đang mang đến hiệu quả phân nhiều loại tốt rộng.Quý khách hàng sẽ xem: Ldomain authority là gì

Nhắc lại một đợt nữa, PCA là cách thức giảm chiều tài liệu sao cho lượng đọc tin về tài liệu, biểu đạt sinh hoạt tổng phương không nên, được cất giữ là các độc nhất vô nhị. Tuy nhiên, trong nhiều trường hòa hợp, ta không buộc phải cất giữ lượng thông báo lớn nhất cơ mà chỉ cần giữ gìn thông báo cần thiết cho riêng bài toán. Xét ví dụ về bài bác tân oán phân lớp cùng với 2 classes được diễn tả trong Hình 1.

Bạn đang xem: Lda là gì


*

Hình 1: Chiếu tài liệu lên các đường trực tiếp khác biệt. Có nhì lớp dữ liệu minh hoạ vì các điểm màu xanh da trời với đỏ. Dữ liệu được giảm số chiều về 1 bằng phương pháp chiếu bọn chúng lên những mặt đường thẳng khác nhau (d_1) với (d_2). Trong nhì phương pháp chiều này, phương thơm của (d_1) gần giống cùng với phương của thành phần thiết yếu thứ nhất của tài liệu, pmùi hương của (d_2) gần với yếu tố phú của dữ liệu giả dụ dùng PCA. lúc chiếu lên (d_1), những điểm màu đỏ và xanh bị ông xã lấn lên nhau, làm cho việc phân các loại dữ liệu là ko khả thi trên tuyến đường thẳng này. Ngược lại, Lúc được chiếu lên (d_2), tài liệu của hai class được tạo thành những nhiều tương ứng tách bóc biệt nhau, khiến cho việc classification trlàm việc bắt buộc dễ dàng rộng cùng công dụng rộng. Các mặt đường cong hình chuông biểu thị dao động phân bổ xác suất của dữ liệu hình chiếu trong những class.

Trong Hình 1, ta trả sử rằng dữ liệu được chiếu lên 1 mặt đường thẳng với từng điểm được đại diện thay mặt vì chưng hình chiếu của nó phát xuất trực tiếp tê. bởi thế, tự tài liệu những chiều, ta vẫn bớt nó về 1 chiều. Câu hỏi đưa ra là, mặt đường thẳng cần có phương ra sao nhằm hình chiếu của dữ liệu trên tuyến đường thẳng này giúp ích cho câu hỏi classification nhất? Việc classification đơn giản và dễ dàng duy nhất rất có thể được gọi là việc tìm ra một ngưỡng góp phân tách bóc nhị class một bí quyết đơn giản và đạt công dụng tốt nhất có thể.

Xét hai đường thằng (d_1) cùng (d_2). Trong số đó phương của (d_1) sát cùng với phương của nhân tố chính giả dụ có tác dụng PCA, phương thơm của (d_2) gần với phương thơm của thành phần phụ tìm kiếm được bằng PCA. Nếu ra làm cho sút chiều tài liệu bằng PCA, ta sẽ thu được tài liệu ngay sát với các điểm được chiếu lên (d_1). Lúc này vấn đề phân tách nhị class trở buộc phải tinh vi bởi vì các điểm đại diện thay mặt đến nhị classes ck lấn lên nhau. trái lại, nếu ta chiếu dữ liệu xuất xứ thẳng gần cùng với thành phần phụ tìm được vì PCA, tức (d_2), các điểm hình chiếu nằm hoàn toàn về nhì phía không giống nhau của điểm color lục trên đường trực tiếp này. Với bài xích toán classification, Việc chiếu tài liệu lên (d_2) do vậy đã đem đến tác dụng hơn. Việc phân nhiều loại một điểm tài liệu new sẽ được khẳng định lập cập bằng phương pháp so sánh hình chiếu của chính nó lên (d_2) cùng với điểm màu xanh lục này.

Qua ví dụ trên ta thấy, không hẳn câu hỏi gìn giữ lên tiếng những tốt nhất sẽ luôn luôn đem lại kết quả tốt nhất. Crúc ý rằng kết quả của đối chiếu bên trên đây ko Tức là yếu tắc phú đem đến kết quả xuất sắc rộng nhân tố chính, nó chỉ là 1 trong trường đúng theo đặc trưng. Việc chiếu dữ liệu lên đường thẳng nào cần những đối chiếu rõ ràng không chỉ có vậy. Cũng xin nói thêm, hai tuyến phố thằng (d_1) và (d_2) trên trên đây không vuông góc với nhau, tôi chỉ chọn ra nhì hướng ngay sát cùng với các nguyên tố thiết yếu cùng prúc của tài liệu để minh hoạ. Nếu bạn phải tìm hiểu thêm về thành phần chính/phụ, bạn sẽ thấy Bài 27 và Bài 28 về Principal Component Analysis (Phân tích yếu tắc chính) có ích.

Linear Discriminant Analysis (LDA) được ra đời nhằm giải quyết và xử lý vụ việc này. LDA là một trong những cách thức sút chiều tài liệu cho bài xích toán classification. LDA hoàn toàn có thể được coi là một phương thức giảm chiều tài liệu (dimensionality reduction), và cũng hoàn toàn có thể được coi là một phương pháp phân lớp (classification), cùng cũng có thể được áp dụng đôi khi cho tất cả nhì, tức sút chiều tài liệu làm sao để cho Việc phân lớp tác dụng độc nhất. Số chiều của dữ liệu mới là nhỏ tuổi rộng hoặc bằng (C-1) trong số ấy (C) là con số classes. Từ ‘Discriminant’ được phát âm là các ban bố đặc trưng cho từng class, khiến cho nó không xẩy ra lẫn cùng với những classes khác. Từ ‘Linear’ được dùng vì chưng bí quyết giảm chiều tài liệu được thực hiện vày một ma trận chiếu (projection matrix), là 1 trong những phnghiền đổi khác tuyến tính (linear transform).

Trong Mục 2 dưới đây, tôi vẫn trình diễn về ngôi trường hòa hợp binary classification, tức bao gồm 2 classes. Mục 3 đang tổng thể lên cho ngôi trường hợp với các classes rộng 2. Mục 4 sẽ có những ví dụ cùng code Pynhỏ bé cho LDA.

2. Linear Discriminant Analysis cho bài bác toán thù cùng với 2 classes

2.1. Ý tưởng cơ bản

Mọi phương pháp classification phần nhiều được bước đầu với bài tân oán binary classification, với LDA cũng không hẳn ngoại lệ.

Quay lại với Hinch 1, những mặt đường hình chuông biểu thị thiết bị thị của những hàm tỷ lệ tỷ lệ (probability mật độ trùng lặp từ khóa function - pdf) của tài liệu được chiếu xuống theo từng class. Phân păn năn chuẩn chỉnh tại chỗ này được sử dụng nlỗi là một đại diện, tài liệu không duy nhất thiết luôn luôn yêu cầu theo đúng phân pân hận chuẩn.

Độ rộng lớn của từng đường hình chuông diễn tả độ lệch chuẩn chỉnh của tài liệu. Dữ liệu càng triệu tập thì độ lệch chuẩn chỉnh càng nhỏ, càng phân tán thì độ lệch chuẩn càng tốt. Lúc được chiếu lên (d_1), tài liệu của hai classes bị phân tán vô số, khiến cho chúng bị xáo trộn vào nhau. lúc được chiếu lên (d_2), mỗi classes đều sở hữu độ lệch chuẩn bé dại, làm cho tài liệu vào từng class tập trung rộng, dẫn cho công dụng xuất sắc rộng.

Tuy nhiên, bài toán độ lệch chuẩn chỉnh nhỏ dại trong mỗi class chưa đủ nhằm đảm bảo độ Discriminant của dữ liệu. Xét các ví dụ vào Hình 2.


*

Hình 2: Khoảng cách giữa những hy vọng và tổng những phương không nên tác động cho tới độ discriminant của tài liệu. a) Khoảng bí quyết thân nhì mong rằng là mập tuy nhiên phương thơm không đúng trong những class cũng lớn, làm cho nhì phân pân hận ông xã lấn lên nhau (phần color xám). b) Phương không đúng cho mỗi class là cực kỳ bé dại tuy thế hai kỳ vọng quá sát nhau, khiến nặng nề sáng tỏ 2 class. c) Khi phương thơm sai đủ nhỏ cùng khoảng cách thân hai hy vọng đủ phệ, ta thấy rằng tài liệu discriminant rộng.

Hình 2a) kiểu như cùng với dữ liệu lúc chiếu lên (d_1) nghỉ ngơi Hình 1. Cả nhị class hầu như thừa phân tán làm cho tỉ lệ thành phần ông chồng lấn (phần diện tích màu xám) là phệ, tức dữ liệu chưa thực thụ discriminative.

Hình 2b) là trường vừa lòng Lúc độ lệch chuẩn của hai class rất nhiều nhỏ tuổi, tức dữ liệu tập trung rộng. Tuy nhiên, vụ việc cùng với ngôi trường vừa lòng này là khoảng cách thân nhì class, được đo bởi khoảng cách thân nhị mong rằng (m_1) và (m_2), là quá bé dại, khiến cho phần ck lấn cũng chiếm môt tỉ trọng mập, cùng tất nhiên, cũng ko giỏi mang đến classification.

cũng có thể bạn đang tự hỏi, độ lệch chuẩn với khoảng cách giữa nhì mong rằng đại diện thay mặt cho các tiêu chuẩn gì:

Như vẫn nói, độ lệch chuẩn nhỏ tuổi biểu thị bài toán tài liệu ít phân tán. Như vậy tức là dữ liệu trong mỗi class có Xu thế giống nhau. Hai phương không đúng (s_1^2, s_2^2) nói một cách khác là các within-class variances.

Xem thêm: Tìm Hiểu Giao Thức Opc Là Gì ? Chuẩn Truyền Thông Opc Ua Là Gì

Khoảng giải pháp thân những kỳ vọng là mập chứng minh rằng hai classes ở xa nhau, tức tài liệu thân những classes là khác nhau nhiều. Bình pmùi hương khoảng cách giữa nhì hy vọng ((m_1 - m_2)^2) còn gọi là between-class variance.

Hai classes được gọi là discriminative giả dụ hai class kia phương pháp cách nhau chừng (between-class variance lớn) và dữ liệu trong những class có xu hướng giống nhau (within-class variance nhỏ). Linear Discriminant Analysis là thuật tân oán đi tìm một phxay chiếu làm thế nào để cho tỉ trọng giữa between-class variancewithin-class variance lớn số 1 hoàn toàn có thể.

2.2. Xây dựng hàm mục tiêu

Giả sử rằng bao gồm (N) điểm tài liệu (mathbfx_1, mathbfx_2, dots, mathbfx_N) trong những số ấy (N_1 &=&mathbfw^T underbracesum_k=1^2 sum_n in mathcalC_k (mathbfx_n - mathbfm_k)(mathbfx_n - mathbfm_k)^T_mathbfS_W mathbfw = mathbfw^TmathbfS_W mathbfw~~~~~(6)endeqnarray>(mathbfS_W) còn gọi là within-class covariance matrix. Đây cũng là 1 ma trận đối xứng nửa khẳng định dương vày nó là tổng của nhị ma trận đối xứng nửa xác minh dương.

Trong ((5)) và ((6)), ta sẽ áp dụng đẳng thức:cùng với (mathbfa, mathbfb) là nhì vectors cùng chiều bất kỳ.

bởi thế, bài xích toán về tối ưu mang đến LDA trsống thành:

2.3. Nghiệm của bài toán tối ưu

Nghiệm (mathbfw) của ((7)) đang là nghiệm của phương thơm trình đạo hàm hàm kim chỉ nam bằng 0. Sử dụng chain rule mang lại đạo hàm hàm nhiều vươn lên là cùng bí quyết ( abla_mathbfwmathbfw mathbfAmathbfw = 2mathbfAw) nếu như (mathbfA) là một trong ma trận đối xứng, ta có:

Lưu ý: Trong ((10)), ta đang mang sử rằng ma trận (mathbfS_W) là khả nghịch. Điều này sẽ không luôn luôn luôn đúng, dẫu vậy bao gồm một trick nhỏ là ta có thể xê dịch (mathbfS_W) vày ( armathbfS_W approx mathbfS_W + lambdamathbfI) với (lambda) là một số thực dương nhỏ tuổi. Ma trận bắt đầu này là khả nghịch vì trị riêng biệt nhỏ dại độc nhất của chính nó bởi với trị riêng rẽ nhỏ tốt nhất của (mathbfS_W) cùng với (lambda) tức ko bé dại hơn (lambdomain authority > 0). Vấn đề này được suy ra từ những việc (mathbfS_W) là 1 trong những ma trận nửa xác định dương. Từ đó suy ra (armathbfS_W) là một ma trận xác minh dương bởi đầy đủ trị riêng của chính nó là thực dương, và vì thế, nó khả nghịch. lúc tính toán thù, ta hoàn toàn có thể sử dụng nghịch đảo của (armathbfS_W).

Kỹ thuật này được thực hiện siêu nhiều lúc ta yêu cầu sử dụng nghịch đảo của một ma trận nửa xác định dương và chưa chắc chắn nó gồm đích thực là xác minh dương hay là không.

Quay quay trở về cùng với ((10)), do (J(mathbfw)) là một số vô phía, ta suy ra (mathbfw) buộc phải là 1 trong những vector riêng biệt của (mathbfS_W^-1mathbfS_B) ứng với một trị riêng như thế nào kia. hơn nữa, cực hiếm của trị riêng biệt này bởi với (J(mathbfw)). Vậy, để hàm mục tiêu là lớn nhất thì (J(mathbfw)) đó là trị riêng biệt lớn nhất của (mathbfS_W^-1mathbfS_B). Dấu bởi xảy ra khi (mathbfw) là vector riêng biệt ứng cùng với trị riêng lớn số 1 đó. Quý Khách đọc hoàn toàn có thể hiểu phần này hơn khi chứng kiến tận mắt biện pháp thiết kế trên Pyhẹp làm việc Mục 4.

Từ hoàn toàn có thể thấy ngay lập tức rằng nếu như (mathbfw) là nghiệm của ((7)) thì (kmathbfw) cũng chính là nghiệm cùng với (k) là số thực không giống không bất kỳ. Vậy ta rất có thể lựa chọn (mathbfw) làm thế nào cho ((mathbfm_1 - mathbfm_2)^Tmathbfw = J(mathbfw) = L =) trị riêng rẽ lớn nhất của (mathbfS_W^-1mathbfS_B) . khi kia, nạm khái niệm của (mathbfS_B) sinh sống ((5)) vào ((10)) ta có:

Điều này tức là ta có thể chọn:với (altrộn eq 0) bất kỳ.

Biểu thức ((11)) còn được cho là như thể Fisher’s linear discriminant, được đặt theo thương hiệu đơn vị công nghệ Ronald Fisher.

3. Linear Discriminant Analysis mang đến multi-class classification problems

3.1. Xây dựng hàm mất mát

Trong mục này, họ đã để ý ngôi trường hòa hợp bao quát Khi có nhiều hơn 2 classes. Giả sử rằng chiều của tài liệu (D) lớn hơn con số classes (C).

Giả sử rằng chiều mà chúng ta ý muốn bớt về là (D’ (mathbfX_k, mathbfY_k = mathbfW^TmathbfX_k) lần lượt là ma trận dữ liệu của class (k) vào không gian thuở đầu và không gian bắt đầu với số chiều nhỏ rộng.

(mathbfm_k = frac1N_ksum_n in mathcalC_kmathbfx_k in mathbbR^D) là vector mong muốn của class (k) vào không gian ban sơ.

(mathbfe_k = frac1N_ksum_n in mathcalC_k mathbfy_n = mathbfW^Tmathbfm_k in mathbbR^D’) là vector hy vọng của class (k) vào không khí new.

(mathbfm) là vector mong muốn của toàn thể tài liệu trong không khí lúc đầu với (mathbfe) là vector hy vọng vào không gian mới.

giữa những cách thiết kế hàm mục tiêu cho multi-class LDA được minh họa vào Hình 3.

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *