Chulặng mục

0. DỰ ÁN (15)1. ỨNG DỤNG TOÁN HỌC (378)2. TÀI CHÍNH và KINH TẾ (739)3. PHẦN MỀM TOÁN HỌC (62)4. GIÁO DỤC & NCKH (183)5. TÀI LIỆU (58)

Bài và Trang được xứng đáng chụ ý

Bài viết mới


Giới thiệu về phương thức Principal Component Analysis (PCA) cùng một vài ứng dụng trong tài chính (PhầnI)


Giới thiệu về phương thức Principal Component Analysis (PCA) và một trong những áp dụng trong tài chủ yếu (Phần I)


1. Phương pháp đối chiếu yếu tắc chính – Principle Component Analysis (PCA) là gì:

Trong loạt bài bác này chúng tôi xin được trình bày về phương pháp Principle Component Analysis (PCA), đấy là một kết quả siêu rất đẹp của đại số mà thời nay được vận dụng vào rất nhiều lĩnh vực: Công nghệ lên tiếng, Sinch học,… với cả trong Tài chính.

Bạn đang xem: Principal component analysis là gì


Với dữ liệu nên so sánh ban đầu phụ thuộc nhiều trở thành, vụ việc là những trở thành này thường xuyên có tương quan với nhau đang ăn hại mang đến câu hỏi vận dụng những phát triển thành này nhằm phát hành các mô hình tính toán thù ví dụ: hồi quy… với cùng với số biến chuyển giải thích mập bọn họ sẽ rất cạnh tranh để có ánh nhìn trực quan về dữ liệu ví dụ: thị trường ta quyên tâm gồm hàng vạn mã cổ phiếu làm cho cách làm sao nhằm khi quan tiền giáp dữ liệu từ bỏ hàng chục ngàn CP này ta tưởng tượng được Xu thế của toàn thị trường…

Phương pháp PCA vẫn “chiếu” (biễu diễn) dữ liệu đa chiều lên một không gian có các đại lý trực giao, tức nếu như ta xem mỗi các đại lý vào không khí mới là một trong biến đổi thì hình ảnh của dữ liệu gốc vào không gian bắt đầu này sẽ tiến hành màn biểu diễn thông qua các biến đổi độc lập (đường tính). Vấn đề: nếu đưa tài liệu lúc đầu quý phái không khí bắt đầu thì những biết tin xứng đáng quan tâm của dữ liệu thuở đầu liệu gồm bị mất? Để xử lý vụ việc này cách thức PCA đã search không gian bắt đầu với tiêu chí cố gắng phản chiếu được càng nhiều thông tin nơi bắt đầu càng xuất sắc, và thước đo mang lại quan niệm “thông tin” tại đây là phương không nên. Một điểm tốt nữa là: vị các biến chuyển trong không khí new độc lâp, bắt buộc ta hoàn toàn có thể tính tân oán được Tỷ Lệ lý giải phương không đúng của từng đổi thay new đối với tài liệu, vấn đề này cho phép ta quan tâm đến bài toán chỉ cần sử dụng số ít những vươn lên là nhằm lý giải dữ liệu.

Các vận dụng tự nhiên và thoải mái nhưng ta rất có thể nhận thấy là:

– Giảm kích thước của tài liệu.

– Nếu ta có thể sút số chiều về 2 hoặc 3 chiều, ta rất có thể sử dụng các loại trang bị thị nhằm đọc thêm về tài liệu nhưng mà bản thân đang có, giúp ta chú ý tài liệu trực quan liêu hơn.

– Sử lý sự việc đối sánh tương quan giữa các trở thành vào tài liệu thuở đầu bằng cách thực hiện những thay đổi new vào không khí nhưng mà phương pháp PCA tìm được nhằm thể hiện tài liệu.

* Chúng ta sẽ bắt đầu bằng một ví dụ mang ý nghĩa hóa học minch họa trực quan:

Chúng ta có 2 biến X1 và X2 bao gồm đối sánh tương quan (tuyến tính), được biểu diển bằng vật dụng thị sau:

*

Ta biết rằng khi triển khai các phân tích đa thay đổi nhưng trong những số ấy những thay đổi gồm đối sánh tương quan với nhau là khó chịu!

Ta vẫn thải trừ sự tương quan này bằng phương pháp chuyển phiên trục (cơ sở)

*

*

Ta thấy rằng tài liệu trên trục new đang sút sự đối sánh đáng chú ý (biến Y1 và Y2 gần như là ko tương quan), cùng sự thay đổi của dữ liệu nhờ vào phần nhiều vào biến Y1, ta hoàn toàn có thể chỉ dung một biến Y1 để trình diễn tài liệu, điều đó đỡ đần ta bớt số chiều tài liệu cơ mà không làm giàm không ít “phương thơm sai” của tài liệu. Đây cũng chủ yếu là tư tưởng của cách thức PCA. Sau phía trên họ sẽ làm rõ rộng về khía cạnh kim chỉ nan của cách thức này

* Nền tảng toán học đến phương thức PCA : Trong phần này công ty chúng tôi vẫn trình làng cơ sở toán thù học tập của PCA một cách nlắp gọn gàng với vắn tắt.

Cho đổi mới ngẫu nhiên X có p chiều, X=(x1,…,xp) biểu lộ dữ liệu ban đầu và ta bao gồm ma trận hiệp pmùi hương không nên là:

S=(sij)1≤i≤p, 1≤j≤p

* Ý tưởng thiết yếu :

Ta kiếm tìm những biến đổi hốt nhiên mới y bao gồm dạng là tổ hợp tuyến tính của các yếu tố của X sao cho y gồm pmùi hương sai càng Khủng càng giỏi (đựng được nhiều thông tin), về mặt hình thức ta viết lại vụ việc trên: Tìm y bao gồm dạng y=∑pi=1aixi sao cho Var(y) lớn số 1 có thể. Không mất tính tổng quát với nhằm dễ dàng tính toán, ta trả sử mong muốn của các nhân tố trong X là 0 với pmùi hương không đúng bằng 1, dịp kia ta có:

Var(y)=∑pi=1∑pj=1aiajsij=aTSa

với a=(a1,..,ap), và aTa=1. do đó, ta phải giải bài bác toán thù tối ưu với ĐK biên:

max aTSa cùng với điều kiện biên aTa=1

bằng cách thức nhân tử Largrange ta gửi bài xích tân oán này thành:

max aTSa−λ(1−aTa)

nên ta có a là nghiệm của Sa=λa, dễ thấy: a chính là vecto riêng rẽ, còn λ đó là trị riêng biệt tương xứng của ma trận S.

Xem thêm: Sửa Lỗi Current Pending Sector Count Là Gì, Sửa Lỗi Current Pending Sector Count Fix 100% Ok

Crúc ý: S là ma trận đối xứng nửa xác định dương (symmetric positive sầu semidefinite), và vì vậy có các trị riêng ko âm với những vecto riêng biệt lập thành bọn họ trực giao.

Giả sử S có p trị riêng (λi)1≤i≤p và p vecto lớn riêng (a(i))1≤i≤p tương xứng, bởi điều kiện aTa=1 cần ta thấy (a(i))1≤i≤p là họ cơ sở trực chuẩn trong không khí bắt đầu.

Ta thấy phương sai của hình chiếu của tài liệu thuở đầu lên đại lý lắp thêm i (a(i)) đó là trị riêng rẽ vật dụng i (λi), như vậy ta xác định các yếu tắc chính dựa vào độ Khủng của cực hiếm riệng. Ví dụ: yếu tắc quan trọng đặc biệt độc nhất vô nhị, là hình chiếu của tài liệu lên vecto lớn riêng ứng cùng với trị riêng biệt mập nhất…

Trong khi ta có: ∑pi=1λi=∑pi=1sii là tổng phương không đúng, người ta xuất xắc dùng λi∑pi=1λi để biểu đạt cường độ phản ảnh dữ liệu cội theo nguyên tố sản phẩm công nghệ i, ví dụ: ta gồm tổng pmùi hương không nên là 2 (∑pi=1λi), trị riêng biệt của nguyên tố thứ một là 0.4, hoàn toàn có thể hiểu là yếu tố đầu tiên bộc lộ được 0.4/2*100 phần trăm phương không nên của dữ liệu, trị riêng biệt của nhân tố thứ hai là 0.3, rất có thể gọi là thành phần thứ hai miêu tả được 0.3/2*100 Xác Suất phương không nên của tài liệu, hoàn toàn có thể đánh giá và nhận định nhân tố trước tiên quan trọng đặc biệt hơn nguyên tố thứ 2.

* Ví dụ mô tả phương pháp tính toán PCA bằng Matlab:

Giả sử ta bao gồm tài liệu nơi bắt đầu tất cả tất cả 3 biến chuyển (3 cột), ta knhị báo dưới dạng ma trận trong Matlab như sau:

A = <269.8 38.9 50.5272.4 39.5 50.0270.0 38.9 50.5272.0 39.3 50.2269.8 38.9 50.5269.8 38.9 50.5268.2 38.6 50.2268.2 38.6 50.8267.0 38.2 51.1267.8 38.4 51.0273.6 39.6 50.0271.2 39.1 50.4269.8 38.9 50.5270.0 38.9 50.5270.0 38.9 50.5>; 

Ta crúc ý: lúc thành lập định hướng làm việc trên ta sẽ đưa sử vừa đủ của những biến trong tài liệu ban sơ bằng 0 cùng phương sai bằng 1, nên việc đầu tiên ta yêu cầu có tác dụng là chuẩn hóa (standardization), ta hoàn toàn có thể dùng hàmzscore vào Matlab:

B=zscore(A)

Ta có thể tính ma trận hiệp phương sai bằng hàm cov trong Matlab, với search trị riêng cũng giống như những vecto riêng rẽ khớp ứng bằng hàm eig

  = eig(cov(B))

Lúc này V là 1 trong những ma trận với các cột là những vecto riêng, D là một ma trận chéo cánh cất các trị riêng tương ứng

Để dễ dàng và đơn giản, Matlab bao gồm hàm princomp:

= princomp(B)

COEFF tương tự như nhỏng ma trận V cùng với những cột là các veclớn riêng, LATENT là vecto chứa các trị riêng, vàSCORE là hình họa của dữ liệu vào cơ sở new.

Ta thấy SCORE=B*COEFF

Sử dụng lệnh cumsum(LATENT) / sum(LATENT) ta được vecto: 0.9375 0.9978 1.0000

Có thể hiểu: yếu tố trước tiên (cơ sở mới) giải thích được khoảng chừng 94% phương thơm sai, nhân tố thứ nhất và thứ hai phối kết hợp đã phân tích và lý giải được rộng 99% pmùi hương sai.

Xem thêm: " Hợp Tác Xã Tiếng Anh Là Gì ? Dịch Sang Tiếng Anh Hợp Tác Xã Là Gì

2. Eigene Portfolio cho Thị Trường hội chứng khoán Việt Nam:

Ta tính lợi nhuận của những CP (ma trận ret)

for i=2:size(data,1)

% ret(i,:)=log((data(i,:))./data(i-1,:));

ret(i,:)=(data(i,:)-data(i-1,:))./data(i-1,:);

end

Chuẩn hóa dữ liệu (sao cho trung bình bởi 0, và phương không nên 1)

X=zscore(ret);

Tính ma những veclớn riêng với trị riêng rẽ của ma trận hiệp pmùi hương không đúng và hiển thị kỹ năng lý giải pmùi hương sai của 3 yếu tố chính)

= princomp(X);

percent=cumsum(latent)./sum(latent);

percent(1:3)

Ta sẽ tạo nên một portfolio từ vecto riêng đồ vật I (giải thích được nhiều pmùi hương không nên duy nhất, vào trường thích hợp này là khoảng tầm 43%), ta nói một cách khác phía trên là Eiren Portfolio (màu xanh), cùng so sánh cùng với đường VN30-index(màu sắc đỏ)

w=COEFF(:,1)./(sum(COEFF(:,1)));

COEFF(:,1): là veckhổng lồ riêng rẽ ứng với trị riêng biệt mập nhất

w: là veclớn cất Tỷ Lệ tài sản đầu tư vào cụ thể từng một số loại triệu chứng khoán

pof=data*w;

hold on

Và sau cuối ta chuẩn hóa Eigene Portfolio và Vn30-index nhằm so sánh

plot(zscore(pof),’b’)

plot(zscore(prices(:,775)),’r’)

*

Ta thấy là Eigene Portfolio bộc lộ khá đúng đắn dáng điệu của đường VN30-index, mà lại tại đây ta hoàn toàn ko áp dụng đến con số cổ phiếu lưu lại hành …

Toàn bộ data + Matlab code của ví dụ này những bạn có thể tải tại:

https://drive.google.com/folderview?id=0B_LtmMSdtoLXYzlTV2NXMk1hbkk&usp=sharing

Trong phần tiếp theo Shop chúng tôi vẫn trình bày ứng dụng của cách thức PCA vào so với đường cong lãi suất (Yield curve) cùng VAR (value at risk).


Chuyên mục: KHÁI NIỆM LÀ GÌ
Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *