Natural language processing (NLP) is a subfield of linguistics, computer science, và artificial intelligence concerned with the interactions between computers & human language, in particular how to lớn program computers to lớn process and analyze large amounts of natural language data. The goal is a computer capable of "understanding" the contents of documents, including the contextual nuances of the language within them. The technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves - Wikipedia

Natural Language Processing là gì

Natural Language Processing (NLP) là một nhánh của ngữ điệu học, kỹ thuật laptop với trí tuệ tự tạo liên quan đến việc liên can thân máy tính cùng ngữ điệu tự nhiên của bé tín đồ (Ví dụ: Tiếng Anh, Tiếng Việt,...), tiếng nói hoặc vnạp năng lượng bản.

Những thử thách vào lĩnh vực cách xử lý ngữ điệu tự nhiên là: Nhận diện giọng nói, đọc được ngôn ngữ thoải mái và tự nhiên của con bạn với mô phỏng lại ngôn từ tự nhiên.

Bạn đang xem: Natural language processing là gì

Các áp dụng của NLP

Các phần mềm tất cả tích phù hợp Natural Language Processing (NLP) hỗ trợ chúng ta vào cuộc sống đời thường hằng ngày như:

Personal Assistant (Trợ lý ảo cá nhân): Siri, Cortamãng cầu, Google Assistant Auto-Complete (Tự cồn điền trường đoản cú còn thiếu): Trong khí cụ tiếm kiếm của Goolge khi chúng ta kiếm tìm tìm một từ gì đấySpell Checking - Kiểm tra lỗi chủ yếu tả: Đa số ngơi nghỉ khắp phần nhiều nơi, Google Doc, Microsoft Word, ...Translation - Phiên Dịch: Google Translate

Bây giờ đồng hồ chúng ta đã cùng nhìn qua các áp dụng của NLPhường trong nghành kinh doanh:

Các chuỗi thức ăn nkhô nóng yêu cầu tiếp nhận một lượng to các đơn đặt hàng và khiếu nại hàng ngày. Việc cần giải pháp xử lý bằng tay đôi lúc vẫn dễ không nên sót với rầu rĩ vì chưng chúng cứ lặp đi lặp lại, cung ứng đó bạn sẽ đề nghị tốn các chi phí để thuê thêm nhân công nếu như số lượng đơn hàng tăng thêm chợt trở nên. Nhờ gồm sự thành lập và hoạt động của trợ lý ảo mà cân nặng công việc được giảm đi đáng kể, những Chat Bot đang tiếp xúc cùng với người dùng với mừng đón deals nắm bởi cần hotline điện như trước phía trên, ...Các nhãn hàng tung ra Thị phần các sản phẩm mới của họ với tiếp thị bọn chúng bên trên các căn nguyên mạng xã hội, chúng ta có thể tính toán độ thành công xuất sắc của chiến dịc (campaign) trải qua những chỉ số như: số lượt tiếp cận (reach, impression), số 1-1 đăt mặt hàng, ... tuy vậy bọn họ lại phân vân được chủ ý của doanh nghiệp về thành phầm của bản thân, bao nhiêu phân trăm người mê say, ko ưng ý với trung lập. Với sự giúp đỡ của NLPhường bạn trọn vẹn rất có thể có tác dụng được điều này thông qua so sánh cảm hứng (Sentiment Analysis)

Phân các loại NLP

NLPhường được chia thành 2 nghành chính: Ngôn ngữ học và Khoa học tập vật dụng tính

Ngôn ngữ học đa số tập trung vào vấn đề đọc được cấu trúc của ngôn ngữ, gồm những:

Ngữ âm (Phonetics) : Nghiên cứu vãn âm thanh ngôn từ của nhỏ ngườiÂm vị (Phonology) : Nghiên cứu khối hệ thống âm thanh khô vào ngôn từ của bé ngườiCú pháp (Syntax) : Nghiên cứu vớt sự hình thành cùng cấu tạo của một câu nói.Ngữ nghĩa (Semantics) : Nghiên cứu giúp ý nghĩa sâu sắc của câu nóiNgữ dụng học tập (Pragmatics) : Nghiên cứu vãn phương thức những câu nói với chân thành và ý nghĩa của chúng (semantics) được thực hiện cho các mục tiêu giao tiếp rõ ràng. Cụ thể nói nhiều điều đó thì nắm gọn gàng lại người đứng đối diện mong mỏi biểu hiện đồ vật gi.

Trong lúc ấy Khoa học laptop lại quan tâm đến sự việc chuyển đổi những kỹ năng và kiến thức chuyên sâu về ngôn từ học tập thành hầu hết lịch trình máy vi tính (Program, Application) với sự giúp sức đắc lực của trí tuệ tự tạo (AI) nhằm giao hàng bé fan.

Xem thêm: Tải Microsoft Office 2013 Full Crack Sinhvienit, Download Office 2013 Full Crack

Những tân tiến về mặt kỹ năng trong nghành nghề dịch vụ NLPhường hoàn toàn có thể được chia ra thành: Mô hình khối hệ thống dựa trên phép tắc (rule-based), mô hình đồ vật học truyền thống với Deep Learning

Mô hình khối hệ thống dựa vào các nguyên tắc (rule-based), nói nôm na là bạn sẽ định ra một số các luật lệ dựa trên hiểu biết nhất định về một ngành nghề làm sao kia, vào ngữ cảnh này là ngôn từ học. lấy ví dụ như các bạn định ra quy tắc sau giả dụ các chữ gồm vần âm đầu viết hoa là tên gọi tín đồ tuyệt địa điểm (Nguyễn Văn uống A, Bà Rịa - Vũng Tàu, ...). Tuy nhiên, so sự phức hợp của ngôn ngữ bé bạn, phát triển nhanh lẹ (teen code, cố ý không đúng bao gồm tả, ...) hệ thống rule-based chứng tỏ sự cứng nhắc, bởi vì đề nghị luôn gồm người liên tục thêm các rule vào, khó khăn để làm chủ và tất cả tính tổng quan hóa tốt.Mô hình sản phẩm học cổ xưa rất có thể giải những bài bác tân oán thách thức rộng (VD: Phát hiện nay spam, ...) trải qua Việc trích thanh lọc các Features (các trực thuộc tính, VD: tên, chúng ta, năm sinh, lệch giá, ...) bằng phương pháp áp dụng số đông phương pháp nlỗi Bag of Words, Part of Speech, tiếp nối thiết kế các mô hình sản phẩm học tập (Machine Learning Models) như Support Vector Machine, Naive Bayes, ... Các quy mô này đã khai thác đa số mẫu mã câu có ngữ nghĩa (semantics patterns) trong tài liệu train (huấn luyện) để lấy ra những dự đoán sau này.Mô hình Deep Learning: đã là quy mô phổ biến nhất vào phân tích với áp dụng NLP, nó gồm tính khái quát hóa (generalization) tốt rộng mô hình thiết bị học cổ xưa, bạn có thể đọc dễ dàng và đơn giản bao hàm hóa là khả năng tương xứng với những tài liệu new, sẽ xuất hiện sau đây, khi Model của bạn chỉ đến kết quả tốt đối với mẫu mã demo ngày nay mà lại lại mang lại hiệu quả xấu cùng với các chủng loại thử về sau thì nó tất cả tính tổng quan hóa phải chăng. Mô hình này không phải những thuộc tính xử lý thủ công thủ công, do nó đang từ bỏ làm cho điều đó cho bạn. Khả năng học hỏi và giao lưu của quy mô Deep learning trẻ trung và tràn đầy năng lượng hơn đối với những mô hình cạn (shallow)/ mô hình truyền thống. Mnghỉ ngơi ra tuyến đường xử lý được những bài xích toán NLP phức tạp một biện pháp triệt nhằm.
*
Bag of Words
*
Part of Speech

Làm phương pháp làm sao nhưng máy vi tính hoàn toàn có thể phát âm được văn bạn dạng ?

Máy tính hoàn toàn có thể hiểu được phần nhiều số lượng, mà lại quan trọng nào hiểu được kí từ, tự ngữ xuất xắc lời nói, do vậy buộc phải một vài công việc trung gian trước khi xây đắp mô hình NLP, call là biểu diễn vnạp năng lượng bản (text representation). Mình sẽ tập trung lý giải biểu diễn từ bỏ (word), bởi nó đơn giản dễ dàng và dễ hiểu tuyệt nhất đối với màn trình diễn kí trường đoản cú (character), một phần của từ (subword) - xóa đi một số trong những kí từ bỏ của từ bỏ.

*
One Hot Encoding

Trước Khi Deep Learning thành lập, biểu diễn văn phiên bản (đến thiết bị hiểu) được triển khai bởi kinh nghiệm hơi 1-1 giản: one-hot encoder, nlỗi hình phía trên bạn sẽ thấy giả sử bản thân tất cả 5 câu nói, được chuyển thành một mảng N*M:

N là số lượng câu nói buộc phải biểu diễnM là số lượng từ bỏ khác nhau trường thọ vào vnạp năng lượng bản

Tương ứng với từng câu, trường đoản cú làm sao có thì đánh số 1 từ bỏ nào không mở ra thì đánh số 0 rứa là bạn đã sở hữu một vector (1,0,0,0) biểu diễn mang đến trường đoản cú Cat. Cách tiếp cận này sẽ có được một số phần lớn hạn chế:

Vấn đề về bộ lưu trữ lưu trữ (RAM + Ổ cứng), nhỏng chúng ta cũng thấy sinh hoạt bên trên, vector bao hàm không hề ít số 0 và cực kỳ không nhiều hàng đầu (spare matrix), số 0 phần nhiều không cần sử dụng tuy nhiên các bạn vẫn bắt buộc lưu giữ nóThiếu sự phát âm biết về ngữ nghĩa của câu nói, bởi vì vector sinh hoạt bên trên không biểu thị được sự quan hệ giới tính giữa những trường đoản cú với nhau, ví dụ hoa cùng ong có thể bao gồm mối contact mật thiết với nhau

Vào năm 2013 Google vẫn reviews một quy mô mới để màn trình diễn vnạp năng lượng bảng là word2vec <Mikolov et al., 2013>, mô hình này có thể trình bày văn uống bảng bởi dense vector (trái ngược với spare vector, số đông những cực hiếm hồ hết khác 0), và nắm bắt được ngữ nghĩa của câu nói. Một số các phân tích khác dựa vào word2vec như GloVe <Pennington et al., 2014> và fastText <Bojanowski et al., 2016>.

Cuối năm 2018, các đơn vị phân tích của Google lại đưa ra một mô hình không giống (BERT), biết tới cửa hàng cho các nghiên cứu và phân tích và ứng dụng NLP tiên tiến và phát triển độc nhất hiện nay.

BERT cũng đó là trung tâm trong series NLPhường của tekkenbasara.mobi, cùng với ước muốn phần lớn người rất có thể phát âm được nguyên tắc hoạt động của mô hình này.

Quý khách hàng rất có thể nhấp vào link này để ttê mê gia vào nhóm với nhấn thêm những tài liệu hữu ích không giống về Data nhé!

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *