Bảng thuật ngữ máy học

Bảng thuật ngữ này định nghĩa các thuật ngữ chung về máy học, cộng với các cụm từ dành riêng cho TensorFlow.

A

loại bỏ

Kỹ thuật đánh giá tầm quan trọng của một tính năng hoặc thành phần bằng cách tạm thời xoá nó khỏi mô hình. Sau đó bạn huấn luyện lại mô hình mà không có tính năng hoặc thành phần đó, cũng như nếu mô hình được huấn luyện lại hoạt động kém hơn đáng kể, thì tính năng hoặc thành phần bị xoá có thể quan trọng.

Ví dụ: giả sử bạn huấn luyện một mô hình phân loại cho 10 tính năng và đạt được độ chính xác 88% trên nhóm kiểm thử. Để kiểm tra tầm quan trọng của tính năng đầu tiên, bạn có thể huấn luyện lại mô hình chỉ bằng 9 các tính năng AI mới. Nếu mô hình được huấn luyện lại có hiệu suất kém hơn đáng kể (ví dụ: 55%), thì tính năng bị xoá có thể đóng vai trò quan trọng. Ngược lại, nếu mô hình được huấn luyện lại hoạt động hiệu quả như nhau, thì tính năng đó có thể không quan trọng lắm.

Việc loại bỏ cũng có thể giúp xác định tầm quan trọng của:

  • Các thành phần lớn hơn, chẳng hạn như toàn bộ hệ thống con của một hệ thống học máy lớn hơn
  • Quy trình hoặc kỹ thuật, chẳng hạn như bước xử lý trước dữ liệu

Trong cả hai trường hợp, bạn sẽ quan sát cách hiệu suất của hệ thống thay đổi (hoặc không thay đổi) sau khi bạn đã xoá thành phần.

Thử nghiệm A/B

Một phương pháp thống kê để so sánh hai (hoặc nhiều) kỹ thuật – A và nút B. Thông thường, A là một kỹ thuật hiện có và B là một kỹ thuật mới. Thử nghiệm A/B không chỉ xác định kỹ thuật nào hoạt động hiệu quả hơn mà còn xác định liệu sự khác biệt có ý nghĩa thống kê hay không.

Thử nghiệm A/B thường so sánh một chỉ số trên hai kỹ thuật; ví dụ: độ chính xác của mô hình so sánh như thế nào giữa hai kỹ thuật? Tuy nhiên, thử nghiệm A/B cũng có thể so sánh bất kỳ số lượng chỉ số nào có giới hạn.

chip tăng tốc

#GoogleCloud

Một danh mục các thành phần phần cứng chuyên biệt được thiết kế để thực hiện các phép tính chính cần thiết cho thuật toán học sâu.

Khối tăng tốc (hoặc gọi tắt là trình tăng tốc) có thể đáng kể tăng tốc độ và hiệu quả của các tác vụ huấn luyện và suy luận so với một CPU đa năng. Các GPU này rất lý tưởng để huấn luyện mạng nơron và các tác vụ có tính toán chuyên sâu tương tự.

Ví dụ về khối tăng tốc:

  • Bộ xử lý tensor (TPU) của Google có phần cứng chuyên dụng cho việc học sâu.
  • GPU của NVIDIA, mặc dù ban đầu được thiết kế để xử lý đồ hoạ, được thiết kế để cho phép xử lý song song, điều này có thể đáng kể để tăng tốc độ xử lý.

độ chính xác

#fundamentals

Số cụm từ gợi ý phân loại chính xác đã chia với tổng số lần dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp các tên cụ thể cho các loại cụm từ gợi ý chính xáccụm từ gợi ý không chính xác. Vì vậy, công thức độ chính xác để phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

So sánh và đối chiếu độ chính xác với độ chính xácđộ chính xác.

Xem phần Phân loại: Độ chính xác, mức độ gợi nhớ, độ chính xác và nội dung liên quan chỉ số trong Khoá học nhanh về máy học để biết thêm thông tin.

hành động

#rl

Trong học tăng cường, cơ chế mà tác nhân chuyển đổi giữa trạng thái của môi trường. Tác nhân chọn hành động bằng cách sử dụng một chính sách.

hàm kích hoạt

#fundamentals

Hàm cho phép mạng nơron tìm hiểu các mối quan hệ phi tuyến tính (phức tạp) giữa các đặc điểm và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Biểu đồ của các hàm kích hoạt không bao giờ là các đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Biểu đồ Cartesian gồm hai dòng. Dòng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cực, 0 đến 0, -0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy
          nó chạy từ 0,0 đến +vô cùng,+vô cùng.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x bao phủ miền
          từ vô cực đến + dương, còn giá trị y nằm trong khoảng từ gần 0 đến
          gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn luôn
          là số dương, có độ dốc cao nhất (0,0,5) và giảm dần
          hệ số góc khi giá trị tuyệt đối của x tăng.

Hãy xem phần Mạng nơron: Hàm kích hoạt trong khoá học Học nhanh về học máy để biết thêm thông tin.

học tập tích cực

Phương pháp đào tạo trong đó thuật toán chọn một số dữ liệu mà thuật toán đó học được. Học chủ động đặc biệt có giá trị khi ví dụ được gắn nhãn khan hiếm hoặc tốn kém để có được. Thay vì tìm kiếm một loạt ví dụ được gắn nhãn một cách mù quáng, thuật toán học chủ động sẽ tìm kiếm một cách có chọn lọc một loạt ví dụ cụ thể mà nó cần để học.

AdaGrad

Một thuật toán giảm độ dốc tinh vi để điều chỉnh tỷ lệ độ dốc của từng tham số, cung cấp hiệu quả cho mỗi thông số tốc độ học tập độc lập. Để biết nội dung giải thích đầy đủ, hãy xem bài viết AdaGrad này.

nhân viên hỗ trợ

#rl

Trong quá trình học tăng cường, thực thể sử dụng chính sách để tối đa hoá lợi tức dự kiến thu được từ chuyển đổi giữa các trạng thái của môi trường.

Nói chung, tác nhân là phần mềm tự động lập kế hoạch và thực thi một loạt hành động để đạt được mục tiêu, đồng thời có khả năng thích ứng với những thay đổi trong môi trường của nó. Ví dụ: một tác nhân dựa trên LLM có thể sử dụng LLM (mô hình ngôn ngữ lớn) để lập kế hoạch thay vì áp dụng chính sách học tăng cường.

cụm tổng hợp

#clustering

Xem phần thu thập dữ liệu theo cụm phân cấp.

phát hiện hoạt động bất thường

Quá trình xác định điểm ngoại lai. Ví dụ: nếu giá trị trung bình cho một tính năng nhất định là 100 với độ lệch chuẩn là 10, thì tính năng phát hiện hoạt động bất thường sẽ gắn cờ giá trị 200 là đáng ngờ.

Thực tế tăng cường (AR)

Từ viết tắt cho thực tế tăng cường.

diện tích dưới đường cong PR

Xem PR AUC (Vùng dưới đường cong PR).

diện tích dưới đường cong ROC

Xem AUC (Diện tích dưới đường cong ROC).

trí tuệ nhân tạo tổng quát

Một cơ chế không phải con người thể hiện một phạm vi rộng về khả năng giải quyết vấn đề, sáng tạo và thích ứng. Ví dụ: chương trình minh hoạ trí tuệ thông minh có thể dịch văn bản, soạn bản giao hưởng chúng rất giỏi trò chơi chưa được phát minh.

trí tuệ nhân tạo

#fundamentals

Một mô hình hoặc chương trình không do con người thực hiện có thể giải quyết các công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản, một chương trình hoặc mô hình xác định bệnh từ hình ảnh phóng xạ đều cho thấy trí tuệ nhân tạo.

Về chính thức, máy học là một trường phụ của thông minh. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

chú ý

#language

Một cơ chế được dùng trong mạng nơron cho biết tầm quan trọng của một từ hoặc một phần của từ. Tính năng chú ý nén lượng thông tin mà mô hình cần để dự đoán mã thông báo/từ tiếp theo. Một cơ chế chú ý thông thường có thể bao gồm một giá trị tổng trọng số trên một tập hợp đầu vào, trong đó trọng số cho mỗi đầu vào được tính toán bằng một phần khác của mạng nơron.

Hãy tham khảo thêm về tự chú ýtự chú ý nhiều đầu. Đây là các khối xây dựng của Transformer.

Hãy xem phần LLM: Mô hình ngôn ngữ lớn là gì? trong khoá học Học nhanh về học máy để biết thêm thông tin về tính năng tự chú ý.

phân bổ

#fairness

Từ đồng nghĩa với tính năng.

Trong tính công bằng của công nghệ học máy, các thuộc tính thường đề cập đến các đặc điểm liên quan đến cá nhân.

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện rừng quyết định, trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên của các tính năng có thể có khi học điều kiện. Thông thường, một nhóm nhỏ tính năng khác nhau được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các đặc điểm có thể có sẽ được xem xét cho mỗi nút.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0 đến 1 thể hiện khả năng của mô hình phân loại nhị phân để tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì khả năng phân tách của mô hình càng tốt lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại tách biệt hoàn toàn các lớp dương tính (hình bầu dục màu xanh lục) với các lớp âm tính (hình chữ nhật màu tím). Mô hình hoàn hảo không thực tế này có AUC là 1,0:

Một đường số có 8 ví dụ dương ở một bên và 9 ví dụ âm ở bên kia.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một thuật toán phân loại tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương, âm, dương.

Có, mô hình trước có AUC là 0, 5, không phải 0, 0.

Hầu hết các mô hình đều nằm đâu đó giữa hai cực trị. Ví dụ: mô hình sau đây sẽ tách biệt tích cực với phủ định phần nào, và do đó có AUC trong khoảng từ 0,5 đến 1,0:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
          Trình tự các ví dụ là âm, âm, âm, âm, dương, âm, dương, dương, âm, dương, dương, dương.

AUC bỏ qua mọi giá trị mà bạn đã đặt ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể đạt được.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

thực tế tăng cường

#image

Công nghệ phủ hình ảnh do máy tính tạo lên chế độ xem của người dùng về thế giới thực, từ đó cung cấp chế độ xem tổng hợp.

bộ mã hoá tự động

#language
#image

Một hệ thống học cách trích xuất thông tin quan trọng nhất từ đầu vào. Bộ mã hoá tự động là sự kết hợp giữa bộ mã hoábộ giải mã. Bộ tự động mã hoá hoạt động theo quy trình hai bước sau đây:

  1. Bộ mã hoá ánh xạ đầu vào tới chiều thấp có tổn hao (thường) (trung gian).
  2. Bộ giải mã tạo một phiên bản có tổn hao của dữ liệu đầu vào ban đầu bằng cách ánh xạ định dạng chiều thấp hơn với định dạng đầu vào chiều cao hơn ban đầu.

Bộ tự mã hoá được huấn luyện toàn diện bằng cách yêu cầu bộ giải mã cố gắng tái tạo dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá gần nhất có thể. Vì định dạng trung gian nhỏ hơn (có kích thước thấp hơn) so với định dạng ban đầu, nên bộ tự mã hoá buộc phải tìm hiểu thông tin nào trong dữ liệu đầu vào là cần thiết và dữ liệu đầu ra sẽ không hoàn toàn giống với dữ liệu đầu vào.

Ví dụ:

  • Nếu dữ liệu đầu vào là đồ hoạ, thì bản sao không chính xác sẽ tương tự như đồ hoạ gốc, nhưng có một chút sửa đổi. Có thể bản sao không chính xác sẽ loại bỏ nhiễu khỏi đồ hoạ gốc hoặc lấp đầy một số pixel bị thiếu.
  • Nếu dữ liệu đầu vào là văn bản, thì bộ tự mã hoá sẽ tạo văn bản mới mô phỏng (nhưng không giống với) văn bản gốc.

Hãy xem thêm về bộ mã hoá tự động đa dạng.

thiên vị tự động

#fairness

Khi người đưa ra quyết định ưu tiên các đề xuất do hệ thống tự động đưa ra hơn là thông tin được tạo mà không cần hệ thống tự động, ngay cả khi hệ thống tự động đưa ra quyết định có lỗi.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong khoá học cấp tốc về học máy để biết thêm thông tin.

AutoML

Bất kỳ quy trình tự động nào để xây dựng mô hình học máy . AutoML có thể tự động thực hiện các nhiệm vụ như sau:

AutoML rất hữu ích cho các nhà khoa học dữ liệu vì nó có thể giúp họ tiết kiệm thời gian và nỗ lực phát triển quy trình học máy và cải thiện khả năng dự đoán của bạn. Công cụ này cũng hữu ích cho những người không phải chuyên gia, giúp họ dễ dàng tiếp cận các nhiệm vụ học máy phức tạp hơn.

Xem Máy tự động Học tập (AutoML) trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình hồi quy tự động

#language
#image
#generativeAI

Mô hình dự đoán thông tin dự đoán dựa vào thông tin gợi ý trước đó dự đoán. Ví dụ: các mô hình ngôn ngữ tự động hồi quy dự đoán biến thể tiếp theo mã thông báo dựa trên mã thông báo được dự đoán trước đó. Tất cả mô hình ngôn ngữ lớn dựa trên Transformer đều tự hồi quy.

Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì các mô hình này tạo hình ảnh trong một lượt truyền tới và không lặp lại theo các bước. Tuy nhiên, một số mô hình tạo hình ảnh tự hồi quy vì tạo hình ảnh theo từng bước.

tổn thất phụ trợ

Hàm mất – dùng cùng với Chính của mạng nơron (mô hình) hàm mất – giúp đẩy nhanh quá trình huấn luyện trong quá trình các vòng lặp sớm khi trọng số được khởi tạo ngẫu nhiên.

Các hàm suy hao phụ trợ đẩy độ dốc hiệu quả sang các lớp trước đó. Việc này giúp sự hội tụ trong quá trình đào tạo bằng cách giải quyết vấn đề về độ dốc biến mất.

độ chính xác trung bình

Chỉ số để tóm tắt hiệu suất của một chuỗi kết quả được xếp hạng. Độ chính xác trung bình được tính bằng cách lấy trung bình các giá trị độ chính xác cho mỗi kết quả có liên quan (mỗi kết quả trong danh sách được xếp hạng có tỷ lệ thu hồi tăng lên so với kết quả trước đó).

Xem thêm phần Diện tích dưới đường cong PR.

điều kiện căn chỉnh theo trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng. Ví dụ: nếu diện tích là một đặc điểm, thì sau đây là một điều kiện được căn chỉnh theo trục:

area > 200

Tương phản với điều kiện xiên.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai giảm độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron cần nhiều vòng lặp của chu kỳ hai vòng sau:

  1. Trong quá trình truyền thẳng, hệ thống xử lý một gồm ví dụ để đưa ra (các) kết quả dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị nhãn. Sự khác biệt giữa thông tin dự đoán và giá trị nhãn là mất cho ví dụ đó. Hệ thống sẽ tổng hợp các tổn thất cho tất cả ví dụ để tính tổng mức hao tổn tổn thất cho lô hiện tại.
  2. Trong quá trình truyền ngược (truyền ngược), hệ thống giảm tổn thất bằng cách điều chỉnh trọng số của tất cả neuron trong tất cả lớp ẩn.

Mạng nơron thường chứa nhiều tế bào thần kinh trên nhiều lớp ẩn. Mỗi nơron này góp phần gây ra tình trạng mất mát tổng thể theo những cách khác nhau. Tính năng lan truyền ngược xác định xem nên tăng hay giảm trọng số áp dụng cho các nơron cụ thể.

Tốc độ học là một hệ số kiểm soát độ mà mỗi lượt lùi sẽ tăng hoặc giảm từng trọng số. Tốc độ học lớn sẽ làm tăng hoặc giảm mỗi trọng số nhiều hơn so với tốc độ học nhỏ.

Về mặt giải tích, kỹ thuật lan truyền ngược triển khai quy tắc chuỗi. của đại số. Tức là, phương pháp truyền ngược tính toán đạo hàm riêng của lỗi theo từng tham số.

Cách đây nhiều năm, những người làm việc trong lĩnh vực học máy phải viết mã để triển khai phương pháp hồi quy. Giờ đây, các API học máy hiện đại như Keras sẽ triển khai kỹ thuật lan truyền ngược cho bạn. Chà!

Hãy xem phần Mạng nơron trong Khoá học học máy ứng dụng để biết thêm thông tin.

hành lý

#df

Một phương thức để huấn luyện một bộ mô hình, trong đó mỗi mô hình thành phần được huấn luyện trên một tập hợp con ngẫu nhiên của các ví dụ huấn luyện được lấy mẫu có thay thế. Ví dụ: khu rừng ngẫu nhiên là tập hợp cây quyết định được huấn luyện bằng cách đóng bao.

Thuật ngữ bagging là viết tắt của bootstrap aggregating.

Hãy xem phần Rừng ngẫu nhiên trong khoá học Rừng quyết định để biết thêm thông tin.

túi từ

#language

Biểu thị các từ trong một cụm từ hoặc đoạn văn, bất kể thứ tự. Ví dụ: túi từ đại diện cho ba cụm từ sau đây giống hệt nhau:

  • con chó nhảy
  • nhảy lên chó
  • chó nhảy

Mỗi từ được liên kết với một chỉ mục trong vectơ thưa, trong đó vectơ có một chỉ mục cho mỗi từ trong từ vựng. Ví dụ: cụm từ the dog jumps (con chó nhảy) được ánh xạ vào một vectơ đặc trưng có giá trị khác 0 tại 3 chỉ mục tương ứng với các từ the (cái), dog (chó) và jumps (nhảy). Giá trị khác 0 có thể là bất kỳ giá trị nào sau đây:

  • Số 1 để cho biết có một từ.
  • Số lần một từ xuất hiện trong túi. Ví dụ: nếu cụm từ chó nâu sẫm là chó có lông màu nâu sẫm, thì cả hai maroondog sẽ được biểu thị là 2, trong khi các từ khác sẽ được biểu diễn dưới dạng 1.
  • Một số giá trị khác, chẳng hạn như lôgarit của số đếm số số lần một từ xuất hiện trong túi.

đường cơ sở

Mô hình được dùng làm điểm tham chiếu để so sánh hiệu quả của (thường là một mô hình phức tạp hơn) đang hoạt động hiệu quả. Ví dụ: một mô hình hồi quy logistic có thể đóng vai trò là đường cơ sở phù hợp cho mô hình sâu.

Đối với một vấn đề cụ thể, đường cơ sở giúp nhà phát triển mô hình định lượng hiệu suất tối thiểu dự kiến mà mô hình mới phải đạt được để mô hình mới đó hữu ích.

#fundamentals

Tập hợp ví dụ được sử dụng trong một lặp lại huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Hãy xem phần thời gian bắt đầu để biết nội dung giải thích về mối quan hệ giữa một lô với thời gian bắt đầu.

Xem Hồi quy tuyến tính: Siêu tham số trong Khoá học nhanh về máy học để biết thêm thông tin.

suy luận hàng loạt

#TensorFlow
#GoogleCloud

Quá trình suy luận các dự đoán về nhiều ví dụ không có nhãn chia thành các phần nhỏ hơn các tập hợp con ("lô sản phẩm").

Suy luận theo lô có thể tận dụng tính năng song song hoá của khối tăng tốc. Tức là có nhiều trình tăng tốc có thể đồng thời dự đoán các dự đoán về nhiều lô không được gắn nhãn khác nhau làm tăng đáng kể số lượng suy luận mỗi giây.

Hãy xem phần Hệ thống ML thương mại: Suy luận tĩnh so với động trong khoá học cấp tốc về học máy để biết thêm thông tin.

chuẩn hoá theo lô

Chuẩn hoá đầu vào hoặc đầu ra của hàm kích hoạt trong một lớp ẩn. Phương pháp chuẩn hoá theo lô có thể mang lại các lợi ích sau:

kích thước lô

#fundamentals

Số lượng ví dụ trong một gói. Ví dụ: nếu kích thước lô là 100 thì mô hình sẽ xử lý 100 ví dụ cho mỗi vòng lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

  • Giảm độ dốc ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • Toàn bộ lô, trong đó kích thước lô là số lượng ví dụ trong toàn bộ nhóm huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
  • tập hợp nhỏ, trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

Hãy xem những nội dung sau để biết thêm thông tin:

Mạng nơron Bayes

Mạng nơron có tính xác suất, tính đến độ không chắc chắn trong trọng số và đầu ra. Mô hình hồi quy mạng nơron tiêu chuẩn thường dự đoán một giá trị vô hướng; ví dụ: mô hình tiêu chuẩn dự đoán giá nhà là 853.000. Ngược lại, mạng nơron Bayes dự đoán sự phân phối của values; ví dụ: mô hình Bayes dự đoán giá nhà là 853.000 với độ lệch chuẩn 67.200.

Mạng nơron Bayesian dựa vào Định lý Bayes để tính toán độ không chắc chắn trong các trọng số và dự đoán. Mạng nơron Bayes có thể hữu ích khi cần định lượng độ không chắc chắn, chẳng hạn như liên quan đến dược phẩm. Mạng nơron Bayesian cũng có thể giúp ngăn chặn việc đưa ra mô hình quá phù hợp.

Tối ưu hoá Bayesian

Mô hình hồi quy xác suất kỹ thuật tối ưu hoá chi phí tính toán hàm mục tiêu bằng cách tối ưu hoá giá trị thay thế để định lượng độ không chắc chắn bằng cách sử dụng kỹ thuật học của Bayes. Từ Phương pháp tối ưu hoá Bayes rất tốn kém, phương pháp này thường được dùng để tối ưu hoá công việc tốn kém để đánh giá công việc có một số ít tham số, chẳng hạn như chọn hyperparameters.

Phương trình Bellman

#rl

Trong học tăng cường, hàm-Q tối ưu thỏa mãn bản sắc sau:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Thuật toán Học tăng cường áp dụng mô hình này danh tính để tạo Q- Learning thông qua quy tắc cập nhật sau đây:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Ngoài việc học tăng cường, phương trình Bellman còn có ứng dụng cho lập trình động. Xem bài viết trên Wikipedia về phương trình Bellman.

BERT (Bộ mã hoá hai chiều Thông tin đại diện từ Transformers)

#language

Cấu trúc mô hình cho phần trình bày văn bản. Mô hình BERT đã huấn luyện có thể đóng vai trò là một phần của mô hình lớn hơn để phân loại văn bản hoặc các nhiệm vụ khác về máy học.

BERT có các đặc điểm sau:

Các biến thể của BERT bao gồm:

  • ALBERT! là từ viết tắt của A Light BERT.
  • LaBSE.

Hãy xem bài viết BERT nguồn mở: Công nghệ huấn luyện trước tiên tiến để xử lý ngôn ngữ tự nhiên để biết thông tin tổng quan về BERT.

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người, hoặc nhóm nhiều hơn các dịch vụ khác. Những thành kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác với hệ thống. Các hình thức của loại thiên vị này bao gồm:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Sau đây là một số hình thức của loại thiên kiến này:

Đừng nhầm lẫn với thuật ngữ độ lệch trong các mô hình học máy hoặc thiên kiến dự đoán.

Hãy xem bài viết Công bằng: Các loại thiên kiến về Khoá học nhanh về học máy để biết thêm thông tin.

thiên kiến (toán học) hoặc thuật ngữ thiên kiến

#fundamentals

Giá trị cắt hoặc độ dời từ một gốc. Sai số là một tham số trong các mô hình học máy, được biểu thị bằng một trong các ký hiệu sau:

  • b
  • t0

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Biểu đồ của một đường có độ dốc là 0,5 và độ lệch (giao điểm y) là 2.

Sự thiên lệch tồn tại vì không phải tất cả mô hình đều bắt đầu từ gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cửa là 2 Euro và phí thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, mô hình liên kết tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn giữa thiên vị với thiên vị trong đạo đức và công bằng hoặc thiên kiến dự đoán.

Hãy xem phần Phương pháp hồi quy tuyến tính trong khoá học Học máy ứng dụng để biết thêm thông tin.

hai chiều

#language

Thuật ngữ dùng để mô tả một hệ thống đánh giá văn bản trướcsau một phần văn bản mục tiêu. Ngược lại, hệ thống một chiều chỉ đánh giá văn bản trước một phần văn bản mục tiêu.

Ví dụ: hãy xem xét một mô hình ngôn ngữ bị che phải xác định xác suất cho từ hoặc các từ đại diện cho dấu gạch dưới trong câu hỏi sau:

_____ ở đâu với bạn?

Mô hình ngôn ngữ một chiều sẽ chỉ dựa trên xác suất vào ngữ cảnh được cung cấp qua các từ "What", "is" và "the". Ngược lại, mô hình ngôn ngữ hai chiều cũng có thể lấy ngữ cảnh từ "với" và "bạn", điều này có thể giúp mô hình tạo ra kết quả dự đoán tốt hơn.

mô hình ngôn ngữ hai chiều

#language

Mô hình ngôn ngữ xác định xác suất một mã thông báo nhất định xuất hiện ở một vị trí nhất định trong một đoạn văn bản dựa trên văn bản trước đósau đó.

bigram

#seq
#language

N-gram trong đó N=2.

phân loại nhị phân

#fundamentals

Một loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: hai mô hình học máy sau đây đều hoạt động phân loại nhị phân:

  • Mô hình xác định xem thư email là thư rác (lớp dương) hay không phải thư rác (lớp âm).
  • Mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc một bệnh cụ thể hay không (lớp dương tính) hoặc không mắc bệnh đó (lớp âm tính).

Trái ngược với phương thức phân loại nhiều lớp.

Xem thêm về biến hồi quy logisticngưỡng phân loại.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

điều kiện nhị phân

#df

Trong cây quyết định, điều kiện chỉ có thể có hai kết quả, thường là hoặc không. Ví dụ: sau đây là một điều kiện nhị phân:

temperature >= 100

Tương phản với điều kiện không nhị phân.

Hãy xem phần Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

phân thùng

Từ đồng nghĩa với nhóm.

BLEU (Bilingual Evaluation Understudy – Thử nghiệm đánh giá song ngữ)

#language

Điểm số từ 0 đến 1, cho biết chất lượng của bản dịch giữa hai ngôn ngữ của con người (ví dụ: giữa tiếng Anh và tiếng Nga). BLEU (BLEU) điểm 1.0 cho biết bản dịch hoàn hảo; điểm BLEU là 0.0 cho thấy bản dịch rất tệ.

tăng cường

Một kỹ thuật học máy kết hợp lặp lại một nhóm gồm các không chính xác lắm (được gọi là thuật toán phân loại "yếu") thành một bộ lọc thuật toán phân loại với độ chính xác cao (một thuật toán phân loại "mạnh") bằng cách tăng trọng số cho các ví dụ mà mô hình hiện đang phân loại sai.

Xem phần Cây quyết định tăng cường theo độ dốc trong khoá học về Rừng quyết định để biết thêm thông tin.

hộp giới hạn

#image

Trong một hình ảnh, tọa độ (x, y) của một hình chữ nhật xung quanh một khu vực quan tâm, chẳng hạn như chú chó trong hình ảnh bên dưới.

Ảnh chụp một chú chó đang ngồi trên ghế sofa. Một hộp giới hạn màu xanh lục với toạ độ trên cùng bên trái là (275, 1271) và toạ độ dưới cùng bên phải là (2954, 2761) bao quanh cơ thể của chú chó

đang phát sóng

Mở rộng hình dạng của toán hạng trong phép toán ma trận thành phương diện tương thích với phép toán đó. Ví dụ: Đại số tuyến tính yêu cầu hai toán hạng trong phép cộng ma trận phải có cùng kích thước. Do đó, bạn không thể thêm ma trận hình dạng (m, n) thành vectơ có độ dài n. Tính năng truyền tin cho phép thao tác này bằng cách mở rộng ảo vectơ có độ dài n thành ma trận có hình (m, n) bằng cách sao chép cùng các giá trị xuống mỗi cột.

Ví dụ: với các định nghĩa sau đây, đại số tuyến tính cấm A+B vì A và B có phương diện khác nhau:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuy nhiên, tính năng phát sóng cho phép hoạt động A+B bằng cách mở rộng ảo B thành:

 [[2, 2, 2],
  [2, 2, 2]]

Do đó, A+B hiện là một phép toán hợp lệ:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Hãy xem nội dung mô tả sau đây về tính năng truyền tin trong NumPy để biết thêm thông tin chi tiết.

phân giỏ

#fundamentals

Chuyển đổi một tính năng duy nhất thành nhiều đối tượng nhị phân được gọi là ô hoặc thùng, thường dựa trên phạm vi giá trị. Tính năng cắt thường là một tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục, bạn có thể cắt các phạm vi nhiệt độ thành các bộ chứa riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ là nhiệt độ "lạnh" bộ chứa.
  • 11 – 24 độ C sẽ là nhóm "trung bình".
  • >= 25 độ C sẽ là nhiệt độ "ấm" bộ chứa.

Mô hình sẽ xử lý mọi giá trị trong cùng một nhóm giống nhau. Để Ví dụ: giá trị 1322 đều nằm trong bộ chứa ôn hoà, do đó mô hình xử lý hai giá trị giống hệt nhau.

Xem Dữ liệu số: Kết hợp trong Khoá học nhanh về máy học để biết thêm thông tin.

C

tầng hiệu chỉnh

Giá trị điều chỉnh sau khi dự đoán, thường là để tính đến tính thiên vị của kết quả dự đoán. Các dự đoán được điều chỉnh và xác suất phải khớp với phân phối của tập hợp nhãn quan sát được.

tạo đề xuất

#recsystems

Bộ đề xuất ban đầu do hệ thống đề xuất. Ví dụ: hãy cân nhắc hiệu sách cung cấp 100.000 đầu sách. Giai đoạn tạo đề xuất tạo một danh sách sách phù hợp nhỏ hơn nhiều cho một người dùng cụ thể, giả sử là 500 cuốn. Nhưng ngay cả khi 500 cuốn sách là quá nhiều để giới thiệu cho người dùng. Các giai đoạn tiếp theo, tốn kém hơn của hệ thống đề xuất (chẳng hạn như đánh giáxếp hạng lại) sẽ giảm 500 đề xuất đó xuống một nhóm đề xuất nhỏ hơn và hữu ích hơn nhiều.

Xem bài viết Tạo ứng viên tổng quan trong khoá học Hệ thống đề xuất để biết thêm thông tin.

lấy mẫu đề xuất

Tối ưu hoá tại thời gian huấn luyện để tính xác suất cho tất cả tích cực, chẳng hạn như softmax, nhưng chỉ dành cho người dùng ngẫu nhiên mẫu nhãn âm. Ví dụ: với một ví dụ được gắn nhãn beagledog (chó săn sục và chó), tính năng lấy mẫu đề xuất sẽ tính toán xác suất dự đoán và các thuật toán tổn thất tương ứng cho:

  • beagle
  • chó
  • một tập hợp con ngẫu nhiên các lớp phủ định còn lại (ví dụ: mèo, lollipop, hàng rào).

Ý tưởng là các lớp phủ định có thể học hỏi từ những lớp học ít thường xuyên hơn tăng cường âm, miễn là các lớp tích cực luôn nhận được kết quả tích cực đúng và điều này thực sự được quan sát theo kinh nghiệm.

Việc lấy mẫu ứng viên có hiệu quả tính toán hơn so với thuật toán huấn luyện để tính toán các dự đoán cho tất cả các lớp phủ định, đặc biệt là khi số lượng lớp phủ định là rất lớn.

dữ liệu phân loại

#fundamentals

Tính năng có một tập hợp giá trị có thể có. Ví dụ: hãy xem xét một tính năng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị sau:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một đối tượng phân loại, một mô hình có thể học những tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Đôi khi, các tính năng phân loại được gọi là tính năng rời.

Tương phản với dữ liệu dạng số.

Xem Làm việc với danh mục phân loại bằng nhiều dữ liệu trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình ngôn ngữ nhân quả

#language

Từ đồng nghĩa với mô hình ngôn ngữ một chiều.

Xem mô hình ngôn ngữ hai chiều để đối chiếu các cách tiếp cận định hướng khác nhau trong mô hình ngôn ngữ.

tâm

#clustering

Tâm của một cụm do thuật toán k-means hoặc k-median xác định. Ví dụ: nếu k là 3, thì thuật toán k-means hoặc k-median sẽ tìm thấy 3 tâm điểm.

Xem bài viết Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

phân cụm dựa trên tâm

#clustering

Một danh mục thuật toán cụm giúp sắp xếp dữ liệu thành các cụm không phân cấp. k-means là phương thức phổ biến nhất đã sử dụng thuật toán phân cụm dựa trên trọng tâm.

Trái ngược với tính năng phân cụm phân cấp các thuật toán.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

câu lệnh gợi ý theo chuỗi suy nghĩ

#language
#generativeAI

Kỹ thuật kỹ thuật câu lệnh khuyến khích mô hình ngôn ngữ lớn (LLM) giải thích từng bước lý do của nó. Ví dụ: hãy xem xét lời nhắc sau đây, thanh toán đặc biệt chú ý đến câu thứ hai:

Người lái xe có bao nhiêu lực g trong một chiếc ô tô đi từ 0 đến 60 số dặm trên một giờ trong 7 giây? Trong câu trả lời, hãy trình bày tất cả các phép tính liên quan.

Câu trả lời của LLM có thể là:

  • Hiển thị một chuỗi các công thức vật lý với các giá trị 0, 60 và 7 ở các vị trí thích hợp.
  • Giải thích lý do chọn những công thức đó và ý nghĩa của các biến.

Việc nhắc chuỗi suy nghĩ buộc LLM thực hiện tất cả các phép tính, để có thể đưa ra câu trả lời chính xác hơn. Ngoài ra, chuỗi suy nghĩ Tính năng nhắc cho phép người dùng kiểm tra các bước của LLM để xác định xem hoặc không thì câu trả lời đều có ý nghĩa.

trò chuyện

#language
#generativeAI

Nội dung của cuộc trò chuyện qua lại với một hệ thống học máy, thường là một mô hình ngôn ngữ lớn. Lượt tương tác trước đó trong một cuộc trò chuyện (nội dung bạn đã nhập và cách mô hình ngôn ngữ lớn phản hồi) trở thành cho các phần tiếp theo của cuộc trò chuyện.

Chatbot là một ứng dụng của mô hình ngôn ngữ lớn.

chốt kiểm tra

Dữ liệu ghi lại trạng thái tham số của mô hình trong khi đào tạo hoặc sau khi đào tạo xong. Ví dụ: trong quá trình huấn luyện, bạn có thể:

  1. Dừng huấn luyện, có thể là do chủ ý hoặc do một số lỗi nhất định.
  2. Ghi lại điểm kiểm tra.
  3. Sau đó, hãy tải lại điểm kiểm tra, có thể là trên phần cứng khác.
  4. Khởi động lại quá trình huấn luyện.

lớp

#fundamentals

Danh mục có thể thuộc về nhãn. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện thư rác thì hai loại này có thể là thư ráckhông phải thư rác.
  • Trong mô hình phân loại nhiều lớp để xác định các giống chó, các lớp có thể là poodle, beagle, pug, và cứ tiếp tục như vậy.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán số lượng thay vì một lớp.

Xem phần Phân loại trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình phân loại

#fundamentals

Một mô hình có dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của một câu đầu vào (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
  • Một mô hình dự đoán các loài cây (Maple? Cây sồi? Baobab?).
  • Mô hình dự đoán lớp dương tính hoặc âm tính cho một tình trạng bệnh cụ thể.

Ngược lại, mô hình hồi quy dự đoán số liệu thay vì lớp.

Hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, từ 0 đến 1 để chuyển đổi đầu ra thô của Mô hình hồi quy logistic thành một thông tin dự đoán cho nhóm giá trị dương hoặc lớp phủ định. Xin lưu ý rằng ngưỡng phân loại là một giá trị do con người chọn, không phải là giá trị được chọn bởi quá trình huấn luyện mô hình.

Mô hình hồi quy logistic đưa ra giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình dự đoán lớp dương. Nếu giá trị thô là 0, 7 thì mô hình dự đoán lớp âm.

Lựa chọn ngưỡng phân loại ảnh hưởng rất lớn đến số lượng dương tính giảâm tính giả.

Xem Ngưỡng và sự nhầm lẫn ma trận trong Khoá học nhanh về máy học để biết thêm thông tin.

tập dữ liệu bất cân bằng về lớp

#fundamentals

Tập dữ liệu cho một bài toán phân loại trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

  • 1.000.000 nhãn phủ định
  • 10 nhãn khẳng định

Tỷ lệ nhãn âm so với nhãn dương là 100.000 trên 1, vì vậy, đây là một tập dữ liệu bất cân đối về loại.

Ngược lại, tập dữ liệu sau đây không mất cân bằng lớp vì tỷ lệ nhãn âm so với nhãn dương tương đối gần với 1:

  • 517 nhãn phủ định
  • 483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: như sau tập dữ liệu phân loại nhiều lớp cũng không cân bằng về lớp vì một nhãn có nhiều ví dụ hơn nhiều so với hai ví dụ còn lại:

  • 1.000.000 nhãn có lớp "green"
  • 200 nhãn có lớp "purple"
  • 350 nhãn có loại "cam"

Xem thêm entropy, lớp đa sốlớp thiểu số.

cắt bớt

#fundamentals

Một kỹ thuật để xử lý điểm ngoại lai bằng cách làm một hoặc cả hai việc sau:

  • Giảm các giá trị feature lớn hơn giá trị tối đa xuống đến ngưỡng tối đa đó.
  • Tăng giá trị tính năng nhỏ hơn ngưỡng tối thiểu, lên tới ngưỡng đó ngưỡng tối thiểu.

Ví dụ: giả sử <0,5% giá trị của một tính năng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành chính xác 40.

Giá trị ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số tràn trong quá trình huấn luyện. Một số giá trị ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt là một kỹ thuật phổ biến để hạn chế thiệt hại.

Lực cắt độ dốc Các giá trị gradient trong phạm vi được chỉ định trong quá trình huấn luyện.

Hãy xem phần Dữ liệu số: Bình thường hoá trong khoá học cấp tốc về học máy để biết thêm thông tin.

Cloud TPU

#TensorFlow
#GoogleCloud

Một trình tăng tốc phần cứng chuyên biệt được thiết kế để tăng tốc khối lượng công việc của máy học trên Google Cloud.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong học không giám sát. Sau khi tất cả các ví dụ được nhóm lại, người dùng có thể tuỳ ý cung cấp ý nghĩa cho mỗi cụm.

Có nhiều thuật toán phân cụm. Ví dụ: thuật toán k-means phân cụm các ví dụ dựa trên khoảng cách của các ví dụ đó với trung tâm trọng lực, như trong sơ đồ sau:

Biểu đồ hai chiều trong đó trục x được gắn nhãn chiều rộng cây,
          và trục y được gắn nhãn chiều cao của cây. Biểu đồ chứa hai
          tâm và hàng chục điểm dữ liệu. Các điểm dữ liệu được phân loại dựa trên khoảng cách của chúng. Tức là các điểm dữ liệu gần nhất với một tâm điểm được phân loại là cụm 1, trong khi các điểm dữ liệu gần nhất với tâm điểm còn lại được phân loại là cụm 2.

Sau đó, nhà nghiên cứu có thể xem xét các cụm này và ví dụ: gắn nhãn cụm 1 là "cây lùn" và cụm 2 là "cây kích thước đầy đủ".

Ví dụ khác: hãy xem xét thuật toán phân cụm dựa trên khoảng cách của một ví dụ từ một điểm trung tâm, minh hoạ như sau:

Hàng chục điểm dữ liệu được sắp xếp theo hình tròn đồng tâm, gần giống như các lỗ xung quanh tâm của bảng phi tiêu. Vòng trong cùng của các điểm dữ liệu được phân loại là cụm 1, vòng giữa được phân loại là cụm 2 và vòng ngoài cùng được phân loại là cụm 3.

Xem khoá học về Phân cụm để biết thêm thông tin.

đồng thích ứng

Khi nơ-ron dự đoán các mẫu trong dữ liệu huấn luyện bằng cách dựa vào hầu như chỉ dựa vào đầu ra của các nơron cụ thể khác thay vì dựa vào về hành vi của mạng nói chung. Trường hợp các mẫu gây ra hiện tượng đồng thích ứng không có trong dữ liệu xác thực, thì quá trình đồng thích ứng sẽ gây ra hiện tượng quá mức. Điều chỉnh tỷ lệ bỏ ngang giúp giảm khả năng đồng thích ứng vì sự sụt giảm đảm bảo các nơron không thể chỉ dựa vào các nơron cụ thể khác.

lọc cộng tác

#recsystems

Dự đoán mối quan tâm của một người dùng dựa trên mối quan tâm của nhiều người dùng khác. Lọc cộng tác thường được dùng trong hệ thống đề xuất.

Xem phần Cộng tác lọc trong khoá học Hệ thống đề xuất để biết thêm thông tin.

độ trôi của khái niệm

Thay đổi trong mối quan hệ giữa các tính năng và nhãn. Theo thời gian, sự dịch chuyển khái niệm sẽ làm giảm chất lượng của mô hình.

Trong quá trình huấn luyện, mô hình sẽ tìm hiểu mối quan hệ giữa các tính năng và nhãn của họ trong tập huấn luyện. Nếu nhãn trong tập huấn luyện là giá trị đại diện tốt cho thế giới thực, thì mô hình sẽ đưa ra dự đoán tốt về thế giới thực. Tuy nhiên, do sự trôi dạt khái niệm, nên khả năng gợi ý có xu hướng suy giảm theo thời gian.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán xem một mẫu xe nhất định có "tiết kiệm nhiên liệu" hay không. Tức là các tính năng có thể:

  • trọng lượng ô tô
  • nén động cơ
  • loại truyền dữ liệu

trong khi nhãn là:

  • tiết kiệm nhiên liệu
  • không tiết kiệm nhiên liệu

Tuy nhiên, khái niệm "xe tiết kiệm nhiên liệu" liên tục thay đổi. Một mẫu ô tô được gắn nhãn tiết kiệm nhiên liệu vào năm 1994 gần như chắc chắn sẽ được gắn nhãn không tiết kiệm nhiên liệu vào năm 2024. Một mô hình bị ảnh hưởng bởi sự trôi dạt khái niệm có xu hướng đưa ra các dự đoán ít hữu ích và ít hữu ích hơn theo thời gian.

So sánh và đối chiếu với tính không ổn định.

điều kiện

#df

Trong cây quyết định, mọi nút đều đánh giá một biểu thức. Ví dụ: phần sau của cây quyết định chứa hai điều kiện:

Cây quyết định bao gồm hai điều kiện: (x > 0) và
          (y > 0).

Điều kiện còn được gọi là phần phân tách hoặc kiểm thử.

Điều kiện tương phản với .

Xem thêm:

Hãy xem phần Các loại điều kiện trong khoá học Rừng quyết định để biết thêm thông tin.

hoang tưởng

#language

Từ đồng nghĩa với ảo giác.

Có lẽ ảo tưởng là thuật ngữ chính xác hơn về mặt kỹ thuật so với hoang tưởng. Tuy nhiên, ảo giác đã trở nên phổ biến trước.

cấu hình

Quá trình chỉ định giá trị thuộc tính ban đầu được dùng để huấn luyện một mô hình, bao gồm:

Trong các dự án học máy, việc định cấu hình có thể được thực hiện thông qua một hoặc sử dụng các thư viện cấu hình như sau:

thiên kiến xác nhận

#fairness

Xu hướng tìm kiếm, diễn giải, ưu tiên và nhớ lại thông tin trong xác nhận niềm tin hoặc giả thuyết có sẵn của một người. Nhà phát triển công nghệ học máy có thể vô tình thu thập hoặc gắn nhãn theo những cách ảnh hưởng đến kết quả hỗ trợ kết quả hiện có niềm tin của mình. Thiên kiến xác nhận là một dạng thiên kiến ngầm.

Thành kiến của người thử nghiệm là một dạng thiên kiến xác nhận trong đó một người thử nghiệm tiếp tục các mô hình huấn luyện cho đến khi có sẵn một mô hình giả thuyết được xác nhận.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho một mô hình phân loại nhị phân:

Khối u (dự đoán) Không phải khối u (dự đoán)
U (thông tin thực tế) 18 (TP) 1 (FN)
Không phải khối u (sự thật) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

  • Trong số 19 dự đoán mà thông tin thực tế là Tumor, mô hình được phân loại chính xác 18 và phân loại không chính xác 1.
  • Trong số 458 dự đoán mà theo đó sự thật thực tế là Không phải khối u, mô hình phân loại chính xác 452 và phân loại không chính xác 6.

Ma trận nhầm lẫn cho phân loại nhiều lớp có thể giúp bạn xác định các quy luật sai lầm. Ví dụ: hãy xem xét ma trận nhầm lẫn sau cho lớp 3 mô hình phân loại nhiều lớp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi sự thật là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng nhầm lẫn dự đoán Versicolor hơn Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (sự thật trên mặt đất) 88 12 0
Versicolor (thông tin thực tế) 6 141 7
Virginica (thông tin thực tế) 2 27 109

Ví dụ khác: một ma trận nhầm lẫn có thể cho thấy rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4 hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xácghi nhớ.

phân tích cú pháp khu vực bầu cử

#language

Chia một câu thành các cấu trúc ngữ pháp nhỏ hơn ("thành phần"). Phần sau của hệ thống ML, chẳng hạn như mô hình hiểu ngôn ngữ tự nhiên, có thể phân tích cú pháp các thành phần dễ dàng hơn câu gốc. Ví dụ: hãy xem xét câu sau:

Bạn tôi đã nhận nuôi hai chú mèo.

Một trình phân tích cú pháp khu vực bầu cử có thể chia câu này thành như sau hai thành phần:

  • Bạn của tôi là một cụm danh từ.
  • nhận nuôi hai chú mèo là một cụm động từ.

Các thành phần này có thể được chia nhỏ hơn nữa thành các thành phần nhỏ hơn. Ví dụ: cụm động từ

nhận nuôi hai chú mèo

có thể được chia nhỏ hơn nữa thành:

  • đã cho phép là một động từ.
  • hai con mèo là một cụm danh từ khác.

nhúng ngôn ngữ theo ngữ cảnh

#language
#generativeAI

Một mã nhúng gần như "hiểu" các từ và cụm từ theo cách mà người bản địa có thể hiểu. Các phần nhúng ngôn ngữ theo ngữ cảnh có thể hiểu được cú pháp, ngữ nghĩa và ngữ cảnh phức tạp.

Ví dụ: hãy xem xét việc nhúng từ tiếng Anh cow. Các mục nhúng cũ hơn chẳng hạn như word2vec có thể biểu thị tiếng Anh sao cho khoảng cách trong không gian nhúng từ đến bò cái tương tự như khoảng cách từ bò cái (cừu cái) đến cừu đực (cừu đực) hoặc từ cựu cái sang con đực. Ngôn ngữ theo ngữ cảnh các tính năng nhúng có thể tiến xa hơn nữa bằng cách nhận ra rằng đôi khi, người nói tiếng Anh ngẫu nhiên dùng từ để chỉ con bò hoặc bò đực.

cửa sổ ngữ cảnh

#language
#generativeAI

Số lượng mã thông báo mà một mô hình có thể xử lý trong một lời nhắc nhất định. Cửa sổ ngữ cảnh càng lớn, thì thông tin càng nhiều mà mô hình đó có thể dùng để đưa ra câu trả lời mạch lạc và nhất quán vào lời nhắc.

tính năng liên tục

#fundamentals

Tính năng dấu phẩy động có phạm vi vô hạn các giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng tách biệt.

lấy mẫu tiện lợi

Sử dụng tập dữ liệu không được thu thập một cách khoa học để chạy nhanh thử nghiệm. Sau đó, bạn cần chuyển sang một tập dữ liệu được thu thập một cách khoa học.

sự hội tụ

#fundamentals

Trạng thái đạt khi các giá trị mất thay đổi rất ít hoặc không hề đơn giản với từng vòng lặp. Ví dụ: như sau đường cong mất cho thấy sự hội tụ ở khoảng 700 lần lặp:

Cốt truyện Descartes. Trục X biểu thị sự mất mát. Trục Y là số lần lặp lại quá trình huấn luyện. Mất mát rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp lại, tổn thất vẫn giảm nhưng chậm hơn nhiều. Sau khoảng 700 lần lặp lại,
          mức tổn thất vẫn không thay đổi.

Mô hình hội tụ khi việc huấn luyện thêm sẽ không cải thiện mô hình.

Trong học sâu, giá trị tổn thất đôi khi không đổi hoặc gần như vậy cho nhiều lần lặp lại trước khi giảm dần. Trong một khoảng thời gian dài của giá trị tổn hao không đổi, bạn có thể tạm thời hiểu nhầm về sự hội tụ.

Xem thêm phần dừng sớm.

Xem phần Hội tụ và mất mô hình đường cong trong Khoá học nhanh về máy học để biết thêm thông tin.

hàm lồi

Một hàm trong đó vùng phía trên biểu đồ của hàm là một tập hợp lồi. Hàm lồi nguyên mẫu là có hình dạng giống như chữ cái U. Ví dụ: sau đây là tất cả các hàm lồi:

Đường cong hình chữ U, mỗi đường cong có một điểm cực tiểu.

Ngược lại, hàm sau đây không phải là hàm lồi. Hãy lưu ý cách vùng phía trên biểu đồ không phải là tập hợp lồi:

Một đường cong hình chữ W có hai điểm tối thiểu cục bộ khác nhau.

Hàm lồi nghiêm ngặt có đúng một điểm tối thiểu cục bộ, cũng là điểm tối thiểu toàn cầu. Các hàm hình chữ U cổ điển là hàm lồi nghiêm ngặt. Tuy nhiên, một số hàm lồi (ví dụ: các đường thẳng) không phải là hình chữ U.

Hãy xem phần Hàm hội tụ và hàm lồi trong khoá học cấp tốc về học máy để biết thêm thông tin.

tối ưu hoá lồi

Quá trình sử dụng các kỹ thuật toán học như hiệu ứng giảm độ dốc để tìm giá trị nhỏ nhất của hàm lồi. Rất nhiều nghiên cứu trong lĩnh vực học máy đã tập trung vào việc xây dựng nhiều vấn đề dưới dạng vấn đề tối ưu hoá lồi và giải quyết các vấn đề đó hiệu quả hơn.

Để biết toàn bộ thông tin chi tiết, hãy xem Boyd và Vandenberghe, Tối ưu hoá cong.

tập hợp lồi

Một tập hợp con của không gian Euclide sao cho một đường kẻ giữa hai điểm bất kỳ trong tập hợp con vẫn nằm hoàn toàn trong tập hợp con đó. Ví dụ: hai hình dạng sau đây là tập hợp lồi:

Một hình minh hoạ một hình chữ nhật. Một hình minh hoạ khác về hình bầu dục.

Ngược lại, hai hình dạng sau đây không phải là tập hợp lồi:

Một hình minh hoạ biểu đồ hình tròn bị thiếu một lát cắt.
          Hình minh hoạ khác về một đa giác rất bất thường.

tích chập

#image

Trong toán học, nói một cách đơn giản, đây là sự kết hợp của hai hàm. Trong máy học tập, một tích chập kết hợp thuật toán tích chập bộ lọc và ma trận đầu vào để huấn luyện trọng số.

Thuật ngữ "convolution" (phương pháp tích chập) trong học máy thường là cách viết tắt để tham chiếu đến toán tử tích chập hoặc lớp tích chập.

Nếu không có tích chập, thuật toán học máy sẽ phải học một trọng số riêng cho mỗi ô trong một tensor lớn. Ví dụ: thuật toán học máy đào tạo hình ảnh 2K x 2K sẽ buộc phải tìm 4M trọng số riêng biệt. Nhờ có tích chập, một công nghệ học máy thuật toán chỉ phải tìm trọng số của mỗi ô trong bộ lọc tích chập, giúp giảm đáng kể bộ nhớ cần thiết để huấn luyện mô hình. Khi bộ lọc tích chập là nó chỉ được sao chép trên các ô sao cho mỗi ô được nhân theo bộ lọc.

Hãy xem phần Giới thiệu về mạng nơron xoáy trong khoá học Phân loại hình ảnh để biết thêm thông tin.

bộ lọc tích chập

#image

Một trong hai thành phần trong một toán tử tích chập. (Thực thể khác là một lát của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có có cùng xếp hạng như ma trận đầu vào nhưng có hình dạng nhỏ hơn. Ví dụ: với ma trận đầu vào 28x28, bộ lọc có thể là bất kỳ ma trận 2D nào nhỏ hơn 28x28.

Khi thao tác với ảnh, tất cả các ô trong bộ lọc tích chập đều thường được thiết lập thành một mẫu không đổi gồm một và 0. Trong học máy, các bộ lọc tích chập thường được tạo bằng số ngẫu nhiên, sau đó mạng huấn luyện các giá trị lý tưởng.

Xem bài viết Tích chập trong khoá học Phân loại hình ảnh để biết thêm thông tin.

lớp tích chập

#image

Một lớp của mạng nơron sâu, trong đó bộ lọc tích chập truyền dọc theo một ma trận đầu vào. Ví dụ: hãy xem xét bộ lọc tích chập 3x3 sau đây:

Ma trận 3x3 với các giá trị sau: [[0,1,0], [1,0,1], [0,1,0]]

Ảnh động sau đây cho thấy một lớp convolutional bao gồm 9 phép toán convolutional liên quan đến ma trận đầu vào 5x5. Lưu ý rằng mỗi phép tính tích chập hoạt động trên một lát cắt 3x3 khác nhau của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép tích chập:

Ảnh động minh hoạ 2 ma trận. Ma trận thứ nhất là ma trận 5x5
          ma trận: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Ma trận thứ hai là ma trận 3x3:
          [[181.303.618], [115.338.605], [169.351.560]].
          Ma trận thứ hai được tính bằng cách áp dụng bộ lọc tích luỹ [[0, 1, 0], [1, 0, 1], [0, 1, 0]] trên các tập hợp con 3x3 khác nhau của ma trận 5x5.

Hãy xem phần Lớp kết nối đầy đủ trong khoá học Phân loại hình ảnh để biết thêm thông tin.

mạng nơron tích chập

#image

Mạng nơron trong đó có ít nhất một lớp là một lớp lớp tích chập. Tích chập điển hình mạng nơron bao gồm một số tổ hợp của các lớp sau:

Mạng nơron tích chập đã thành công lớn ở một số loại sự cố, chẳng hạn như nhận dạng hình ảnh.

phép tích chập

#image

Phép toán hai bước sau đây:

  1. Phép nhân trên các phần tử của bộ lọc tích chập và một phần của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng thứ hạng và kích thước với bộ lọc tích chập.)
  2. Tổng của tất cả các giá trị trong ma trận tích thu được.

Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:

Ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Giờ hãy tưởng tượng bộ lọc tích chập 2x2 sau đây:

Ma trận 2x2: [[1, 0], [0, 1]]

Mỗi phép toán tích chập bao gồm một lát cắt 2x2 của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở trên cùng bên trái của ma trận đầu vào. Do đó, phép tích chập trên lát cắt này sẽ có dạng như sau:

Áp dụng bộ lọc tích luỹ [[1, 0], [0, 1]] cho phần 2x2 ở trên cùng bên trái của ma trận đầu vào, tức là [[128,97], [35,22]].
          Bộ lọc tích chập giữ nguyên số 128 và 22, nhưng giá trị bằng 0
          giữa các số 97 và 35. Do đó, phép tích chập sẽ trả về giá trị 150 (128+22).

Lớp tích chập bao gồm một một chuỗi phép tính tích chập, mỗi phép toán hoạt động trên một lát cắt riêng của ma trận đầu vào.

chi phí

Từ đồng nghĩa với mất.

đồng đào tạo

Phương pháp học bán có giám sát đặc biệt hữu ích khi tất cả các điều kiện sau đây đều đúng:

Về cơ bản, tính năng huấn luyện đồng thời sẽ khuếch đại các tín hiệu độc lập thành một tín hiệu mạnh hơn. Ví dụ: hãy xem xét một mô hình phân loại phân loại từng chiếc xe đã qua sử dụng là Tốt hoặc Kém. Một nhóm tính năng dự đoán có thể tập trung vào các đặc điểm tổng hợp như năm, hãng và mẫu xe; một nhóm tính năng dự đoán khác có thể tập trung vào hồ sơ lái xe của chủ sở hữu trước đó và nhật ký bảo dưỡng của xe.

Bài viết quan trọng về chương trình hợp tác đào tạo là Kết hợp dữ liệu có gắn nhãn và không được gắn nhãn với Bên cùng đào tạo Blum và Mike.

tính công bằng phản thực tế

#fairness

Chỉ số về tính công bằng kiểm tra xem thuật toán phân loại có tạo ra cùng một kết quả cho một cá nhân như cho một cá nhân khác giống hệt với quy tắc đầu tiên, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Đánh giá một bộ phân loại về tính công bằng giả định là một phương pháp để đưa ra các nguồn tiềm ẩn gây ra thiên kiến trong mô hình.

Hãy xem một trong những nội dung sau để biết thêm thông tin:

thiên kiến bao phủ

#fairness

Xem phần thiên vị do cách chọn mẫu.

hoa va chạm

#language

Một câu hoặc cụm từ có ý nghĩa mơ hồ. Hoa tai nạn là một vấn đề đáng kể về tự nhiên hiểu ngôn ngữ. Ví dụ: dòng tiêu đề Red Tape Holds Up Skyscraper (Băng đỏ làm chậm toà nhà chọc trời) là một cụm từ hoa mỹ vì mô hình NLU có thể diễn giải dòng tiêu đề theo nghĩa đen hoặc nghĩa bóng.

nhà phê bình

#rl

Đồng nghĩa với Mạng Q sâu.

entropy chéo

Thông tin chung về tình trạng Mất nhật ký đối với bài toán phân loại nhiều lớp. Độ chênh lệch entropy định lượng sự khác biệt giữa hai hàm phân phối xác suất. Xem thêm sự phức tạp.

xác thực chéo

Cơ chế ước tính mức độ tổng quát hoá của một mô hình đối với dữ liệu mới bằng cách kiểm thử mô hình đó trên một hoặc nhiều tập hợp con dữ liệu không trùng lặp được giữ lại từ tập dữ liệu huấn luyện.

hàm phân phối tích lũy (CDF)

Một hàm xác định tần suất của các mẫu nhỏ hơn hoặc bằng một giá trị mục tiêu. Ví dụ: hãy xem xét một phân phối chuẩn của các giá trị liên tục. CDF cho bạn biết rằng khoảng 50% mẫu có thể nhỏ hơn hoặc bằng trung bình và khoảng 84% mẫu có thể nhỏ hơn hoặc bằng thành một độ lệch chuẩn trên giá trị trung bình.

D

phân tích dữ liệu

Có được sự hiểu biết về dữ liệu bằng cách xem xét mẫu, đo lường, và trực quan hoá thông tin. Phân tích dữ liệu có thể đặc biệt hữu ích khi nhận được tập dữ liệu đầu tiên, trước khi tạo mô hình đầu tiên. Điều này cũng rất quan trọng trong việc hiểu các thử nghiệm và gỡ lỗi các vấn đề với hệ thống.

tăng cường dữ liệu

#image

Tăng cường giả tạo phạm vi và số lượng Ví dụ về đào tạo bằng cách chuyển đổi tài sản hiện có ví dụ để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong các tính năng, nhưng tập dữ liệu của bạn không chứa đủ ví dụ về hình ảnh để mô hình có thể học được các mối liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh được gắn nhãn vào tập dữ liệu để mô hình của bạn có thể huấn luyện đúng cách. Nếu không thể, tính năng tăng cường dữ liệu có thể xoay, kéo giãn và phản chiếu từng hình ảnh để tạo ra nhiều biến thể của hình ảnh ban đầu, có thể tạo ra đủ dữ liệu được gắn nhãn để cho phép huấn luyện hiệu quả.

DataFrame

#fundamentals

Loại dữ liệu pandas phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc bảng tính. Mỗi cột của DataFrame có tên (tiêu đề) và mỗi hàng được xác định bằng số duy nhất.

Mỗi cột trong DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định một loại dữ liệu riêng.

Xem thêm Thông tin tham khảo về pandas.DataFrame .

tính song song dữ liệu

Cách mở rộng quy mô huấn luyện hoặc suy luận sao chép toàn bộ mô hình lên nhiều thiết bị rồi truyền một tập hợp con dữ liệu đầu vào đến mỗi thiết bị. Tính năng song song dữ liệu có thể hỗ trợ việc huấn luyện và suy luận trên kích thước lô rất lớn; tuy nhiên, tính năng song song dữ liệu yêu cầu mô hình phải đủ nhỏ để phù hợp với tất cả thiết bị.

Tính song song dữ liệu thường giúp tăng tốc độ huấn luyện và suy luận.

Xem thêm tính song song của mô hình.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

  • một bảng tính
  • tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

API Tập dữ liệu (tf.data)

#TensorFlow

API TensorFlow cấp cao để đọc dữ liệu và chuyển đổi dữ liệu đó thành một dạng mà thuật toán học máy yêu cầu. Đối tượng tf.data.Dataset đại diện cho một chuỗi các phần tử, trong đó mỗi phần tử chứa một hoặc nhiều Tensor. Một tf.data.Iterator đối tượng này cung cấp quyền truy cập vào các phần tử của Dataset.

ranh giới quyết định

Dấu phân cách giữa các lớp học được bằng mô hình theo lớp học nhị phân hoặc các bài toán về phân loại nhiều lớp. Ví dụ: trong hình ảnh sau đây thể hiện một vấn đề phân loại nhị phân, ranh giới quyết định là ranh giới giữa lớp màu cam và lớp màu xanh dương:

Ranh giới được xác định rõ ràng giữa lớp này và lớp khác.

rừng quyết định

#df

Mô hình được tạo từ nhiều cây quyết định. Nhóm rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm rừng ngẫu nhiênrừng tăng cường theo độ dốc.

Xem phần Quyết định Rừng trong khoá học Rừng quyết định để biết thêm thông tin.

ngưỡng quyết định

Từ đồng nghĩa với ngưỡng phân loại.

cây quyết định

#df

Mô hình học có giám sát bao gồm một tập hợp điều kiện được sắp xếp theo hệ phân cấp. Ví dụ: sau đây là một cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp theo thứ bậc, dẫn đến 5 lá.

bộ giải mã

#language

Nhìn chung, bất kỳ hệ thống học máy nào chuyển đổi từ một hệ thống đã xử lý, dày đặc hoặc bản trình bày nội bộ thành bản trình bày thô, thưa thớt hoặc bên ngoài hơn.

Bộ giải mã thường là một thành phần của mô hình lớn hơn, trong đó chúng thường xuất hiện ghép nối với bộ mã hoá.

Trong các tác vụ từ trình tự đến trình tự, bộ giải mã bắt đầu bằng trạng thái nội bộ do bộ mã hoá tạo ra để dự đoán trình tự tiếp theo.

Tham khảo Máy biến áp để biết định nghĩa về bộ giải mã trong cấu trúc Transformer.

Hãy xem phần Mô hình ngôn ngữ lớn trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình sâu

#fundamentals

Một mạng nơron chứa nhiều hơn một lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

mạng nơron sâu

Từ đồng nghĩa với mô hình sâu.

Mạng Q sâu (DQN)

#rl

Trong học Q, một mạng nơron sâu sẽ dự đoán hàm Q.

Phê bình là từ đồng nghĩa với Mạng Q-S sâu.

sự tương đồng về nhân khẩu học

#fairness

Chỉ số công bằng được đáp ứng nếu kết quả phân loại của mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả người Lilliputian và Brobdingnagian đều áp dụng cho Đại học Glraffdubdrib, mức độ tương đương về nhân khẩu học sẽ đạt được nếu tỷ lệ phần trăm tỷ lệ người Lilliputian được chấp nhận là bằng với tỷ lệ phần trăm người dân Brobdingnagian được chấp nhận, bất kể một nhóm có đủ tiêu chuẩn hơn trung bình hay không đơn vị quảng cáo khác.

Tương phản với tỷ lệ cân bằngbình đẳng về cơ hội, cho phép kết quả phân loại tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại cho một số nhãn đúng thực tế được chỉ định phụ thuộc vào các thuộc tính nhạy cảm. Xem "Tấn công bằng công nghệ học máy thông minh hơn" để trực quan hoá khám phá các ưu điểm, khuyết điểm khi tối ưu hoá sự tương đồng về nhân khẩu học.

Xem bài viết Sự công bằng: thông tin nhân khẩu học ngang hàng trong Khoá học nhanh về máy học để biết thêm thông tin.

loại bỏ nhiễu

#language

Một phương pháp phổ biến để tự học có giám sát trong đó:

  1. Tiếng ồn được thêm một cách giả tạo vào tập dữ liệu.
  2. Mô hình sẽ cố gắng loại bỏ tạp âm.

Tính năng loại bỏ tạp âm cho phép học từ các ví dụ chưa được gắn nhãn. Tập dữ liệu ban đầu đóng vai trò là mục tiêu hoặc nhãn và dữ liệu nhiễu đóng vai trò là dữ liệu đầu vào.

Một số mô hình ngôn ngữ được che giấu sử dụng tính năng khử nhiễu như sau:

  1. Tiếng ồn được thêm một cách giả tạo vào một câu không được gắn nhãn bằng cách che một số mã thông báo.
  2. Mô hình sẽ cố gắng dự đoán mã thông báo ban đầu.

tính năng dày đặc

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là một Tensor của các giá trị dấu phẩy động. Ví dụ: như sau Tensor có 10 nguyên tố dày đặc vì 9 giá trị của nó khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa thớt.

lớp dày đặc

Từ đồng nghĩa với lớp được kết nối hoàn toàn.

chiều sâu

#fundamentals

Tổng của các giá trị sau trong một mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và 1 lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến chiều sâu.

mạng nơron tích chập phân tách theo chiều sâu (sepCNN)

#image

Mạng nơron tích chập cấu trúc dựa trên Sự khởi đầu, nhưng trong đó các mô-đun Inception được thay thế bằng depthwise có thể phân tách tích chập. Còn gọi là Xception.

Tích chập tách rời theo chiều sâu (còn được viết tắt là tích chập tách biệt) đưa một tích chập 3D chuẩn thành hai phép tích chập riêng biệt hiệu quả hơn về mặt tính toán: trước tiên là tích chập theo chiều sâu, với độ sâu là 1 (n ° n ° 1), và sau đó là tích chập điểm, có chiều dài và chiều rộng là 1 (1 Đường 1 Đường n 1 ).

Để tìm hiểu thêm, hãy xem bài viết Xception: Học sâu bằng phép tích chập có thể tách biệt theo chiều sâu.

nhãn phái sinh

Đồng nghĩa với nhãn đại diện.

thiết bị

#TensorFlow
#GoogleCloud

Một thuật ngữ nạp chồng có thể có hai định nghĩa sau:

  1. Một danh mục phần cứng có thể chạy phiên TensorFlow, bao gồm CPU, GPU và TPU.
  2. Khi huấn luyện mô hình học máy trên chip tăng tốc (GPU hoặc TPU), phần hệ thống thực sự thao tác với tensornội dung nhúng. Thiết bị chạy trên các khối tăng tốc. Ngược lại, máy chủ lưu trữ thường chạy trên CPU.

sự riêng tư biệt lập

Trong học máy, phương pháp ẩn danh để bảo vệ mọi dữ liệu nhạy cảm (ví dụ: thông tin cá nhân của một cá nhân) có trong tập huấn luyện của mô hình khỏi bị tiết lộ. Phương pháp này đảm bảo rằng mô hình không học hoặc ghi nhớ nhiều về một cá nhân cụ thể. Điều này được thực hiện bằng cách lấy mẫu và thêm nhiễu trong quá trình đào tạo mô hình để làm mờ các điểm dữ liệu riêng lẻ, giảm nguy cơ rò rỉ dữ liệu đào tạo nhạy cảm.

Giải pháp Sự riêng tư biệt lập cũng được sử dụng bên ngoài công nghệ học máy. Ví dụ: đôi khi, nhà khoa học dữ liệu sử dụng sự riêng tư biệt lập để bảo vệ quyền riêng tư khi tính số liệu thống kê sử dụng sản phẩm cho các nhóm nhân khẩu học khác nhau.

giảm kích thước

Giảm số lượng phương diện được sử dụng để đại diện cho một đối tượng cụ thể trong một vectơ đối tượng, thường là chuyển đổi thành vectơ nhúng.

phương diện

Thuật ngữ quá tải có bất kỳ định nghĩa nào sau đây:

  • Số lượng toạ độ trong Tensor. Ví dụ:

    • Một đại lượng vô hướng có chiều bằng 0; ví dụ: ["Hello"].
    • Vectơ có một chiều; ví dụ: [3, 5, 7, 11].
    • Ma trận có hai chiều; ví dụ: [[2, 4, 18], [5, 7, 14]]. Bạn có thể chỉ định một ô cụ thể trong vectơ một chiều bằng một toạ độ; bạn cần hai toạ độ để chỉ định một ô cụ thể trong ma trận hai chiều.
  • Số mục nhập trong một vectơ đặc trưng.

  • Số lượng phần tử trong một lớp nhúng.

nhắc trực tiếp

#language
#generativeAI

Từ đồng nghĩa với lời nhắc thực hiện bằng 0.

tính chất rời rạc

#fundamentals

Một tính năng có một tập hợp hữu hạn các giá trị có thể có. Ví dụ: một đặc điểm có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là một đặc điểm riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

mô hình phân biệt đối xử

Mô hình dự đoán nhãn từ một tập hợp một hoặc tính năng khác. Nói một cách chính thức hơn, các mô hình phân biệt xác định xác suất có điều kiện của một đầu ra dựa trên các đặc điểm và trọng số; tức là:

p(output | features, weights)

Ví dụ: một mô hình dự đoán liệu một email có phải là thư rác từ các tính năng hay không và trọng số là mô hình phân biệt đối xử.

Phần lớn các mô hình học có giám sát, bao gồm cả mô hình phân loại và hồi quy, đều là mô hình phân biệt.

Tương phản với mô hình tạo sinh.

giá trị phân biệt

Hệ thống xác định xem ví dụ là thật hay giả.

Ngoài ra, hệ thống con trong một mạng đối kháng tạo sinh sẽ xác định xem các ví dụ do trình tạo tạo ra là thật hay giả.

Hãy xem phần Bộ phân biệt trong khoá học GAN để biết thêm thông tin.

tác động riêng rẽ

#fairness

Quyết định về những người tác động không cân xứng đến các nhóm phụ dân số. Thuật ngữ này thường đề cập đến những tình huống trong đó quy trình ra quyết định theo thuật toán gây hại hoặc mang lại lợi ích cho một số nhóm nhỏ hơn so với các nhóm khác.

Ví dụ: giả sử một thuật toán xác định tham số của Lilliputian khả năng đủ điều kiện cho khoản vay để mua nhà thu nhỏ có nhiều khả năng được phân loại hơn chúng là "không đủ điều kiện" Nếu địa chỉ gửi thư của họ chứa mã bưu chính. Nếu người Lilliputian Big-Endian có nhiều khả năng có địa chỉ gửi thư có mã bưu chính này hơn người Lilliputian Little-Endian, thì thuật toán này có thể dẫn đến tác động khác biệt.

Ngược lại với phương pháp xử lý khác, Tập trung vào sự khác biệt xảy ra khi các đặc điểm của nhóm con là thông tin đầu vào rõ ràng cho quá trình đưa ra quyết định dựa trên thuật toán.

đối xử không công bằng

#fairness

Tính đến các thuộc tính nhạy cảm của đối tượng vào quy trình ra quyết định bằng thuật toán để các nhóm phụ khác nhau của con người được xử lý theo cách khác nhau.

Ví dụ: hãy xem xét một thuật toán xác định tiếng Lilliputian đủ điều kiện để được vay tiền mua nhà thu nhỏ dựa trên dữ liệu mà họ cung cấp trong hồ sơ vay vốn. Nếu thuật toán sử dụng thông tin liên kết của Lilliputian dưới dạng Big-Endian hoặc Little-Endian làm dữ liệu đầu vào, thì thuật toán đó đang thực hiện cách xử lý khác nhau theo phương diện đó.

Tương phản với tác động khác biệt, tập trung vào về sự khác biệt trong tác động xã hội của các quyết định của thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.

chưng cất

#generativeAI

Quá trình giảm kích thước của một mô hình (được gọi là giáo viên) vào một mô hình nhỏ hơn (gọi là học viên) mô phỏng các dự đoán của mô hình ban đầu một cách trung thực nhất có thể. Chưng cất là rất hữu ích vì mô hình nhỏ hơn có hai lợi ích chính so với mô hình lớn mô hình (giáo viên):

  • Thời gian suy luận nhanh hơn
  • Giảm mức sử dụng bộ nhớ và năng lượng

Tuy nhiên, dự đoán của học sinh thường không chính xác bằng những dự đoán của giáo viên.

Tính năng chưng cất giúp đào tạo mô hình học sinh để giảm thiểu hàm mất dựa trên sự chênh lệch giữa các kết quả đầu ra dự đoán của các mô hình học sinh và giáo viên.

So sánh và đối chiếu quá trình chưng cất với các thuật ngữ sau:

Hãy xem phần LLM: Điều chỉnh, chắt lọc và kỹ thuật gợi ý trong khoá học cấp tốc về học máy để biết thêm thông tin.

Phân phối

Tần suất và phạm vi của các giá trị khác nhau cho một tính năng hoặc nhãn nhất định. Phân phối ghi lại khả năng xảy ra một giá trị cụ thể.

Hình ảnh sau đây cho thấy biểu đồ dạng thanh của hai phân phối khác nhau:

  • Ở bên trái là sự phân bố theo luật năng lượng của sự giàu có so với số người đang sở hữu sự giàu có đó.
  • Ở bên phải là mức phân bổ chuẩn của chiều cao so với số người sở hữu chiều cao đó.

Hai biểu đồ. Một biểu đồ thanh cho thấy một phân phối theo luật lũy thừa với tài sản trên trục x và số người có tài sản đó trên trục y. Đa số mọi người rất ít giàu, chỉ một vài người có
          rất nhiều của cải. Biểu đồ thứ hai cho thấy một phân phối chuẩn với chiều cao trên trục x và số người có chiều cao đó trên trục y. Hầu hết mọi người tập trung ở một nơi nào đó gần mức trung bình.

Việc hiểu rõ về phân phối của từng đặc điểm và nhãn có thể giúp bạn xác định cách bình thường hoá các giá trị và phát hiện giá trị ngoại lai.

Cụm từ không thuộc phạm vi phân phối đề cập đến một giá trị không xuất hiện trong tập dữ liệu hoặc rất hiếm. Ví dụ: hình ảnh sao Thổ sẽ được coi là không thuộc phạm vi phân phối của một tập dữ liệu gồm hình ảnh mèo.

phân cụm phân chia

#clustering

Xem phần thu thập dữ liệu theo cụm phân cấp.

giảm tần số lấy mẫu

#image

Thuật ngữ nạp chồng có thể có một trong những ý nghĩa sau:

  • Giảm lượng thông tin trong một tính năng để huấn luyện mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện mô hình nhận dạng hình ảnh, giảm tần số lấy mẫu ở độ phân giải cao sang định dạng có độ phân giải thấp hơn.
  • Được đào tạo về tỷ lệ thấp, không tương xứng lớp ví dụ để cải thiện quy trình huấn luyện mô hình đối với những lớp có ít người tham gia. Ví dụ: trong một tập dữ liệu không cân bằng về lớp, các mô hình có xu hướng học nhiều về lớp đa số và không đủ về lớp thiểu số. Giúp giảm tần số lấy mẫu cân bằng lượng đào tạo dành cho tầng lớp đa số và thiểu số.

Hãy xem phần Tập dữ liệu: Tập dữ liệu bất cân đối trong khoá học Học máy ứng dụng để biết thêm thông tin.

DQN

#rl

Từ viết tắt của Deep Q-Network.

điều chỉnh tỷ lệ bỏ ngang

Một hình thức điều chỉnh hữu ích trong việc huấn luyện mạng nơron. Điều chỉnh tỷ lệ bỏ ngang xoá lựa chọn ngẫu nhiên một số đơn vị cố định trong mạng cho một bước chuyển màu. Hạ càng nhiều đơn vị càng mạnh quy trình điều chỉnh. Việc này tương tự như việc huấn luyện mạng để mô phỏng một tập hợp lớn theo cấp số nhân gồm các mạng nhỏ hơn. Để biết toàn bộ thông tin chi tiết, hãy xem Bỏ qua mạng: Một cách đơn giản để ngăn chặn mạng nơron Giao diện quá mức.

linh động

#fundamentals

Việc nào đó được thực hiện thường xuyên hoặc liên tục. Các cụm từ độngtrực tuyến là các từ đồng nghĩa với công nghệ học máy. Sau đây là những cách sử dụng phổ biến của tính năng độngtrực tuyến trong máy đang học:

  • Mô hình động (hoặc mô hình trực tuyến) là một mô hình được đào tạo lại thường xuyên hoặc liên tục.
  • Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo một cách thường xuyên hoặc liên tục.
  • Suy luận động (hoặc suy luận trực tuyến) là quá trình tạo dự đoán theo yêu cầu.

mô hình linh động

#fundamentals

Một mô hình diễn ra thường xuyên (thậm chí có thể liên tục) được đào tạo lại. Mô hình linh động là "học viên suốt đời" để liên tục thích ứng với dữ liệu không ngừng thay đổi. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

thực thi háo hức

#TensorFlow

Môi trường lập trình TensorFlow trong đó các thao tác chạy ngay lập tức. Ngược lại, các toán tử được gọi trong quá trình thực thi biểu đồ không chạy cho đến khi chúng được nêu rõ ràng đánh giá. Thực thi háo hức là một giao diện bắt buộc, nhiều chẳng hạn như mã trong hầu hết các ngôn ngữ lập trình. Các chương trình thực thi sớm thường dễ gỡ lỗi hơn nhiều so với các chương trình thực thi biểu đồ.

dừng sớm

#fundamentals

Một phương thức điều chỉnh liên quan đến việc kết thúc quá trình huấn luyện trước khi tổn thất huấn luyện kết thúc giảm. Trong phương pháp dừng sớm, bạn chủ ý ngừng huấn luyện mô hình khi tổn thất trên dữ liệu tập hợp xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát hoá giảm sút.

khoảng cách của máy xúc đất (EMD)

Một chỉ số đo lường mức độ tương đồng tương đối của hai phân phối. Khoảng cách của máy ủi càng thấp thì mức phân phối càng giống nhau.

chỉnh sửa khoảng cách

#language

Một phép đo mức độ tương đồng giữa hai chuỗi văn bản. Trong công nghệ học máy, việc chỉnh sửa khoảng cách rất hữu ích vì có thể và một cách hiệu quả để so sánh hai chuỗi được biết là tương tự hoặc để tìm các chuỗi tương tự với một chuỗi đã cho.

Có một số định nghĩa về khoảng cách chỉnh sửa, mỗi định nghĩa sử dụng các thao tác chuỗi khác nhau. Ví dụ: Khoảng cách Levenshtein xem xét số lượng thao tác xoá, chèn và thay thế ít nhất.

Ví dụ: khoảng cách Levenshtein giữa các từ "tim" và "phi tiêu" là 3 vì 3 nội dung chỉnh sửa sau đây là ít thay đổi nhất để biến một từ thành công cụ khác:

  1. trái tim → dấu móc (thay "h" bằng "d")
  2. deart → dart (xoá "e")
  3. dart → darts (chèn "s")

Ký hiệu Einsum

Một ký hiệu hiệu quả để mô tả cách hoạt động của hai tensor kết hợp. Các tensor được kết hợp bằng cách nhân các phần tử của một tensor theo các phần tử của tensor khác rồi tính tổng của các tích. Ký hiệu Einsum sử dụng các ký hiệu để xác định các trục của mỗi tensor và các ký hiệu đó được sắp xếp lại để chỉ định hình dạng của tensor mới thu được.

NumPy cung cấp cách triển khai Einsum phổ biến.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên một tính năng phân loại có nhiều chiều để dần dần học một vectơ nhúng có chiều thấp hơn. Lớp nhúng cho phép mạng nơron huấn luyện hiệu quả hơn nhiều so với việc chỉ huấn luyện trên tính năng phân loại có nhiều chiều.

Ví dụ: Earth hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, do đó, lớp đầu vào của mô hình bao gồm một vectơ một chiều dài 73.000 phần tử. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên chứa giá trị 0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng chứa giá trị 0.

Mảng 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, quá trình huấn luyện sẽ mất rất nhiều thời gian do phải nhân 72.999 số 0. Có thể bạn chọn lớp nhúng bao gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học một vectơ nhúng mới cho mỗi loài cây.

Trong một số trường hợp nhất định, thao tác băm là giải pháp thay thế hợp lý vào lớp nhúng.

Xem phần Nhúng trong Khoá học nhanh về máy học để biết thêm thông tin.

không gian nhúng

#language

Không gian vectơ d chiều đặc trưng từ một chiều cao hơn không gian vectơ được ánh xạ tới. Lý tưởng nhất là không gian nhúng chứa một cấu trúc mang lại kết quả toán học có ý nghĩa; ví dụ: trong không gian nhúng lý tưởng, việc cộng và trừ các phần nhúng có thể giải quyết các nhiệm vụ liên tưởng từ.

Tích vô hướng của hai nội dung nhúng là một chỉ số về mức độ tương đồng của chúng.

vectơ nhúng

#language

Nói chung, một mảng số dấu phẩy động được lấy từ bất kỳ lớp ẩn mô tả dữ liệu đầu vào cho lớp ẩn đó. Thông thường, vectơ nhúng là một mảng gồm các số dấu phẩy động được huấn luyện theo một lớp nhúng. Ví dụ: giả sử một lớp nhúng phải tìm hiểu vectơ nhúng cho mỗi loại trong số 73.000 loài cây trên Trái Đất. Có thể mảng sau đây là vectơ nhúng cho cây bao báp:

Một mảng gồm 12 phần tử, mỗi phần tử chứa một số dấu phẩy động
          từ 0.0 đến 1.0.

Vectơ nhúng không phải là một loạt các số ngẫu nhiên. Lớp nhúng xác định các giá trị này thông qua quá trình huấn luyện, tương tự như cách mạng nơron học các trọng số khác trong quá trình huấn luyện. Mỗi phần tử của mảng là xếp hạng theo một số đặc điểm của một loài cây. Mục nào đại diện cho loài cây nào đặc điểm của mình? Rất khó để con người xác định.

Phần đáng chú ý về mặt toán học của một vectơ nhúng là các mục tương tự nhau có các tập hợp số dấu phẩy động tương tự nhau. Ví dụ: tương tự các loài cây có tập hợp số dấu phẩy động giống nhau hơn so với những loài cây không giống nhau. Cây tuyết tùng và cây sequoia là các loài cây có liên quan, vì vậy, chúng sẽ có tập hợp số dấu phẩy động tương tự nhau hơn so với cây tuyết tùng và cây dừa. Các số trong vectơ nhúng sẽ thay đổi mỗi lần huấn luyện lại mô hình, ngay cả khi bạn đào tạo lại mô hình có dữ liệu đầu vào giống hệt nhau.

hàm phân phối tích luỹ kinh nghiệm (eCDF hoặc EDF)

Hàm phân phối tích luỹ dựa trên phép đo thực nghiệm từ một tập dữ liệu thực. Giá trị của thuộc tính hàm tại bất kỳ điểm nào dọc theo trục x là phân số của giá trị quan sát trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đã chỉ định.

giảm thiểu rủi ro theo thực nghiệm (ERM)

Chọn hàm giúp giảm thiểu tổn thất trên tập huấn luyện. Độ tương phản bằng giảm thiểu rủi ro theo cấu trúc.

bộ mã hóa

#language

Nhìn chung, mọi hệ thống học máy chuyển đổi từ dữ liệu thô, thưa thớt hoặc bên ngoài thành cách trình bày được xử lý nhiều hơn, dày đặc hơn hoặc nội bộ hơn.

Bộ mã hoá thường là một thành phần của mô hình lớn hơn, trong đó bộ mã hoá thường xuất hiện ghép nối với bộ giải mã. Một số máy biến áp ghép nối bộ mã hóa với bộ giải mã, mặc dù các Bộ chuyển đổi khác chỉ sử dụng bộ mã hóa hoặc chỉ bộ giải mã.

Một số hệ thống sử dụng đầu ra của bộ mã hoá làm đầu vào cho mạng phân loại hoặc hồi quy.

Trong các nhiệm vụ theo trình tự, một bộ mã hoá nhận một chuỗi đầu vào và trả về trạng thái bên trong (một vectơ). Sau đó, bộ giải mã sử dụng trạng thái nội bộ đó để dự đoán trình tự tiếp theo.

Tham khảo bài viết Transformer để biết định nghĩa về một bộ mã hoá trong cấu trúc Transformer.

Hãy xem phần LLM: Mô hình ngôn ngữ lớn là gì trong khoá học Máy học ứng dụng để biết thêm thông tin.

quần áo

Một tập hợp mô hình được huấn luyện độc lập, trong đó các kết quả dự đoán được tính trung bình hoặc tổng hợp. Trong nhiều trường hợp, bản tổng hợp mang lại kết quả tốt hơn so với một mô hình đơn lẻ. Ví dụ: Rừng ngẫu nhiên là một tập hợp được tạo từ nhiều cây quyết định. Lưu ý rằng không phải tất cả rừng quyết định là tập hợp.

Xem Ngẫu nhiên Rừng trong Khoá học nhanh về máy học để biết thêm thông tin.

entropy

#df

Ngang bằng lý thuyết thông tin, nội dung mô tả về khả năng dự đoán của một xác suất là bao nhiêu. Ngoài ra, entropy còn được định nghĩa là giá trị thông tin mà mỗi ví dụ có. Phân phối có entropy cao nhất có thể khi tất cả các giá trị của một biến ngẫu nhiên là khả năng tương đương.

Entropy của một tập hợp với hai giá trị có thể có là "0" và "1" (ví dụ: các nhãn trong bài toán phân loại nhị phân) có công thức như sau:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là phân số của "1" ví dụ.
  • q là phân số của các ví dụ "0". Lưu ý rằng q = (1 - p)
  • nhật ký thường là nhật ký2. Trong trường hợp này, entropy là một bit.

Ví dụ: giả sử những điều sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)nhật ký2(0,25) - (0,75)nhật ký2(0,75) = 0,81 bit cho mỗi ví dụ

Một tập hợp được cân bằng hoàn hảo (ví dụ: 200 "0" và 200 "1") sẽ có entropi là 1,0 bit cho mỗi ví dụ. Khi một tập hợp trở nên không cân bằng hơn, entropy của tập hợp đó sẽ chuyển về 0.0.

Trong cây quyết định, entropy giúp xây dựng mức tăng thông tin để giúp trình phân tách chọn các điều kiện trong quá trình phát triển của cây quyết định phân loại.

So sánh entropy với:

Entanpi thường được gọi là entanpi của Shannon.

Hãy xem phần Bộ phân tách chính xác để phân loại nhị phân bằng các tính năng số trong khoá học Rừng quyết định để biết thêm thông tin.

môi trường

#rl

Trong học tăng cường, thế giới chứa agent và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được biểu thị có thể là một trò chơi như cờ vua hoặc một thế giới thực như mê cung. Khi tác nhân áp dụng một hành động cho môi trường, môi trường sẽ chuyển đổi giữa các trạng thái.

tập

#rl

Trong học tăng cường, mỗi lần thử lặp đi lặp lại của agent để tìm hiểu một môi trường.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ cho toàn bộ tập hợp huấn luyện sao cho mỗi ví dụ đã được xử lý một lần.

Một thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô huấn luyện vòng lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

  • Tập dữ liệu này có 1.000 ví dụ.
  • Kích thước lô là 50 ví dụ.

Do đó, một epoch cần 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Xem Hồi quy tuyến tính: Siêu tham số trong Khoá học nhanh về máy học để biết thêm thông tin.

chính sách tham lam epsilon

#rl

Trong học tăng cường, chính sách tuân theo chính sách ngẫu nhiên với xác suất epsilon hoặc chính sách tham lam nếu không. Ví dụ: nếu epsilon là 0.9, thì chính sách tuân theo một chính sách ngẫu nhiên 90% thời gian và tham lam 10% thời gian chính sách.

Qua các tập liên tiếp, thuật toán sẽ giảm giá trị epsilon theo thứ tự chuyển từ việc tuân theo một chính sách ngẫu nhiên sang tuân theo một chính sách tham lam. Theo thay đổi chính sách, trước tiên tác nhân sẽ khám phá ngẫu nhiên môi trường và rồi tham lam khai thác các kết quả khám phá ngẫu nhiên.

bình đẳng về cơ hội

#fairness

Chỉ số về tính công bằng để đánh giá xem một mô hình có dự đoán kết quả mong muốn như nhau cho tất cả giá trị của thuộc tính nhạy cảm. Nói cách khác, nếu kết quả mong muốn cho một mô hình là nhóm dương, mục tiêu là có tỷ lệ dương thực sự như nhau cho tất cả các nhóm.

Cơ hội bình đẳng liên quan đến tỷ lệ cân bằng, trong đó yêu cầu cả tỷ lệ dương tính thực và tỷ lệ dương tính giả đều giống nhau đối với tất cả các nhóm.

Giả sử Đại học Glraffdubdrib chấp nhận cả người Lilliputian và Brobdingnagian sang một chương trình toán nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học vững chắc về các lớp học toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của người Brobdingnag không hề cung cấp lớp học toán, do đó, rất ít học sinh đủ điều kiện. Cơ hội bình đẳng được đáp ứng đối với nhãn ưu tiên "được nhận" liên quan đến quốc tịch (Lilliputian hoặc Brobdingnagian) nếu học viên đủ tiêu chuẩn có khả năng được nhận như nhau, bất kể họ là Lilliputian hay Brobdingnagian.

Ví dụ: giả sử 100 người Lilliput và 100 người Brobdingnag đăng ký vào Đại học Glubbdubdrib và quyết định nhận sinh viên được đưa ra như sau:

Bảng 1. Người đăng ký Lilliputian (90% đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 45 3
Bị từ chối 45 7
Tổng 90 10
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 7/10 = 70%
Tổng tỷ lệ phần trăm học viên Lilliputian được nhận: (45+3)/100 = 48%

 

Bảng 2. Người đăng ký Brobdingnagian (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 5 9
Bị từ chối 5 81
Tổng 10 90
Tỷ lệ phần trăm học viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm học viên không đủ điều kiện bị từ chối: 81/90 = 90%
Tổng tỷ lệ phần trăm học viên Brobdingnagian được nhận: (5+9)/100 = 14%

Các ví dụ trước đáp ứng cơ hội bình đẳng để chấp nhận sinh viên đủ điều kiện vì cả người Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường.

Mặc dù đáp ứng được tiêu chí bình đẳng về cơ hội, nhưng hai chỉ số công bằng sau đây lại không đáp ứng được:

  • điểm tương đồng về nhân khẩu học: người Lilliputian và Người dân Brobya được nhận vào trường đại học theo các tỷ lệ khác nhau; 48% sinh viên Lilliputian được nhận, nhưng chỉ có 14% Nhận học sinh viên Brobdingnagian.
  • tỷ lệ cược bằng: Mặc dù người Lilliputian đủ tiêu chuẩn cả sinh viên và sinh viên Brobdingnagian đều có cơ hội được nhận như nhau, quy tắc ràng buộc bổ sung khiến các Lilliputian và Cả hai người Brazil đều có khả năng bị từ chối như nhau? hài lòng. Những người Lilliputian không đủ điều kiện có tỷ lệ bị từ chối là 70%, trong khi những người Brobdingnag không đủ điều kiện có tỷ lệ bị từ chối là 90%.

Hãy xem phần Tính công bằng: Bình đẳng về cơ hội trong khoá học cấp tốc về học máy để biết thêm thông tin.

tỷ lệ cá cược bị cân bằng

#fairness

Một chỉ số công bằng để đánh giá xem một mô hình có dự đoán kết quả tốt như nhau cho tất cả các giá trị của một thuộc tính nhạy cảm đối với cả lớp tích cựclớp tiêu cực hay không, chứ không chỉ một lớp hay lớp kia. Nói cách khác, cả tỷ lệ dương tính thực sựtỷ lệ âm tính giả phải giống nhau đối với tất cả các nhóm.

Tỷ lệ cân bằng có liên quan đến bình đẳng về cơ hội, chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).

Ví dụ: giả sử Đại học Glubbdubdrib nhận cả người Lilliput và người Brobdingnag vào một chương trình toán học nghiêm ngặt. Trường trung học của người Lilliput cung cấp một chương trình học mạnh mẽ về các lớp học toán và phần lớn học viên đều đủ điều kiện tham gia chương trình đại học. Các trường trung học của Brobdingnag không hề cung cấp các lớp học toán, do đó, rất ít học sinh đủ điều kiện. Tỷ lệ chênh lệch được thoả mãn miễn là không quan trọng là người đăng ký là người Lilliputian hay người Brobdingnagian, nếu họ đều đủ điều kiện, họ đều có khả năng được nhận vào chương trình đồng đều, và nếu không đủ tiêu chuẩn, thì khả năng bị từ chối của họ cũng bằng nhau.

Giả sử 100 Lilliputian và 100 Broddingnagian áp dụng cho Glraffdubdrib Các quyết định về việc nhập học và đại học được đưa ra như sau:

Bảng 3. Ứng viên người Lilliput (90% là đủ điều kiện)

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 45 2
Bị từ chối 45 8
Tổng 90 10
Tỷ lệ phần trăm sinh viên đủ điều kiện được nhận: 45/90 = 50%
Tỷ lệ học viên không đủ điều kiện bị từ chối: 8/10 = 80%
Tổng tỷ lệ phần trăm sinh viên Lilliputian được chấp nhận: (45 + 2)/100 = 47%

 

Bảng 4. Ứng viên Bỉ (10% đủ điều kiện):

  Đủ tiêu chuẩn Không đủ tiêu chuẩn
Đã cho phép 5 18
Bị từ chối 5 72
Tổng 10 90
Tỷ lệ phần trăm số sinh viên đủ điều kiện được nhận: 5/10 = 50%
Tỷ lệ phần trăm số sinh viên không đủ điều kiện bị từ chối: 72/90 = 80%
Tổng tỷ lệ phần trăm số sinh viên Brobdingnagian được nhận: (5+18)/100 = 23%

Điều kiện về tỷ lệ bằng nhau được đáp ứng vì cả học viên Lilliputian và Brobdingnagian đủ điều kiện đều có 50% cơ hội được nhận vào trường, còn học viên Lilliputian và Brobdingnagian không đủ điều kiện đều có 80% cơ hội bị từ chối.

Tỷ lệ cá cược bằng nhau được xác định chính thức trong "Bằng Cơ hội trong chế độ Học có giám sát" như sau: "trình dự đoán khía đáp ứng tỷ lệ chênh lệch tương đương đối với thuộc tính A được bảo vệ và kết quả Y nếu khía và A là độc lập, có điều kiện đối với Y."

Estimator

#TensorFlow

API TensorFlow không dùng nữa. Thay vào đó, hãy sử dụng tf.keras Công cụ ước tính.

evals

#language
#generativeAI

Chủ yếu dùng làm từ viết tắt của các hoạt động đánh giá LLM. Nói rộng hơn, evals là cách viết tắt của mọi dạng đánh giá.

đánh giá

#language
#generativeAI

Quy trình đo lường chất lượng của một mô hình hoặc so sánh các mô hình với nhau.

Cách đánh giá công nghệ học máy có giám sát bạn thường đánh giá dựa trên tập hợp xác thực và một tập kiểm thử. Đánh giá một mô hình ngôn ngữ lớn (LLM) thường bao gồm quy trình đánh giá rộng hơn về chất lượng và an toàn.

ví dụ

#fundamentals

Giá trị của một hàng tính năng và có thể là một nhãn. Các ví dụ về học có giám sát thuộc hai danh mục chung:

  • Ví dụ được gắn nhãn bao gồm một hoặc nhiều đặc điểm và một nhãn. Các ví dụ được gắn nhãn được dùng trong quá trình huấn luyện.
  • Một ví dụ chưa được gắn nhãn bao gồm một hoặc nhiều tính năng hơn nhưng không có nhãn. Các ví dụ không được gắn nhãn sẽ được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học sinh. Dưới đây là 3 ví dụ được gắn nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Dưới đây là ba ví dụ chưa gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Hàng của một dataset thường là nguồn thô để lấy ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Hơn nữa, các tính năng trong ví dụ cũng có thể bao gồm các tính năng tổng hợp, chẳng hạn như các điểm giao nhau của tính năng.

Xem phần Học tập có giám sát trong khoá học Giới thiệu về công nghệ học máy để biết thêm thông tin.

phát lại trải nghiệm

#rl

Trong học tăng cường, kỹ thuật DQN dùng để giảm mối tương quan về thời gian trong dữ liệu huấn luyện. Tác nhân lưu trữ các chuyển đổi trạng thái trong vùng đệm phát lại, sau đó chuyển đổi mẫu từ vùng đệm phát lại để tạo dữ liệu huấn luyện.

thiên kiến của người nghiên cứu

#fairness

Hãy xem phần xu hướng xác nhận.

bài toán độ dốc bùng nổ

#seq

Xu hướng độ dốcmạng nơron sâu (đặc biệt là mạng nơron lặp lại) trở thành dốc (cao) một cách đáng ngạc nhiên. Độ dốc dốc thường gây ra các bản cập nhật rất lớn đối với trọng số của mỗi nút trong một mạng nơron sâu.

Các mô hình gặp phải vấn đề độ dốc bùng nổ trở nên khó khăn hoặc không thể huấn luyện. Tính năng Cắt màu chuyển tiếp có thể giảm thiểu vấn đề này.

So sánh với vấn đề về độ dốc biến mất.

F

F1

Chỉ số phân loại nhị phân "cuộn lên" dựa vào cả độ chính xáctỷ lệ thu hồi. Sau đây là công thức:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ví dụ như sau:

  • precision = 0.6
  • recall = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Khi độ chính xác và độ hồi quy khá giống nhau (như trong ví dụ trước), F1 sẽ gần với giá trị trung bình của chúng. Khi độ chính xác và độ thu hồi khác nhau đáng kể, F1 gần với giá trị thấp hơn. Ví dụ:

  • độ chính xác = 0,9
  • recall = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

quy tắc ràng buộc về sự công bằng

#fairness
Áp dụng một quy tắc ràng buộc cho thuật toán để đảm bảo đáp ứng một hoặc nhiều định nghĩa về tính công bằng. Sau đây là một số ví dụ về những hạn chế liên quan đến sự công bằng:

chỉ số về tính công bằng

#fairness

Định nghĩa toán học về "sự công bằng" có thể đo lường được. Sau đây là một số chỉ số thường dùng về tính công bằng:

Có nhiều chỉ số về sự công bằng loại trừ lẫn nhau; xem tính không tương thích của các chỉ số về tính công bằng.

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp phủ định. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là spam (lớp phủ định), nhưng email đó thực sự là thư rác.

tỷ lệ âm tính giả

Tỷ lệ các ví dụ thực tế dương tính với mô hình bị nhầm lẫn đã dự đoán là lớp phủ định. Công thức sau đây tính giá trị sai tỷ lệ âm:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

dương tính giả (FP)

#fundamentals

Ví dụ về trường hợp mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán một email cụ thể là thư rác (lớp dương tính), nhưng email đó thực sự không phải là thư rác.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định thực tế mà mô hình gặp phải đã dự đoán nhóm có giá trị dương. Công thức sau đây tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đến điểm số của học viên. Bảng sau đây cho thấy 3 ví dụ, mỗi ví dụ chứa 3 tính năng và 1 nhãn:

Tính năng Hãng nhạc
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với nhãn.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

nhân chéo tính chất

#fundamentals

Một tính năng tổng hợp hình thành bằng cách "kết hợp" Các tính năng phân loại hoặc phân loại.

Ví dụ: cân nhắc "dự báo tâm trạng" mô hình biểu thị nhiệt độ bằng một trong bốn nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Và biểu thị tốc độ gió ở một trong ba nhóm sau:

  • still
  • light
  • windy

Nếu không có giao nhau của các đặc điểm, mô hình tuyến tính sẽ huấn luyện độc lập trên từng nhóm trong số 7 nhóm trước đó. Vì vậy, mô hình sẽ huấn luyện trên, chẳng hạn như freezing độc lập với quá trình huấn luyện về, chẳng hạn như windy.

Ngoài ra, bạn có thể tạo một giao điểm đặc điểm của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 khả năng sau giá trị:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ có các hình chữ thập, mô hình có thể học được điểm khác biệt về tâm trạng trong khoảng từ freezing-windy ngày đến freezing-still ngày.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng, mỗi tính năng có nhiều nhóm khác nhau, thì phép lai tính năng thu được sẽ có rất nhiều tổ hợp có thể xảy ra. Ví dụ: nếu một đối tượng có 1.000 nhóm và tính năng khác có 2.000 bộ chứa, kết quả tính năng chéo có 2.000.000 .

Về mặt chính thức, chữ thập là một Sản phẩm của Cartesian.

Tính năng chéo chủ yếu được dùng với các mô hình tuyến tính và hiếm khi được dùng với mạng nơron.

Hãy xem phần Dữ liệu dạng danh mục: Giá trị chéo của tính năng trong khoá học Học máy ứng dụng để biết thêm thông tin.

kỹ thuật trích xuất tính chất

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định tính năng nào có thể hữu ích trong việc huấn luyện một mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm với cách phân nhóm để tối ưu hoá những gì mô hình có thể học từ các phạm vi temperature khác nhau.

Kỹ thuật tính năng đôi khi được gọi là trích xuất tính năng hoặc kết hợp.

Xem Dữ liệu số: Cách mô hình nhập dữ liệu bằng tính năng vectơ trong Khoá học nhanh về máy học để biết thêm thông tin.

trích xuất tính năng

Thuật ngữ nạp chồng có một trong các định nghĩa sau:

mức độ quan trọng của tính năng

#df

Đồng nghĩa với tầm quan trọng của biến.

tập hợp tính năng

#fundamentals

Nhóm tính năngmô hình học máy của bạn huấn luyện. Ví dụ: mã bưu chính, quy mô tài sản và tình trạng của tài sản có thể bao gồm một bộ tính năng đơn giản cho một mô hình dự đoán giá nhà ở.

thông số kỹ thuật của tính năng

#TensorFlow

Mô tả thông tin cần thiết để trích xuất dữ liệu tính năng từ vùng đệm giao thức tf.Example. Vì Vùng đệm giao thức tf.Example chỉ là một vùng chứa dữ liệu, bạn phải chỉ định như sau:

  • Dữ liệu cần trích xuất (tức là khoá cho các tính năng)
  • Loại dữ liệu (ví dụ: float hoặc int)
  • Độ dài (cố định hoặc thay đổi)

vectơ đối tượng

#fundamentals

Mảng các giá trị feature bao gồm ví dụ. Vectơ đặc điểm được nhập trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ đặc trưng của một mô hình có hai đối tượng riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị
          0,92 và mục kia chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đặc điểm, vì vậy, vectơ đặc điểm cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Kỹ thuật xử lý đặc điểm xác định cách biểu thị các đặc điểm trong vectơ đặc điểm. Ví dụ: một đối tượng phân loại nhị phân có có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần của vectơ đặc điểm cho một ví dụ cụ thể sẽ bao gồm 4 số 0 và một số 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Ví dụ khác: giả sử mô hình của bạn bao gồm 3 đặc điểm:

  • một tính năng phân loại nhị phân có năm giá trị có thể có được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một tính năng phân loại nhị phân khác có ba giá trị có thể có được biểu thị với mã hoá một nóng; ví dụ: [0.0, 0.0, 1.0]
  • đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng của từng ví dụ sẽ được biểu diễn theo 9 giá trị. Với các giá trị mẫu trong danh sách trên, giá trị vectơ đối tượng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Hãy xem phần Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ tính năng trong khoá học Học nhanh về học máy để biết thêm thông tin.

tính năng hoá

Quá trình trích xuất các đặc điểm từ một nguồn đầu vào, chẳng hạn như tài liệu hoặc video, và ánh xạ các đặc điểm đó vào một vectơ đặc điểm.

Một số chuyên gia học máy coi việc liên kết là từ đồng nghĩa với kỹ thuật trích xuất tính chất hoặc trích xuất tính năng.

học liên kết

Phương pháp tiếp cận học máy phân tán giúp huấn luyện các mô hình học máy sử dụng mô hình phi tập trung ví dụ trên thiết bị, chẳng hạn như điện thoại thông minh. Trong công nghệ học liên kết, một nhóm nhỏ thiết bị sẽ tải mô hình hiện tại xuống từ một máy chủ điều phối trung tâm. Thiết bị sử dụng các ví dụ đã lưu trữ trên các thiết bị để cải thiện mô hình. Sau đó, các thiết bị tải lên cải tiến mô hình (chứ không phải các ví dụ huấn luyện) cho quy trình điều phối máy chủ của bạn, nơi chúng được tổng hợp với các bản cập nhật khác để mang lại mô hình toàn cầu. Sau khi tổng hợp, các bản cập nhật mô hình do thiết bị tính toán sẽ không còn cần thiết và có thể bị loại bỏ.

Vì các ví dụ huấn luyện không bao giờ được tải lên, nên phương pháp học liên kết sẽ tuân theo nguyên tắc bảo vệ quyền riêng tư liên quan đến việc thu thập dữ liệu tập trung và giảm tối đa việc thu thập dữ liệu.

Để biết thêm thông tin về phương pháp học liên kết, hãy xem hướng dẫn này.

vòng hồi tiếp

#fundamentals

Trong học máy, một tình huống mà dự đoán của mô hình ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ ảnh hưởng đến những bộ phim mà mọi người xem, từ đó ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

Hãy xem phần Hệ thống ML thương mại: Câu hỏi cần đặt trong khoá học cấp tốc về học máy để biết thêm thông tin.

mạng nơron truyền dẫn về trước (FFN)

Mạng nơron không có kết nối tuần hoàn hoặc đệ quy. Ví dụ: mạng nơron sâu truyền thống là mạng nơron hồi tiếp. Tương phản với thần kinh tái phát có tính tuần hoàn.

học từ một vài dữ liệu

Một phương pháp học máy, thường được dùng để phân loại đối tượng, được thiết kế để huấn luyện các thuật toán phân loại hiệu quả chỉ từ một số ít ví dụ huấn luyện.

Xem thêm về học một lầnhọc không có ví dụ.

nhắc một vài thông tin

#language
#generativeAI

Một lệnh gọi chứa nhiều ví dụ ("một vài") minh hoạ cách mô hình ngôn ngữ lớn phản hồi. Ví dụ: câu lệnh dài sau đây chứa hai ví dụ cho thấy một mô hình ngôn ngữ lớn cách trả lời truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Vương quốc Anh: GBP Ví dụ khác.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Việc nhắc ít liên quan thường mang lại kết quả mong muốn hơn so với nhắc nhở hoạt động không cố địnhNhắc một lần. Tuy nhiên, việc nhắc vài lần cần một câu lệnh dài hơn.

Đặt câu lệnh dựa trên một vài ví dụ là một hình thức học từ một vài dữ liệu áp dụng cho học dựa trên câu lệnh.

Hãy xem phần Kỹ thuật câu lệnh trong khoá học Học máy ứng dụng để biết thêm thông tin.

Đàn vĩ cầm

#language

Một thư viện cấu hình ưu tiên Python sẽ đặt giá trị giá trị của các hàm và lớp không có mã hoặc cơ sở hạ tầng xâm phạm. Trong trường hợp của Pax và các cơ sở mã học máy khác, các hàm và lớp này đại diện cho mô hìnhthông số siêu tham số đào tạo.

Fiddle giả định rằng cơ sở mã học máy thường được chia thành:

  • Mã thư viện xác định các lớp và trình tối ưu hoá.
  • Mã "keo" của tập dữ liệu, gọi các thư viện và kết nối mọi thứ với nhau.

Fiddle ghi lại cấu trúc lệnh gọi của mã kết nối trong một thuộc tính chưa được đánh giá và dạng có thể thay đổi.

tinh chỉnh

#language
#image
#generativeAI

Một lượt huấn luyện thứ hai, dành riêng cho từng nhiệm vụ được thực hiện trên mô hình huấn luyện trước để tinh chỉnh các tham số cho trường hợp sử dụng cụ thể. Ví dụ: trình tự đào tạo đầy đủ cho một số mô hình ngôn ngữ lớn như sau:

  1. Huấn luyện trước: Đào tạo một mô hình ngôn ngữ lớn trên một tập dữ liệu tổng quát rộng lớn, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
  2. Điều chỉnh: Đào tạo mô hình đã huấn luyện trước để thực hiện một thao tác cụ thể, chẳng hạn như trả lời các câu hỏi về y tế. Việc tinh chỉnh thường liên quan đến hàng trăm hoặc hàng nghìn ví dụ tập trung vào một nhiệm vụ cụ thể.

Một ví dụ khác, trình tự huấn luyện đầy đủ cho mô hình hình ảnh lớn là sau:

  1. Huấn luyện trước: Đào tạo một mô hình hình ảnh lớn trên một hình ảnh chung rộng lớn chẳng hạn như tất cả hình ảnh trong Wikimedia commons.
  2. Điều chỉnh chi tiết: Huấn luyện mô hình đã huấn luyện trước để thực hiện một nhiệm vụ cụ thể, chẳng hạn như tạo hình ảnh cá voi sát thủ.

Việc tinh chỉnh có thể bao gồm bất kỳ tổ hợp nào trong số các chiến lược sau:

  • Sửa đổi tất cả mô hình hiện có của mô hình huấn luyện trước tham số. Đôi khi, quá trình này được gọi là điều chỉnh chi tiết đầy đủ.
  • Chỉ sửa đổi một số tham số hiện có của mô hình được huấn luyện trước (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần nhất với lớp đầu vào). Xem điều chỉnh hiệu quả về tham số.
  • Thêm các lớp khác, thường là trên các lớp hiện có gần nhất với lớp đầu ra.

Điều chỉnh chi tiết là một hình thức học chuyển đổi. Như vậy, quá trình tinh chỉnh có thể sử dụng một hàm mất mát khác hoặc một mô hình khác khác với các loại được dùng để huấn luyện mô hình luyện sẵn. Ví dụ: bạn có thể tinh chỉnh mô hình hình ảnh lớn được huấn luyện trước để tạo ra một mô hình hồi quy trả về số lượng chim trong hình ảnh đầu vào.

So sánh và đối chiếu tính năng tinh chỉnh với các thuật ngữ sau:

Hãy xem phần Chỉnh sửa chi tiết trong Khoá học học máy ứng dụng để biết thêm thông tin.

Flax

#language

Một thư viện nguồn mở hiệu suất cao dành cho việc học sâu, được xây dựng dựa trên JAX. Lanh cung cấp các hàm để đào tạo mạng nơron, cũng như làm phương pháp đánh giá hiệu suất.

Vải lanh

#language

Thư viện Transformer nguồn mở, được xây dựng trên Flax, chủ yếu được thiết kế để xử lý ngôn ngữ tự nhiên và nghiên cứu đa phương thức.

quên cổng

#seq

Một phần của Bộ nhớ ngắn hạn dài ô điều chỉnh luồng thông tin qua ô. Cổng quên duy trì ngữ cảnh bằng cách quyết định loại bỏ thông tin nào khỏi trạng thái của ô.

softmax đầy đủ

Từ đồng nghĩa với softmax.

Ngược lại với tính năng lấy mẫu đề xuất.

Hãy xem phần Mạng nơron: Phân loại nhiều lớp trong khoá học cấp tốc về học máy để biết thêm thông tin.

tầng liên kết đầy đủ

Lớp ẩn, trong đó mỗi nút được kết nối với mọi nút trong lớp ẩn tiếp theo.

Lớp liên thông đầy đủ còn được gọi là lớp dày đặc.

biến đổi hàm

Một hàm nhận một hàm làm dữ liệu đầu vào và trả về một hàm đã biến đổi đầu ra. JAX sử dụng các phép biến đổi hàm.

G

GAN

Từ viết tắt của đối nghịch tạo sinh mạng.

tổng quát hoá

#fundamentals

Khả năng của mô hình trong việc đưa ra dự đoán chính xác về dữ liệu mới, chưa từng thấy trước đây. Một mô hình có thể tổng quát hoá thì ngược lại của một mô hình quá phù hợp.

Xem phần Tổng quát trong Khoá học nhanh về máy học để biết thêm thông tin.

Gemini

#language
#image
#generativeAI

Hệ sinh thái này gồm công nghệ AI tiên tiến nhất của Google. Các thành phần của hệ sinh thái này bao gồm:

  • Nhiều mô hình Gemini.
  • Giao diện trò chuyện tương tác cho một mô hình Gemini. Người dùng nhập câu lệnh và Gemini sẽ trả lời các câu lệnh đó.
  • Nhiều API Gemini.
  • Nhiều sản phẩm dành cho doanh nghiệp dựa trên các mô hình Gemini; ví dụ: Gemini cho Google Cloud.

Mô hình Gemini

#language
#image
#generativeAI

Các mô hình đa phương thức dựa trên Transformer tiên tiến của Google. Các mô hình Gemini đặc biệt được thiết kế để tích hợp với các tác nhân.

Người dùng có thể tương tác với các mô hình Gemini theo nhiều cách, bao gồm cả thông qua giao diện hộp thoại tương tác và thông qua SDK.

đường cong tổng quát hoá

#fundamentals

Biểu đồ của cả mất mát trong quá trình huấn luyệnmất mát trong quá trình xác thực dưới dạng hàm của số lặp lại.

Đường cong tổng quát hoá có thể giúp bạn phát hiện trường hợp thừa khớp. Ví dụ: đường cong tổng quát sau đây cho thấy tình trạng phù hợp quá mức vì tổn thất xác thực cuối cùng sẽ cao hơn đáng kể so với tổn thất huấn luyện.

Biểu đồ Descartes trong đó trục y được gắn nhãn là tổn thất và trục x được gắn nhãn là số lần lặp lại. Hai lô đất xuất hiện. Một biểu đồ cho thấy
          lỗ hổng huấn luyện và cái còn lại cho thấy lỗ hổng xác thực.
          Hai kế hoạch này khởi đầu tương tự nhau, nhưng rồi dần mất đi huấn luyện
          mức giảm thấp hơn nhiều so với tổn thất xác thực.

Xem phần Tổng quát trong Khoá học nhanh về máy học để biết thêm thông tin.

mô hình tuyến tính tổng quát

Tổng quát hoá các mô hình biện pháp hồi quy bình phương nhỏ nhất dựa trên nhiễu Gaussian cho các loại mô hình khác dựa trên các loại nhiễu khác, chẳng hạn như nhiễu Poisson hoặc nhiễu phân loại. Sau đây là một số ví dụ về mô hình tuyến tính tổng quát:

Bạn có thể tìm thấy các tham số của mô hình tuyến tính tổng quát thông qua tối ưu hoá mặt đồng hồ.

Mô hình tuyến tính tổng quát thể hiện các thuộc tính sau:

  • Giá trị dự đoán trung bình của mô hình hồi quy bình phương tối thiểu bằng với nhãn trung bình trên dữ liệu huấn luyện.
  • Xác suất trung bình được dự đoán bằng hồi quy logistic tối ưu bằng nhãn trung bình trên dữ liệu huấn luyện.

Sức mạnh của mô hình tuyến tính tổng quát bị giới hạn bởi các tính năng của mô hình. Bỏ thích một mô hình sâu, một mô hình tuyến tính tổng quát hoá thì không thể "tìm hiểu các tính năng mới".

mạng đối nghịch tạo sinh (GAN)

Một hệ thống tạo dữ liệu mới trong đó trình tạo tạo ra và bộ phân biệt xác định liệu điều đó dữ liệu đã tạo là hợp lệ hay không hợp lệ.

Xem khoá học về Mạng đối nghịch tạo sinh để biết thêm thông tin.

AI tạo sinh

#language
#image
#generativeAI

Một lĩnh vực chuyển đổi mới nổi không có định nghĩa chính thức. Tuy nhiên, hầu hết các chuyên gia đều đồng ý rằng các mô hình AI tạo sinh có thể tạo ("tạo") nội dung đáp ứng tất cả các yêu cầu sau:

  • phức tạp
  • nhất quán
  • gốc

Ví dụ: một mô hình AI tạo sinh có thể tạo các bài luận hoặc hình ảnh phức tạp.

Một số công nghệ cũ, bao gồm LSTMsRNN, cũng có thể tạo tệp gốc và nội dung mạch lạc. Một số chuyên gia xem những công nghệ trước đây này là AI tạo sinh, trong khi những người khác lại cho rằng AI tạo sinh thực sự đòi hỏi đầu ra phức tạp hơn so với những công nghệ trước đó có thể tạo ra.

Trái ngược với máy học dự đoán.

mô hình tạo sinh

Trên thực tế, một mô hình thực hiện một trong những việc sau:

  • Tạo (tạo) ví dụ mới từ tập dữ liệu huấn luyện. Ví dụ: một mô hình tạo sinh có thể sáng tác nên thơ sau khi huấn luyện trên một tập hợp thơ. Máy phát điện trong một mạng đối kháng tạo sinh thuộc danh mục này.
  • Xác định xác suất một ví dụ mới đến từ tập huấn luyện hoặc được tạo từ cùng một cơ chế đã tạo tập huấn luyện. Ví dụ: sau khi huấn luyện trên một tập dữ liệu bao gồm các câu tiếng Anh, mô hình tạo sinh có thể xác định xác suất đầu vào mới là một câu tiếng Anh hợp lệ.

Về lý thuyết, mô hình tạo sinh có thể phân biệt được việc phân phối các ví dụ hoặc các đặc điểm cụ thể trong một tập dữ liệu. Đó là:

p(examples)

Các mô hình học tập không giám sát là mô hình tạo sinh.

Trái ngược với các mô hình phân biệt.

trình tạo

Hệ thống con trong vấn đề đối nghịch tạo sinh mạng lưới để tạo các ví dụ mới.

Trái ngược với mô hình phân biệt.

tạp chất gini

#df

Một chỉ số tương tự như entropy. Bộ chia đôi sử dụng các giá trị thu được từ độ không tinh khiết gini hoặc entropy để kết hợp điều kiện để phân loại cây quyết định. Mức nhận thông tin bắt nguồn từ entropy. Không có thuật ngữ tương đương được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa đặt tên này cũng quan trọng như kiếm được thông tin.

Độ không tinh khiết của Gini còn được gọi là chỉ số Gini hoặc đơn giản là Gini.

tập dữ liệu vàng

Một tập hợp dữ liệu được tuyển chọn thủ công, ghi lại sự thật cơ bản. Các nhóm có thể sử dụng một hoặc nhiều tập dữ liệu vàng để đánh giá chất lượng của một mô hình.

Một số tập dữ liệu quan trọng thu thập được nhiều miền con của thông tin thực tế. Ví dụ: tập dữ liệu vàng để phân loại hình ảnh có thể chụp được các điều kiện ánh sáng và độ phân giải hình ảnh.

GPT (Biến đổi tạo sinh được huấn luyện trước)

#language

Một nhóm mô hình ngôn ngữ lớn dựa trên Transformer do OpenAI phát triển.

Các biến thể GPT có thể áp dụng cho nhiều phương thức, bao gồm:

  • tạo hình ảnh (ví dụ: ImageGPT)
  • tạo văn bản thành hình ảnh (ví dụ: DALL-E).

chuyển màu

Vectơ của đạo hàm từng phần đối với tất cả các biến độc lập. Trong học máy, độ dốc là vectơ của các đạo hàm riêng của hàm mô hình. Các điểm chuyển màu theo hướng đi lên dốc nhất.

tích luỹ độ dốc

Kỹ thuật truyền ngược cập nhật tham số chỉ một lần cho mỗi thời gian bắt đầu của hệ thống thay vì một lần cho mỗi lặp lại. Sau khi xử lý từng lô nhỏ, việc tích luỹ độ dốc chỉ cần cập nhật tổng số độ dốc đang chạy. Sau đó, sau khi xử lý lô nhỏ cuối cùng trong epoch, hệ thống cuối cùng sẽ cập nhật các tham số dựa trên tổng tất cả các thay đổi về độ dốc.

Tính năng tích luỹ chuyển màu rất hữu ích khi kích thước lô là rất lớn so với dung lượng bộ nhớ trống để huấn luyện. Khi bộ nhớ là vấn đề, xu hướng tự nhiên là giảm kích thước lô. Tuy nhiên, việc giảm kích thước lô trong quá trình truyền ngược thông thường sẽ làm tăng số lần cập nhật thông số. Tính năng tích luỹ độ dốc cho phép mô hình tránh các vấn đề về bộ nhớ nhưng vẫn huấn luyện hiệu quả.

Cây tăng độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

Hãy xem phần Cây quyết định tăng cường theo độ dốc trong khoá học về Cây quyết định để biết thêm thông tin.

tăng độ dốc

#df

Một thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện lặp lại cải thiện chất lượng (giảm tổn thất) của mô hình mạnh. Ví dụ: một mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc nhỏ. Mô hình mạnh sẽ trở thành tổng hợp của tất cả mô hình yếu được huấn luyện trước đó.

Trong hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp lại, một mô hình yếu được huấn luyện để dự đoán độ dốc của tổn thất trong mô hình mạnh. Sau đó, kết quả của mô hình mạnh được cập nhật bằng cách trừ độ dốc dự đoán, tương tự như độ dốc giảm.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

  • $F_{0}$ là mô hình khởi đầu mạnh mẽ.
  • $F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị nằm trong khoảng từ 0.0 đến 1.0 có tên là rút gọn, tương tự như tỷ lệ học ở giảm độ dốc.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán độ dốc tổn thất của $F_{i}$.

Các biến thể hiện đại của tăng độ dốc cũng bao gồm đạo hàm thứ hai (Hessian) về tổn thất trong tính toán.

Cây quyết định thường được dùng làm mô hình yếu trong tăng độ dốc. Xem cây tăng cường độ dốc (quyết định).

cắt hiệu ứng chuyển màu

#seq

Một cơ chế thường dùng để giảm thiểu vấn đề tăng dần bằng cách giới hạn (cắt) giá trị tối đa của độ dốc một cách nhân tạo khi sử dụng lệch độ dốc để huấn luyện một mô hình.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu mất mát. Phương pháp hạ dần theo độ dốc sẽ điều chỉnh lặp lại trọng sốđộ lệch, dần dần tìm ra tổ hợp tốt nhất để giảm thiểu tổn thất.

Quá trình gốc chuyển màu cũ hơn – lâu đời hơn nhiều – so với công nghệ học máy.

Xem Hồi quy tuyến tính: Độ dốc descent trong Khoá học nhanh về máy học để biết thêm thông tin.

đồ thị

#TensorFlow

Trong TensorFlow, một thông số kỹ thuật tính toán. Các nút trong biểu đồ biểu thị hoạt động. Các cạnh được định hướng và tượng trưng cho việc truyền kết quả của một toán tử (Tensor) dưới dạng toán hạng sang toán tử khác. Sử dụng TensorBoard để trực quan hoá biểu đồ.

thực thi biểu đồ

#TensorFlow

Một môi trường lập trình TensorFlow mà trong đó chương trình sẽ xây dựng chương trình đầu tiên một biểu đồ rồi thực thi toàn bộ hoặc một phần của biểu đồ đó. Biểu đồ thực thi là chế độ thực thi mặc định trong TensorFlow 1.x.

Trái ngược với kiểu thực thi mong muốn.

chính sách tham lam

#rl

Trong học tăng cường, chính sách luôn chọn có lợi tức dự kiến cao nhất.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán liệu một sinh viên năm nhất đại học có tốt nghiệp trong vòng 6 năm hay không. Giá trị thực tế cho mô hình này là liệu học viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

thiên vị quy cho nhóm

#fairness

Giả sử rằng điều đúng với một cá nhân cũng đúng với mọi người trong nhóm đó. Tác động của thiên kiến phân bổ nhóm có thể trở nên trầm trọng hơn nếu lấy mẫu tiện lợi được dùng để thu thập dữ liệu. Trong một mẫu không đại diện, các thuộc tính có thể được tạo không phản ánh thực tế.

Xem thêm thiên vị đồng nhất khác nhómthiên vị đồng nhất trong nhóm. Ngoài ra, hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học học máy ứng dụng để biết thêm thông tin.

Số lần bị đánh trúng bóng

ảo giác

#language

Việc tạo ra kết quả có vẻ hợp lý nhưng không chính xác về mặt thực tế bằng mô hình AI tạo sinh, mô hình này có ý định đưa ra một câu nhận định về thế giới thực. Ví dụ: một mô hình AI tạo sinh tuyên bố rằng Barack Obama đã chết vào năm 1865 là ảo tưởng.

băm

Trong học máy, một cơ chế để nhóm dữ liệu dạng danh mục, đặc biệt là khi số lượng danh mục lớn nhưng số lượng danh mục thực sự xuất hiện trong tập dữ liệu lại tương đối nhỏ.

Ví dụ như Trái Đất là nhà của khoảng 73.000 loài cây. Bạn có thể đại diện cho mỗi trong số 73.000 loài cây trong 73.000 phân loại riêng biệt . Ngoài ra, nếu chỉ có 200 trong số các loài cây đó thực sự xuất hiện trong một tập dữ liệu, thì bạn có thể sử dụng hàm băm để chia các loài cây thành khoảng 500 nhóm.

Một bộ chứa có thể chứa nhiều loài cây. Ví dụ: băm có thể đặt baobabphong đỏ—hai không giống nhau về gen loài—vào cùng một nhóm. Mặc dù vậy, băm vẫn là một cách hay để ánh xạ các tập hợp phân loại lớn vào số nhóm đã chọn. Thao tác băm biến một tính năng phân loại có một số lượng lớn các giá trị có thể có vào số lượng giá trị nhỏ hơn bằng cách nhóm các giá trị trong một theo thuật toán tất định.

Xem Dữ liệu danh mục: Từ vựng và một nội dung phổ biến mã hoá trong Khoá học nhanh về máy học để biết thêm thông tin.

phương pháp phỏng đoán

Một giải pháp đơn giản và nhanh chóng được triển khai cho một vấn đề. Ví dụ: "Với phương pháp suy nghiệm, chúng tôi đã đạt được độ chính xác 86%. Khi chúng tôi chuyển sang mạng nơron sâu, độ chính xác lên đến 98%".

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các đặc điểm) và lớp đầu ra (dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều nơ-ron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, lớp đầu tiên có 3 tế bào thần kinh và lớp thứ hai có 2 tế bào thần kinh:

4 lớp. Lớp đầu tiên là lớp đầu vào chứa hai
          các tính năng AI mới. Lớp thứ hai là lớp ẩn chứa ba tế bào thần kinh. Lớp thứ ba là một lớp ẩn chứa hai
          nơron. Lớp thứ tư là lớp đầu ra. Mỗi tính năng
          chứa ba cạnh, mỗi cạnh trỏ tới một nơron khác nhau
          ở lớp thứ hai. Mỗi tế bào thần kinh trong lớp thứ hai chứa hai cạnh, mỗi cạnh trỏ đến một tế bào thần kinh khác trong lớp thứ ba. Mỗi nơron trong lớp thứ ba chứa
          một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước là một mạng nơron sâu vì mô hình chứa hai lớp ẩn.

Hãy xem phần Mạng nơron: Nút và lớp ẩn trong khoá học cấp tốc về máy học để biết thêm thông tin.

phân cụm phân cấp

#clustering

Danh mục thuật toán cụm tạo ra một cây cụm. Tính năng phân cụm phân cấp rất phù hợp với dữ liệu phân cấp, chẳng hạn như các hệ thống phân loại thực vật. Có hai loại phân cấp các thuật toán phân cụm:

  • Trước tiên, tính năng phân cụm tổng hợp sẽ chỉ định mỗi ví dụ cho cụm riêng của mình, và liên tục hợp nhất các cụm gần nhất để tạo hệ phân cấp cây xanh.
  • Trước tiên, kỹ thuật phân cụm phân chia sẽ nhóm tất cả các ví dụ vào một cụm, sau đó lặp lại việc chia cụm đó thành một cây phân cấp.

Tương phản với thuật toán phân cụm dựa trên tâm điểm.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

tổn thất khớp nối

Một nhóm hàm mất mát để phân loại được thiết kế để tìm ranh giới quyết định càng xa càng tốt từ mỗi ví dụ huấn luyện, do đó tối đa hoá khoảng cách giữa các ví dụ và ranh giới. KSVM sử dụng tổn thất bản lề (hoặc một hàm có liên quan, chẳng hạn như tổn thất bản lề bình phương). Đối với việc phân loại nhị phân, hàm tổn thất bản lề được xác định như sau:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

trong đó y là nhãn thực, -1 hoặc +1 và y' là đầu ra thô của mô hình phân loại:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Do đó, biểu đồ về tổn thất bản lề so với (y * y') sẽ có dạng như sau:

Biểu đồ Descartes bao gồm hai đoạn thẳng đã kết hợp. Đầu tiên
          đoạn thẳng bắt đầu tại (-3, 4) và kết thúc tại (1, 0). Dòng thứ hai
          phân đoạn bắt đầu tại (1, 0) và tiếp tục vô hạn định với một hệ số góc
          trong số 0.

thiên kiến trước đây

#fairness

Một loại thiên kiến đã tồn tại trong thế giới thực và đã xâm nhập vào một tập dữ liệu. Những thành kiến này có xu hướng phản ánh các định kiến văn hoá, sự bất bình đẳng về nhân khẩu học và định kiến đối với một số nhóm xã hội nhất định.

Ví dụ: hãy xem xét một mô hình phân loại dự đoán liệu người đăng ký vay có trả nợ trước hạn hay không. Mô hình này được huấn luyện dựa trên dữ liệu trả nợ trước hạn trước đây từ những năm 1980 của các ngân hàng địa phương ở hai cộng đồng khác nhau. Nếu trước đây, những người đăng ký từ Cộng đồng A có khả năng vỡ nợ gấp 6 lần so với những người đăng ký từ Cộng đồng B, thì mô hình có thể học được một sự thiên vị trong quá khứ, dẫn đến việc mô hình ít có khả năng phê duyệt khoản vay ở Cộng đồng A, ngay cả khi các điều kiện trong quá khứ dẫn đến tỷ lệ vỡ nợ cao hơn của cộng đồng đó không còn phù hợp nữa.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong khoá học cấp tốc về học máy để biết thêm thông tin.

dữ liệu không huấn luyện

Ví dụ được cố ý không sử dụng ("để riêng") trong quá trình huấn luyện. Tập dữ liệu xác thựctập dữ liệu kiểm thử là ví dụ về dữ liệu giữ lại. Dữ liệu giữ lại giúp đánh giá khả năng tổng quát hoá của mô hình đối với dữ liệu khác với dữ liệu mà mô hình được huấn luyện. Mất mát trên tập dữ liệu giữ lại cung cấp thông tin ước tính tốt hơn về tổn thất trên tập dữ liệu chưa thấy so với tổn thất trên tập dữ liệu huấn luyện.

người tổ chức

#TensorFlow
#GoogleCloud

Khi huấn luyện mô hình học máy trên chip tăng tốc (GPU hoặc TPU), phần hệ thống sẽ kiểm soát cả hai yếu tố sau:

  • Luồng tổng thể của mã.
  • Trích xuất và biến đổi quy trình đầu vào.

Máy chủ lưu trữ thường chạy trên CPU chứ không phải trên chip tăng tốc; thiết bị sẽ thao tác với tensor trên chip tăng tốc.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh tham số siêu dữ liệu điều chỉnh trong các lần chạy liên tiếp để huấn luyện mô hình. Ví dụ: tốc độ học là một tham số siêu dữ liệu. Bạn có thể hãy đặt tốc độ học là 0,01 trước một buổi đào tạo. Nếu bạn Nếu xác định rằng 0,01 là quá cao, bạn có thể thiết lập điểm là 0,003 cho lần huấn luyện tiếp theo.

Ngược lại, tham số là các loại khác nhau trọng sốđộ lệch mà mô hình đó học được trong quá trình đào tạo.

Hãy xem phần Phương pháp hồi quy tuyến tính: Thông số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

siêu mặt phẳng

Ranh giới phân tách không gian thành hai không gian con. Ví dụ: một đường kẻ là một siêu mặt phẳng có hai chiều và mặt phẳng là siêu mặt phẳng không gian ba chiều. Thông thường trong công nghệ học máy, siêu mặt phẳng là ranh giới phân tách một không gian chiều cao. Sử dụng máy vectơ hỗ trợ kernel siêu mặt phẳng để phân tách lớp dương khỏi lớp phủ định, thường theo tỷ lệ không gian chiều cao.

I

i.i.d.

Từ viết tắt của cụm từ phân phối độc lập và giống hệt.

nhận dạng hình ảnh

#image

Một quy trình phân loại (các) đối tượng, (các) mẫu hoặc (các) khái niệm trong một hình ảnh. Nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.

Để biết thêm thông tin, hãy xem Thực hành học máy: Phân loại hình ảnh.

Hãy xem khoá học Thực hành về học máy: Phân loại hình ảnh để biết thêm thông tin.

tập dữ liệu không cân bằng

Từ đồng nghĩa với tập dữ liệu không cân bằng về lớp.

thiên kiến ngầm

#fairness

Tự động liên kết hoặc giả định dựa trên các mô hình và ký ức của tâm trí. Thành kiến ngầm có thể ảnh hưởng đến những vấn đề sau:

  • Cách thu thập và phân loại dữ liệu.
  • Cách thiết kế và phát triển hệ thống học máy.

Ví dụ: khi xây dựng một thuật toán phân loại để xác định ảnh cưới, kỹ sư có thể sử dụng trang phục trắng trong ảnh làm tính năng. Tuy nhiên, váy trắng chỉ là trang phục truyền thống trong một số thời đại và ở một số nền văn hóa nhất định.

Xem thêm về thiên kiến xác nhận.

giá trị nội suy

Biểu thức viết tắt của phương pháp nội suy giá trị.

không tương thích các chỉ số về tính công bằng

#fairness

Quan điểm cho rằng một số khái niệm về sự công bằng không tương thích với nhau và không thể được đáp ứng cùng một lúc. Do đó, không có một chỉ số chung nào có thể đo lường được tính công bằng và áp dụng cho mọi vấn đề về học máy.

Mặc dù điều này có vẻ gây nản lòng, nhưng việc các chỉ số về tính công bằng không tương thích với nhau không có nghĩa là những nỗ lực nhằm đảm bảo tính công bằng là vô ích. Thay vào đó, công cụ này đề xuất rằng tính công bằng phải được định nghĩa theo ngữ cảnh cho một vấn đề máy học nhất định, với mục tiêu ngăn chặn các mối nguy hại cụ thể đối với các trường hợp sử dụng của công cụ đó.

Hãy xem phần "Về khả năng (không) công bằng" để thảo luận chi tiết hơn về chủ đề này.

học tập theo bối cảnh

#language
#generativeAI

Từ đồng nghĩa với câu lệnh dựa trên một vài ví dụ.

được phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ một phân phối không thay đổi và mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. I.i.d. là khí lý tưởng của học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ tìm thấy chính xác trong thế giới thực. Ví dụ: phân phối khách truy cập vào một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là phân phối không trong khoảng thời gian ngắn đó và lượt ghé thăm của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, về số lượng khách truy cập trang web.

Hãy xem thêm về vấn đề tình trạng không ổn định.

sự công bằng cá nhân

#fairness

Một chỉ số công bằng giúp kiểm tra xem liệu các cá nhân tương tự có được phân loại tương tự hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng tính công bằng cá nhân bằng cách đảm bảo rằng hai học viên có điểm giống hệt nhau và điểm kiểm tra chuẩn hoá có khả năng được nhận vào học như nhau.

Xin lưu ý rằng sự công bằng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "sự tương đồng" (trong trường hợp này là điểm số và điểm kiểm tra) và bạn có thể gặp rủi ro về đưa ra các vấn đề mới về sự công bằng nếu chỉ số mức độ tương đồng của bạn không đáp ứng các tiêu chí quan trọng thông tin (chẳng hạn như mức độ nghiêm ngặt trong chương trình học của học viên).

Xem phần "Sự công bằng thông qua Mức độ nhận biết" để thảo luận chi tiết hơn về sự công bằng của từng cá nhân.

suy luận

#fundamentals

Trong học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ chưa được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong thống kê. Xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết vai trò của suy luận trong hệ thống học có giám sát.

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình xét suy, tuyến đường mà một ví dụ cụ thể đi từ gốc đến các điều kiện khác, kết thúc bằng một . Ví dụ: trong cây quyết định sau đây, mũi tên dày hơn hiển thị đường dẫn suy luận cho một ví dụ như sau các giá trị tính năng:

  • x = 7
  • y = 12
  • z = -3

Lộ trình suy luận trong hình minh hoạ sau đây đi qua ba điều kiện trước khi tiếp cận lá (Zeta).

Cây quyết định bao gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, nên
          đường suy luận đi từ gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, nên đường dẫn suy luận sẽ chuyển đến điều kiện tiếp theo (z > 0). Vì câu trả lời là Không, nên đường dẫn suy luận sẽ chuyển đến nút đầu cuối, tức là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

Hãy xem phần Cây quyết định trong khoá học Rừng quyết định để biết thêm thông tin.

mức tăng thông tin

#df

Trong rừng quyết định, chênh lệch giữa entropy của một nút và tổng trọng số (theo số lượng ví dụ) của entropy của các nút con. Entropy của một nút là entropy các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con với 16 ví dụ có liên quan = 0,2
  • entropy của nút con khác với 24 ví dụ có liên quan = 0,1

Vì vậy, 40% ví dụ nằm trong một nút con và 60% nằm trong nút con khác. Vì thế:

  • tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Vì vậy, thông tin nhận được là:

  • thông tin thu được = entropy của nút mẹ – tổng entropy có trọng số của các nút con
  • độ nhận thông tin = 0,6 - 0,14 = 0,46

Hầu hết trình phân tách đều tìm cách tạo điều kiện giúp tăng tối đa lượng thông tin thu được.

thiên vị cùng nhóm

#fairness

Thể hiện sự thiên vị với một nhóm người hoặc đặc điểm riêng. Nếu người kiểm thử hoặc người đánh giá bao gồm bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển học máy, thì sự thiên vị trong nhóm có thể làm mất hiệu lực của quy trình kiểm thử sản phẩm hoặc tập dữ liệu.

Thiên vị trong nhóm là một hình thức thiên vị phân bổ nhóm. Xem thêm thiên vị đồng nhất của nhóm bên ngoài.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

trình tạo đầu vào

Cơ chế mà dữ liệu được tải vào mạng nơron.

Bạn có thể coi trình tạo dữ liệu đầu vào là một thành phần chịu trách nhiệm xử lý dữ liệu thô thành các tensor được lặp lại để tạo các lô cho việc huấn luyện, đánh giá và suy luận.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ đối tượng. Tức là lớp đầu vào cung cấp ví dụ để huấn luyện hoặc xác định. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai đặc điểm:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

điều kiện đặt sẵn

#df

Trong cây quyết định, điều kiện kiểm tra sự hiện diện của một mục trong một tập hợp các mục. Ví dụ: sau đây là một điều kiện trong tập hợp:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu nhà là tudor hoặc colonial hoặc cape, thì điều kiện này sẽ đánh giá là Có. Nếu giá trị của tính năng kiểu nhà là một giá trị khác (ví dụ: ranch), thì điều kiện này sẽ đánh giá là Không.

Các điều kiện được đặt sẵn thường dẫn đến cây quyết định hiệu quả hơn so với để kiểm tra các tính năng được mã hoá một nóng.

bản sao

Từ đồng nghĩa với ví dụ.

điều chỉnh hướng dẫn

#generativeAI

Một hình thức điều chỉnh tinh vi giúp cải thiện khả năng làm theo hướng dẫn của mô hình AI tạo sinh. Điều chỉnh hướng dẫn bao gồm việc huấn luyện một mô hình trên một chuỗi các câu lệnh hướng dẫn, thường đề cập đến nhiều công việc khác nhau. Sau đó, mô hình điều chỉnh hướng dẫn thu được có xu hướng tạo ra câu trả lời hữu ích cho các câu lệnh cơ bản để thực hiện nhiều công việc.

So sánh và đối chiếu với:

mức độ diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lập luận của mô hình học máy trong những cụm từ dễ hiểu đối với con người.

Ví dụ: hầu hết các mô hình biến hồi quy tuyến tính đều có thể diễn giải được. (Bạn chỉ cần xem trọng số đã huấn luyện cho mỗi feature.) Rừng quyết định cũng dễ diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải.

Bạn có thể sử dụng Công cụ diễn giải học tập (LIT) để diễn giải các mô hình học máy.

mức độ đồng thuận giữa các người đánh giá

Một chỉ số đo lường về tần suất mà nhân viên đánh giá đồng ý khi thực hiện một công việc. Nếu người đánh giá không đồng ý, hướng dẫn về nhiệm vụ có thể cần được cải thiện. Đôi khi, loại ký tự này còn được gọi là Thoả thuận giữa người chú thích hoặc độ tin cậy liên quan đến đánh giá. Xem thêm về kappa của Cohen, một trong những phép đo độ đồng thuận giữa các người đánh giá phổ biến nhất.

Xem phần Dữ liệu danh mục: Phổ biến vấn đề trong Khoá học nhanh về máy học để biết thêm thông tin.

giao điểm trên liên kết (IoU)

#image

Giao của hai tập hợp chia cho hợp của chúng. Trong các nhiệm vụ phát hiện hình ảnh bằng máy học, IoU được dùng để đo lường độ chính xác của hộp giới hạn dự đoán của mô hình so với hộp giới hạn đầu ra thực sự. Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa diện tích trùng lặp và tổng diện tích, và giá trị của nó nằm trong khoảng từ 0 (không có sự trùng lặp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế) đến 1 (hộp giới hạn dự đoán và hộp giới hạn thực tế có cùng toạ độ).

Ví dụ: trong hình ảnh dưới đây:

  • Hộp giới hạn dự đoán (tọa độ phân định vị trí mô hình) dự đoán chiếc bàn ban đêm trong bức tranh nằm) có viền ngoài màu tím.
  • Hộp giới hạn thực tế trên mặt đất (tọa độ phân định nơi ban đêm trong bức tranh thực sự nằm) được vẽ đường viền màu xanh lục.

Bức tranh của Van Gogh có tên Phòng ngủ của Vincent ở Arles, với hai hộp giới hạn khác nhau xung quanh chiếc bàn cạnh giường. Sự thật
          hộp giới hạn (màu xanh lục) bao quanh hoàn hảo bảng đêm. Hộp giới hạn dự đoán (màu tím) bị dịch chuyển xuống 50% và sang phải của hộp giới hạn thực tế; hộp này bao gồm phần tư dưới cùng bên phải của bàn đêm, nhưng bỏ lỡ phần còn lại của bàn.

Ở đây, giao của các hộp giới hạn cho kết quả dự đoán và giá trị thực tế (dưới bên trái) là 1 và hợp của các hộp giới hạn cho kết quả dự đoán và giá trị thực tế (dưới bên phải) là 7, do đó, IoU là \(\frac{1}{7}\).

Cùng hình ảnh như trên, nhưng với mỗi hộp giới hạn được chia thành bốn
          góc phần tư. Có tổng cộng 7 góc phần tư, vì góc dưới cùng bên phải
          góc phần tư của hộp giới hạn thực tế mặt đất và góc trên cùng bên trái
          góc phần tư của hộp giới hạn được dự đoán chồng lên nhau. Chiến dịch này
          phần chồng chéo (được đánh dấu bằng màu xanh lục) biểu thị
          và có diện tích bằng 1. Cùng hình ảnh như trên, nhưng với mỗi hộp giới hạn được chia thành bốn
          góc phần tư. Có tổng cộng 7 góc phần tư, vì góc dưới cùng bên phải
          góc phần tư của hộp giới hạn thực tế mặt đất và góc trên cùng bên trái
          góc phần tư của hộp giới hạn được dự đoán chồng lên nhau.
          Toàn bộ nội thất được bao quanh bởi 2 hộp chắn
          (được đánh dấu bằng màu xanh lục) tượng trưng cho sự kết hợp, và
          diện tích 7.

IoU

Từ viết tắt của giao lộ đối với đường hợp.

ma trận mặt hàng

#recsystems

Trong hệ thống đề xuất, một ma trận vectơ nhúng được tạo bằng phân tích nhân ma trận chứa các tín hiệu tiềm ẩn về từng mục. Mỗi hàng của ma trận mặt hàng chứa giá trị của một đặc điểm tiềm ẩn duy nhất cho tất cả các mặt hàng. Ví dụ: hãy cân nhắc sử dụng hệ thống đề xuất phim. Mỗi cột trong ma trận mục đại diện cho một bộ phim. Tín hiệu tiềm ẩn có thể đại diện cho thể loại hoặc có thể khó hiểu hơn tín hiệu liên quan đến hoạt động tương tác phức tạp giữa các thể loại, ngôi sao tuổi của phim hoặc các yếu tố khác.

Ma trận mục có cùng số cột với ma trận mục tiêu đang được phân tích. Ví dụ: giả sử hệ thống đề xuất phim đánh giá 10.000 bộ phim, thì ma trận mục sẽ có 10.000 cột.

mục

#recsystems

Trong hệ thống đề xuất, các thực thể mà hệ thống đề xuất. Ví dụ: video là các mặt hàng mà cửa hàng video đề xuất, còn sách là các mặt hàng mà hiệu sách đề xuất.

lặp lại

#fundamentals

Một lần cập nhật tham số của mô hìnhtrọng sốsai số của mô hình – trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh các tham số.

Khi huấn luyện mạng nơron, một lần lặp lại bao gồm hai lần truyền sau:

  1. Một lượt chuyển tiếp để đánh giá tổn thất trong một lô.
  2. Truyền lùi (backpropagation) để điều chỉnh dựa trên mức tổn thất và tốc độ học.

J

JAX

Một thư viện điện toán mảng (array), tập hợp XLA (Đại số tuyến tính nhanh) và tính năng phân biệt tự động để tính toán số hiệu suất cao. JAX cung cấp một API đơn giản và mạnh mẽ để viết mã số học tăng tốc bằng các phép biến đổi có thể kết hợp. JAX cung cấp các tính năng như:

  • grad (tự động phân biệt)
  • jit (biên dịch đúng thời điểm)
  • vmap (tự động vectơ hoá hoặc tạo lô)
  • pmap (tiến trình song song)

JAX là ngôn ngữ thể hiện và soạn các phép biến đổi số mã tương tự nhưng có phạm vi lớn hơn nhiều so với NumPy của Python thư viện của bạn. (Thực tế, thư viện .numpy trong JAX là một phiên bản tương đương về chức năng nhưng được viết lại hoàn toàn của thư viện NumPy trong Python.)

JAX đặc biệt phù hợp để tăng tốc nhiều tác vụ học máy bằng cách chuyển đổi các mô hình và dữ liệu thành một dạng phù hợp với tính song song trên GPU và chip tăng tốc TPU.

Flax, Optax, Pax và nhiều công cụ khác thư viện được xây dựng trên cơ sở hạ tầng JAX.

nghìn

Keras

Một API học máy Python phổ biến. Keras chạy trên một số khung học sâu, bao gồm cả TensorFlow, trong đó Keras được cung cấp dưới dạng tf.keras.

Máy vectơ hỗ trợ hạt nhân (KSVM)

Một thuật toán phân loại tìm cách tối đa hoá khoảng cách giữa lớp dươnglớp âm bằng cách ánh xạ các vectơ dữ liệu đầu vào đến một không gian có kích thước cao hơn. Ví dụ: hãy xem xét một cách phân loại bài tập trong đó tập dữ liệu đầu vào có hàng trăm tính năng. Để tối đa hoá khoảng cách giữa các lớp dương và lớp phủ định, KSVM có thể ánh xạ nội bộ những tính năng đó vào một triệu chiều. KSVM sử dụng một hàm mất được gọi là mất bản lề.

điểm chính

#image

Toạ độ của các đặc điểm cụ thể trong một hình ảnh. Ví dụ: đối với mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, các điểm chính có thể là tâm của mỗi cánh hoa, thân cây, nhị hoa, v.v.

Xác thực chéo k-nhóm

Thuật toán dự đoán khả năng của mô hình tổng quát hoá thành dữ liệu mới. k trong k-fold đề cập đến số lượng nhóm bằng nhau mà bạn chia ví dụ của một tập dữ liệu; tức là bạn đào tạo và kiểm thử mô hình của bạn k lần. Đối với mỗi vòng huấn luyện và kiểm thử, một nhóm khác nhau sẽ là tập kiểm thử và tất cả các nhóm còn lại sẽ trở thành tập huấn luyện. Sau k vòng huấn luyện và kiểm thử, bạn tính được giá trị trung bình và độ lệch chuẩn của(các) chỉ số kiểm tra đã chọn.

Ví dụ: giả sử tập dữ liệu của bạn bao gồm 120 ví dụ. Giả sử thêm, bạn quyết định đặt k thành 4. Do đó, sau khi trộn các ví dụ, bạn chia tập dữ liệu thành 4 nhóm bằng nhau, mỗi nhóm gồm 30 ví dụ và tiến hành 4 nhóm. vòng đào tạo và kiểm thử:

Một tập dữ liệu được chia thành 4 nhóm ví dụ bằng nhau. Trong Vòng 1, ba nhóm đầu tiên được dùng để huấn luyện và nhóm cuối cùng được dùng để kiểm thử. Ở Vòng 2, hai bảng đầu tiên và các bảng cuối cùng
          nhóm được dùng để huấn luyện, còn nhóm thứ ba được dùng cho
          kiểm thử. Ở Vòng 3, nhóm đầu tiên và hai nhóm cuối cùng là
          dùng để huấn luyện, còn nhóm thứ hai dùng để kiểm thử.
          Ở Vòng 4, nhóm đầu tiên được dùng để kiểm thử, trong khi nhóm cuối cùng
          dùng 3 nhóm để huấn luyện.

Ví dụ: Sai số bình phương trung bình (MSE) có thể là chỉ số có ý nghĩa nhất cho mô hình hồi quy tuyến tính. Do đó, bạn sẽ tìm thấy giá trị trung bình và độ lệch chuẩn của MSE trên cả 4 vòng.

k trung bình

#clustering

Thuật toán nhóm phổ biến giúp nhóm các ví dụ trong học tập không có giám sát. Về cơ bản, thuật toán k-means thực hiện những việc sau:

  • Xác định bằng cách lặp lại k điểm tâm tốt nhất (đã biết làm centroids).
  • Chỉ định mỗi ví dụ cho trọng tâm gần nhất. Các ví dụ gần nhất cùng một trọng tâm lại thuộc cùng một nhóm.

Thuật toán k-means chọn các vị trí trọng tâm để giảm thiểu dữ liệu tích luỹ bình phương của khoảng cách từ mỗi ví dụ đến trọng tâm gần nhất.

Ví dụ: hãy xem biểu đồ sau đây lấy chiều cao của chó so với chiều rộng của chó:

Biểu đồ Descartes có vài chục điểm dữ liệu.

Nếu k=3, thuật toán k-means sẽ xác định được 3 tâm. Từng ví dụ được gán cho trọng tâm gần nhất, thu được ba nhóm:

Cốt truyện Descartes tương tự như trong hình minh hoạ trước, ngoại trừ
          với 3 tâm điểm.
          Các điểm dữ liệu trước đó được nhóm thành ba nhóm riêng biệt, trong đó mỗi nhóm đại diện cho các điểm dữ liệu gần nhất với một tâm cụ thể.

Hãy tưởng tượng rằng một nhà sản xuất muốn xác định kích thước lý tưởng cho các sản phẩm áo len cỡ vừa và lớn cho chó. Ba trọng tâm xác định giá trị trung bình chiều cao và chiều rộng trung bình của mỗi chú chó trong cụm đó. Vì vậy, nhà sản xuất bạn nên đặt kích thước áo len dựa trên ba trọng tâm đó. Lưu ý rằng tâm của một cụm thường không phải là một ví dụ trong cụm đó.

Các hình minh hoạ trước đó cho thấy k-mean cho những ví dụ chỉ có hai đối tượng (chiều cao và chiều rộng). Xin lưu ý rằng k-means có thể nhóm các ví dụ trên nhiều tính năng.

k trung vị

#clustering

Thuật toán phân cụm có liên quan chặt chẽ đến k-means. Sự khác biệt thực tế giữa hai loại này như sau:

  • Trong k-means, các tâm điểm được xác định bằng cách giảm thiểu tổng bình phương của khoảng cách giữa một tâm điểm đề xuất và từng ví dụ của tâm điểm đó.
  • Trong k-median, các tâm điểm được xác định bằng cách giảm thiểu tổng khoảng cách giữa một tâm điểm đề xuất và mỗi ví dụ của tâm điểm đó.

Xin lưu ý rằng các định nghĩa về khoảng cách cũng khác nhau:

  • K-means dựa trên khoảng cách Euclide từ tâm điểm đến một ví dụ. (Trong hai chiều, phương diện Euclide khoảng cách nghĩa là sử dụng định lý Pythagore để tính cạnh huyền.) Ví dụ: k-có nghĩa là khoảng cách giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • K-median dựa trên khoảng cách Manhattan từ tâm điểm đến một ví dụ. Khoảng cách này là tổng delta tuyệt đối trong mỗi phương diện. Ví dụ: k-median khoảng cách giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Điều hoà L0

#fundamentals

Một loại thông tin chính quy phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Đôi khi, quy trình điều hoà L0 được gọi là quy trình điều hoà theo chuẩn L0.

Mất L1

#fundamentals

hàm giảm tính giá trị tuyệt đối sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: đây là tính toán tổn thất L1 cho một gói là năm ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Mất mát L1 ít nhạy cảm với điểm ngoại lai hơn mất mát L2.

Lỗi tuyệt đối trung bình là giá trị trung bình Mỗi ví dụ về mức giảm 1.

Điều chỉnh L1

#fundamentals

Một loại chính quy phạt trọng số tương ứng với tổng giá trị tuyệt đối của các trọng số. Phương pháp chuẩn hoá L1 giúp tăng trọng số của các đặc điểm không liên quan hoặc gần như không liên quan lên chính xác là 0. Một tính năng có trọng số 0 sẽ bị xoá khỏi mô hình một cách hiệu quả.

Trái ngược với quy tắc điều chỉnh L2.

Giảm L2

#fundamentals

hàm mất tính bình phương sự khác biệt giữa giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L2 cho một gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Quảng trường delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 tổn thất

Do việc bình phương, tổn thất L2 làm tăng ảnh hưởng của các điểm ngoại lai. Tức là tổn thất L2 phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với Mất L1. Ví dụ: tổn thất L1 cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một ngoại lệ chiếm 9 trên 16.

Các mô hình hồi quy thường sử dụng hàm tổn thất L2 làm hàm tổn thất.

Sai số bình phương trung bình là tổn thất trung bình L2 trên mỗi ví dụ. Mất bình phương là một tên khác của tổn thất L2.

Điều hoà L2

#fundamentals

Một loại quy tắc chuẩn hoá phạt trọng số theo tỷ lệ với tổng hình vuông của các trọng số. Việc điều chỉnh L2 giúp tăng trọng số giá trị ngoại lai (những có giá trị âm cao hoặc âm thấp) gần 0 nhưng không hoàn toàn đến 0. Các tính năng có giá trị rất gần với 0 vẫn còn trong mô hình nhưng không ảnh hưởng nhiều đến kết quả dự đoán của mô hình.

Quy trình chuẩn hoá L2 luôn cải thiện khả năng khái quát hoá trong mô hình tuyến tính.

Tương phản với quy trình điều hoà L1.

nhãn

#fundamentals

Trong công nghệ học máy có giám sát, "trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong thư rác tập dữ liệu phát hiện, nhãn có thể là "thư rác" hoặc "không phải là thư rác". Trong một tập dữ liệu lượng mưa, nhãn này có thể là số lượng mưa đã giảm trong một khoảng thời gian nhất định.

ví dụ có gắn nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau hiển thị ba các ví dụ có gắn nhãn từ mô hình định giá nhà, mỗi mô hình có ba tính năng và một nhãn:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi thọ của nhà Giá nhà (nhãn)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 392.000 đô la

Trong công nghệ học máy có giám sát, sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán về các ví dụ chưa được gắn nhãn.

Tương phản ví dụ được gắn nhãn với các ví dụ chưa gắn nhãn.

rò rỉ nhãn

Lỗi thiết kế mô hình trong đó tính năng là proxy cho nhãn. Ví dụ: hãy xem xét mô hình phân loại nhị phân để dự đoán liệu khách hàng tiềm năng có mua một sản phẩm cụ thể hay không. Giả sử một trong các tính năng của mô hình là Boolean có tên SpokeToCustomerAgent. Giả sử thêm rằng nhân viên hỗ trợ khách hàng chỉ được chỉ định sau khi khách hàng tiềm năng thực sự mua sản phẩm. Trong quá trình huấn luyện, mô hình sẽ nhanh chóng tìm hiểu mối liên kết giữa SpokeToCustomerAgent và nhãn.

hàm lambda

#fundamentals

Đồng nghĩa với hệ số điều hoà.

Lambda là một thuật ngữ quá tải. Ở đây, chúng ta sẽ tập trung vào định nghĩa của thuật ngữ này trong quá trình điều chỉnh.

LaMDA (Mô hình ngôn ngữ cho ứng dụng hội thoại)

#language

Dựa trên Transformer mô hình ngôn ngữ lớn do Google phát triển đã được đào tạo về một tập dữ liệu hội thoại lớn có thể tạo ra các câu trả lời trò chuyện chân thực.

LaMDA: công nghệ đàm thoại đột phá của chúng tôi cung cấp thông tin tổng quan.

địa danh

#image

Từ đồng nghĩa với keypoints.

mô hình ngôn ngữ

#language

Mô hình ước tính xác suất của một mã thông báo hoặc chuỗi mã thông báo xảy ra theo một chuỗi mã thông báo dài hơn.

mô hình ngôn ngữ lớn

#language

Ở mức tối thiểu, một mô hình ngôn ngữ có số lượng về tham số. Nói một cách không chính thức, mọi mô hình ngôn ngữ dựa trên Transformer, chẳng hạn như Gemini hoặc GPT.

không gian tiềm ẩn

#language

Từ đồng nghĩa với không gian nhúng.

lớp

#fundamentals

Một tập hợp nơ-ron trong một mạng nơron. Sau đây là 3 loại lớp phổ biến:

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đặc điểm. Lớp ẩn đầu tiên bao gồm 3 tế bào thần kinh và lớp ẩn thứ hai bao gồm 2 tế bào thần kinh. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python lấy Tensor và các tuỳ chọn cấu hình làm dữ liệu đầu vào và tạo ra các tensor khác làm dữ liệu đầu ra.

Layers API (tf.layers)

#TensorFlow

API TensorFlow để tạo một mạng nơron sâu dưới dạng một thành phần của các lớp. Layers API cho phép bạn tạo nhiều loại lớp, chẳng hạn như:

Layers API tuân theo các quy ước API lớp Keras. Đó là, ngoài một tiền tố khác, tất cả các hàm trong API Lớp có cùng tên và chữ ký như các đối tác của họ ở Keras API Lớp bản quyền.

#df

Bất kỳ điểm cuối nào trong cây quyết định. Không giống như điều kiện, lá không thực hiện kiểm thử. Thay vào đó, một lá là một dự đoán có thể xảy ra. Một chiếc lá cũng là thiết bị đầu cuối nút của đường dẫn suy luận.

Ví dụ: Cây quyết định sau đây chứa 3 lá:

Cây quyết định có hai điều kiện dẫn đến ba lá.

Công cụ diễn giải học tập (LIT)

Một công cụ trực quan, tương tác để hiểu mô hình và trực quan hoá dữ liệu.

Bạn có thể sử dụng mã nguồn mở LIT để diễn giải mô hình hoặc trực quan hoá văn bản, hình ảnh và dữ liệu dạng bảng.

tốc độ học

#fundamentals

Số dấu phẩy động cho biết hiệu ứng giảm độ dốc của thuật toán xác định mức độ điều chỉnh trọng số và độ chệch của mỗi vòng lặp. Ví dụ: tốc độ học là 0, 3 sẽ điều chỉnh trọng số và độ lệch mạnh hơn gấp 3 lần so với tốc độ học 0,1.

Tốc độ học là một siêu tham số quan trọng. Nếu bạn đặt tỷ lệ học tập quá thấp, thì việc đào tạo sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, phương pháp hạ gradient thường gặp sự cố khi đạt đến điểm hội tụ.

hồi quy bình phương tối thiểu

Mô hình hồi quy tuyến tính được huấn luyện bằng cách giảm thiểu tổn thất L2.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến có thể chỉ được biểu thị bằng cách cộng và nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Mô hình chỉ định một trọng số cho mỗi tính năng để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp độ lệch.) Ngược lại, mối quan hệ giữa các đặc điểm với dự đoán trong mô hình sâu thường không tuyến tính.

Mô hình tuyến tính thường dễ huấn luyện hơn và dễ giải thích hơn so với mô hình sâu. Tuy nhiên, mô hình sâu có thể tìm hiểu các mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy đáp ứng cả hai điều kiện sau:

  • Mô hình này là một mô hình tuyến tính.
  • Kết quả dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy đối chiếu sự hồi quy với phân loại.

LIT

Từ viết tắt của Công cụ diễn giải học tập (LIT), mà trước đây được gọi là Công cụ diễn giải ngôn ngữ.

LLM

#language
#generativeAI

Từ viết tắt của mô hình ngôn ngữ lớn.

Đánh giá LLM (ví dụ: cổ phiếu giảm giá)

#language
#generativeAI

Một bộ chỉ số và điểm chuẩn để đánh giá hiệu suất của mô hình ngôn ngữ lớn (LLM). Nhìn chung, Hoạt động đánh giá của LLM:

  • Giúp các nhà nghiên cứu xác định những khía cạnh cần cải thiện đối với LLM.
  • Hữu ích trong việc so sánh các LLM khác nhau và xác định LLM tốt nhất cho một tác vụ cụ thể.
  • Giúp đảm bảo rằng các LLM là an toàn và có đạo đức khi sử dụng.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán một xác suất. Mô hình hồi quy logistic có các đặc điểm sau đây:

  • Nhãn này phân loại. Thuật ngữ logistic hồi quy thường đề cập đến hồi quy logistic nhị phân, tức là vào mô hình tính xác suất cho nhãn có hai giá trị có thể có. Một biến thể ít phổ biến hơn là bước hồi quy logistic đa thức, tính toán xác suất cho các nhãn có nhiều hơn hai giá trị có thể có.
  • Hàm tổn thất trong quá trình huấn luyện là Log Loss (Tổn thất logarit). (Bạn có thể đặt nhiều đơn vị tổn thất ghi nhật ký song song cho các nhãn có nhiều hơn hai giá trị có thể có).
  • Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho các mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy logistic để tính toán xác suất email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán là 0,72. Do đó, mô hình đang ước tính:

  • Có 72% khả năng email đó là thư rác.
  • 28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau đây:

  1. Mô hình tạo ra một dự đoán thô (y') bằng cách áp dụng hàm tuyến tính của các tính năng đầu vào.
  2. Mô hình này sử dụng dự đoán thô đó làm dữ liệu đầu vào cho một hàm sigmoid, hàm này chuyển đổi dữ liệu thô cho giá trị dự đoán nằm trong khoảng từ 0 đến 1 và không bao gồm 0 và 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, số này thường trở thành một phần của phân loại nhị phân mô hình như sau:

  • Nếu số dự đoán lớn hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp dương.
  • Nếu số dự đoán ít hơn ngưỡng phân loại, mô hình phân loại nhị phân dự đoán lớp âm.

logits

Vectơ dự đoán thô (chưa chuẩn hoá) mà mô hình phân loại tạo ra, sau đó thường được truyền đến một hàm chuẩn hoá. Nếu mô hình đang giải quyết một vấn đề phân loại nhiều lớp, thì logarit thường trở thành dữ liệu đầu vào cho hàm softmax. Sau đó, hàm softmax sẽ tạo một vectơ xác suất (được chuẩn hoá) với một giá trị cho mỗi lớp có thể có.

Mất nhật ký

#fundamentals

Hàm mất dùng trong tệp nhị phân hồi quy logistic.

tỷ lệ chênh lệch nhật ký

#fundamentals

Lôgarit của xác suất biến cố nào đó.

Bộ nhớ dài hạn ngắn (LSTM)

#seq

Một loại ô trong một mạng nơron tái phát dùng để xử lý trình tự dữ liệu trong các ứng dụng như nhận dạng chữ viết tay, máy bản dịch và chú thích hình ảnh. LSTM giải quyết vấn đề độ dốc biến mất xảy ra khi huấn luyện các RNN do các trình tự dữ liệu kéo dài bằng cách duy trì lịch sử trong trạng thái bộ nhớ trong dựa trên dữ liệu đầu vào và ngữ cảnh mới từ các ô trước trong RNN.

LoRA

#language
#generativeAI

Viết tắt của Khả năng thích ứng cấp thấp.

thua

#fundamentals

Trong quá trình đào tạo về mô hình được giám sát, một thước đo về khoảng cách dự đoán của mô hình được lấy từ nhãn của mô hình đó.

Hàm tổn thất sẽ tính toán tổn thất.

đơn vị tổng hợp tổn thất

Loại thuật toán học máy cải thiện hiệu suất của mô hình bằng cách kết hợp dự đoán về nhiều mô hình và sử dụng những dự đoán đó để đưa ra một dự đoán duy nhất. Do đó, trình tổng hợp tổn thất có thể làm giảm độ biến thiên của các dự đoán và cải thiện độ chính xác của các dự đoán.

đường cong mức ngừng sử dụng

#fundamentals

Biểu đồ giảm là hàm của số lượng đào tạo vòng lặp. Biểu đồ sau đây thể hiện mức tổn thất thông thường đường cong:

Biểu đồ Descartes về tổn thất so với số lần lặp lại trong quá trình huấn luyện, cho thấy tổn thất giảm nhanh trong các lần lặp lại ban đầu, sau đó giảm dần, rồi có độ dốc bằng phẳng trong các lần lặp lại cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình của mình hội tụ hoặc quá thích ứng.

Đường cong tổn thất có thể biểu thị tất cả các loại tổn thất sau đây:

Xem thêm đường cong tổng quát.

hàm mất

#fundamentals

Trong quá trình đào tạo hoặc kiểm thử, để tính toán tổn thất trong một ví dụ. Hàm tổn thất trả về tổn thất thấp hơn cho các mô hình đưa ra dự đoán chính xác hơn so với các mô hình đưa ra dự đoán không chính xác.

Mục tiêu của quá trình huấn luyện thường là giảm thiểu tổn thất mà hàm tổn thất trả về.

Có nhiều loại hàm tổn thất khác nhau. Chọn mức tổn thất phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

bề mặt tổn thất

Biểu đồ về cân nặng so với mức giảm. Mục tiêu của Xuống dốc chuyển màu để tìm trọng lượng của bề mặt giảm cân ở mức tối thiểu cục bộ.

Khả năng thích ứng ở thứ hạng thấp (LoRA)

#language
#generativeAI

Một kỹ thuật tiết kiệm tham số để điều chỉnh tinh vi, giúp "đóng băng" các trọng số được huấn luyện trước của mô hình (như vậy, các trọng số này không thể sửa đổi được nữa) rồi chèn một tập hợp nhỏ các trọng số có thể huấn luyện vào mô hình. Tập hợp trọng số có thể huấn luyện này (còn được gọi là dưới dạng "ma trận cập nhật") nhỏ hơn đáng kể so với mô hình cơ sở và do đó sẽ đào tạo nhanh hơn nhiều.

LoRA mang lại những lợi ích sau:

  • Cải thiện chất lượng dự đoán của mô hình cho miền áp dụng tính năng tinh chỉnh.
  • Điều chỉnh chi tiết nhanh hơn so với các kỹ thuật yêu cầu điều chỉnh chi tiết tất cả tham số của mô hình.
  • Giảm chi phí tính toán của hoạt động xác suất bằng cách cho phép phân phát đồng thời nhiều mô hình chuyên biệt có cùng một mô hình cơ sở.

LSTM

#seq

Từ viết tắt của Bộ nhớ ngắn hạn dài.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống đào tạo model từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đây) được lấy từ cùng một phân phối như dữ liệu dùng để huấn luyện mô hình.

Học máy cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

tầng lớp đa số

#fundamentals

Nhãn phổ biến hơn trong một tập dữ liệu bất cân đối về loại. Ví dụ: Khi cho tập dữ liệu có chứa 99% nhãn âm và 1% nhãn dương, nhãn phủ định chiếm phần lớn số lượng.

Tương phản với lớp thiểu số.

Quy trình quyết định Markov (MDP)

#rl

Biểu đồ thể hiện mô hình ra quyết định, trong đó các quyết định (hoặc hành động) được đưa ra để điều hướng một chuỗi trạng thái với giả định rằng thuộc tính Markov được giữ nguyên. Trong học tăng cường, các quá trình chuyển đổi này giữa các trạng thái sẽ trả về một phần thưởng dạng số.

Thuộc tính Markov

#rl

Thuộc tính của một số môi trường nhất định, trong đó trạng thái được xác định hoàn toàn bởi thông tin ngầm ẩn trong trạng thái hiện tại và hành động của nhân viên hỗ trợ.

mô hình ngôn ngữ bị che

#language

Mô hình ngôn ngữ dự đoán xác suất mã thông báo ứng viên để điền vào chỗ trống theo trình tự. Ví dụ: mô hình ngôn ngữ bị che có thể tính toán xác suất cho (các) từ đề xuất để thay thế dấu gạch dưới trong câu sau:

____ đội mũ đã trở lại.

Tài liệu văn học thường sử dụng chuỗi "MASK" thay vì gạch chân. Ví dụ:

"MASK" đội mũ đã quay trở lại.

Hầu hết các mô hình ngôn ngữ được che giấu hiện đại đều có hai chiều.

matplotlib

Một thư viện vẽ đồ thị 2D Python nguồn mở. matplotlib giúp bạn trực quan hoá các khía cạnh khác nhau của công nghệ học máy.

phân tích ma trận

#recsystems

Trong toán học, một cơ chế để tìm ma trận có tích vô hướng xấp xỉ một ma trận mục tiêu.

Trong hệ thống đề xuất, ma trận mục tiêu thường chứa điểm xếp hạng của người dùng về các mục. Ví dụ: ma trận mục tiêu cho hệ thống đề xuất phim có thể có dạng như sau, trong đó các số nguyên dương là điểm xếp hạng của người dùng và 0 có nghĩa là người dùng không xếp hạng phim:

  Casablanca The Philadelphia Story Black Panther (Chiến binh Báo Đen) Nữ thần chiến binh Sách hư cấu về thịt
Người dùng 1 5 3 0,0 2 0,0
Người dùng 2 4 0,0 0,0 1.0 5
Người dùng 3 3 1.0 4 5 0,0

Hệ thống đề xuất phim nhằm mục đích dự đoán điểm xếp hạng của người dùng đối với các bộ phim chưa được phân loại. Ví dụ: Người dùng 1 có thích Báo đen không?

Một phương pháp cho hệ thống đề xuất là sử dụng phép phân tích ma trận để tạo ra hai ma trận sau:

Ví dụ: việc sử dụng phép phân tích ma trận trên 3 người dùng và 5 mặt hàng có thể tạo ra ma trận người dùng và ma trận mặt hàng sau:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Sản phẩm nội tích của ma trận người dùng và ma trận mặt hàng sẽ tạo ra một ma trận đề xuất không chỉ chứa điểm xếp hạng ban đầu của người dùng mà còn chứa cả dự đoán cho những bộ phim mà mỗi người dùng chưa xem. Ví dụ: hãy xem xét điểm xếp hạng của Người dùng 1 cho Casablanca là 5.0. Dấu chấm tích tương ứng với ô đó trong ma trận đề xuất phải hy vọng vào khoảng 5.0 và đó là:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Quan trọng hơn, Người dùng 1 có thích Báo đen không? Lấy tích vô hướng tương ứng với hàng đầu tiên và cột thứ ba sẽ cho ra điểm xếp hạng dự đoán là 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Quá trình phân tích ma trận thường tạo ra một ma trận người dùng và một ma trận mặt hàng, cùng với nhau, chúng nhỏ gọn hơn đáng kể so với ma trận mục tiêu.

Sai số tuyệt đối trung bình (MAE)

Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L1. Tính sai số tuyệt đối trung bình như sau:

  1. Tính toán tổn thất L1 cho một lô.
  2. Chia mức giảm L1 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét cách tính tổn thất L1 trên lô gồm 5 ví dụ sau:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giảm (chênh lệch giữa dữ liệu thực tế và dự đoán)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = tổn thất L1

Do đó, tổn thất L1 là 8 và số lượng ví dụ là 5. Do đó, Sai số tuyệt đối trung bình là:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

So sánh Sai số tuyệt đối trung bình với Sai số bình phương trung bìnhSai số bình phương trung bình gốc.

Sai số bình phương trung bình (MSE)

Mức hao tổn trung bình trên mỗi ví dụ khi sử dụng mức hao tổn L2. Tính Sai số bình phương trung bình như sau:

  1. Tính toán tổn thất L2 cho một lô.
  2. Chia tổn thất L2 cho số lượng ví dụ trong lô.

Ví dụ: hãy xem xét tổn thất trên lô gồm 5 ví dụ sau:

Giá trị thực tế Dự đoán của mô hình Thua Tổn thất bình phương
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = tổn thất L2

Do đó, Sai số bình phương trung bình là:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Lỗi bình phương trung bình là một trình tối ưu hoá huấn luyện phổ biến, đặc biệt là đối với hồi quy tuyến tính.

So sánh Sai số bình phương trung bình với Sai số tuyệt đối trung bìnhSai số trung bình bình phương căn bậc hai.

TensorFlow Playground sử dụng sai số bình phương trung bình để tính toán giá trị tổn thất.

lưới

#TensorFlow
#GoogleCloud

Trong lập trình song song ML, thuật ngữ dùng để chỉ định dữ liệu và cho chip TPU và xác định cách phân đoạn hoặc sao chép các giá trị này.

Lưới là một thuật ngữ nạp chồng có thể có nghĩa là một trong những nội dung sau:

  • Bố cục thực của các khối TPU.
  • Một cấu trúc logic trừu tượng để liên kết dữ liệu và mô hình với các chip TPU.

Trong cả hai trường hợp, lưới sẽ được chỉ định dưới dạng hình dạng.

siêu học tập

#language

Một tập hợp con của công nghệ học máy phát hiện hoặc cải thiện thuật toán học tập. Hệ thống học siêu dữ liệu cũng có thể hướng đến việc huấn luyện một mô hình để nhanh chóng học một nhiệm vụ mới từ một lượng nhỏ dữ liệu hoặc từ kinh nghiệm thu được trong các nhiệm vụ trước đó. Các thuật toán học siêu dữ liệu thường cố gắng đạt được những mục tiêu sau:

  • Cải thiện hoặc tìm hiểu các tính năng được thiết kế thủ công (chẳng hạn như trình khởi chạy hoặc trình tối ưu hoá).
  • Tiết kiệm dữ liệu và điện toán hiệu quả hơn.
  • Cải thiện khả năng khái quát hoá.

Học siêu dữ liệu có liên quan đến học từ một vài dữ liệu.

chỉ số

#TensorFlow

Một số liệu thống kê mà bạn quan tâm.

Mục tiêu là một chỉ số mà hệ thống học máy cố gắng tối ưu hoá.

API chỉ số (tf.metrics)

API TensorFlow để đánh giá mô hình. Ví dụ: tf.metrics.accuracy xác định tần suất dự đoán của mô hình khớp với nhãn.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên trong một được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường dao động từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập dữ liệu huấn luyện (một lô đầy đủ) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ, sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán tổn thất trên một lô nhỏ sẽ hiệu quả hơn nhiều so với tổn thất trên tất cả các ví dụ trong lô đầy đủ.

giảm độ dốc ngẫu nhiên theo lô nhỏ

Thuật toán giảm độ dốc sử dụng các lô nhỏ. Nói cách khác, tình huống ngẫu nhiên trong gói nhỏ giảm độ dốc ước tính độ dốc dựa trên một tập hợp con nhỏ dữ liệu huấn luyện. Chế độ giảm độ dốc ngẫu nhiên thông thường sử dụng lô nhỏ có kích thước 1.

tổn thất minimax

Hàm tổn thất cho mạng đối kháng tạo sinh, dựa trên entropy chéo giữa phân phối dữ liệu được tạo và dữ liệu thực.

Mức tổn thất tối đa được dùng trong bài viết đầu tiên để mô tả mạng đối nghịch tạo sinh.

lớp thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong một tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn dương là lớp thiểu số.

Tương phản với lớp đa số.

kết hợp giữa các chuyên gia

#language
#generativeAI

Một lược đồ để tăng hiệu quả của mạng nơron bằng cách chỉ sử dụng một tập hợp con tham số (được gọi là chuyên gia) để xử lý một mã thông báo đầu vào nhất định hoặc ví dụ. Đáp mạng lưới định tuyến từng mã thông báo đầu vào hoặc ví dụ đến(các) chuyên gia thích hợp.

Để biết thông tin chi tiết, hãy xem một trong các bài viết sau:

ML (Mali)

Từ viết tắt của máy học.

MMIT

#language
#image
#generativeAI

Từ viết tắt của điều chỉnh hướng dẫn đa phương thức.

MNIST

#image

Một tập dữ liệu thuộc phạm vi công cộng do LeCun, Cortes và Burges biên soạn, chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách một người viết một chữ số cụ thể từ 0 đến 9 theo cách thủ công. Mỗi hình ảnh được lưu trữ dưới dạng một mảng số nguyên có kích thước 28x28, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.

MNIST là tập dữ liệu chuẩn cho công nghệ học máy, thường được dùng để thử nghiệm phương pháp học máy. Để biết thông tin chi tiết, hãy xem bài viết Cơ sở dữ liệu MNIST về chữ số viết tay.

phương thức

#language

Một danh mục dữ liệu cấp cao. Ví dụ: số, văn bản, hình ảnh, video và âm thanh là 5 phương thức khác nhau.

kiểu máy

#fundamentals

Nhìn chung, bất kỳ cấu trúc toán học nào xử lý dữ liệu đầu vào và trả về đầu ra. Nói cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy một ví dụ làm dữ liệu đầu vào và suy luận ra dự đoán làm dữ liệu đầu ra. Trong công nghệ học máy có giám sát, các mô hình khác nhau đôi chút. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và một sai số.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp lớp ẩn, mỗi lớp có chứa một hoặc tế bào thần kinh khác.
    • Trọng số và độ lệch liên kết với mỗi tế bào thần kinh.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu mà các điều kiện và lá cây nối liền với nhau.
    • Các điều kiện và lá.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không giám sát cũng tạo ra các mô hình, thường là một hàm có thể liên kết một ví dụ đầu vào với cụm phù hợp nhất.

dung lượng của mô hình

Độ phức tạp của các vấn đề mà một mô hình có thể học được. Càng có nhiều vấn đề phức tạp mà mô hình có thể học, thì mô hình càng có nhiều năng lực. của mô hình thường tăng theo số lượng tham số của mô hình. Đối với định nghĩa chính thức về năng lực phân loại, xem Thứ nguyên VC.

mô hình xếp tầng

#generativeAI

Một hệ thống chọn mô hình lý tưởng cho một truy vấn suy luận cụ thể.

Hãy tưởng tượng một nhóm mô hình, từ rất lớn (có nhiều thông số) đến nhỏ hơn nhiều (có ít thông số hơn nhiều). Các mô hình rất lớn tiêu tốn nhiều tài nguyên điện toán hơn ở thời gian suy luận so với các mô hình nhỏ hơn. Tuy nhiên, quy mô rất lớn mô hình thường có thể dự đoán các yêu cầu phức tạp hơn so với mô hình nhỏ hơn. Phân tầng mô hình xác định độ phức tạp của truy vấn suy luận và sau đó chọn mô hình thích hợp để thực hiện suy luận. Động lực chính của việc phân tầng mô hình là giảm chi phí suy luận bằng cách thường chọn các mô hình nhỏ hơn và chỉ chọn mô hình lớn hơn để có thêm các truy vấn phức tạp.

Hãy tưởng tượng một mô hình nhỏ chạy trên điện thoại và phiên bản lớn hơn của mô hình đó chạy trên máy chủ từ xa. Việc phân cấp mô hình hiệu quả sẽ làm giảm chi phí và độ trễ bằng cách cho phép mô hình nhỏ hơn xử lý các yêu cầu đơn giản và chỉ gọi mô hình từ xa để xử lý các yêu cầu phức tạp.

Xem thêm trình định tuyến mô hình.

tính song song mô hình

#language

Một cách mở rộng quy mô huấn luyện hoặc suy luận để đặt các phần khác nhau của một model trên nhiều thiết bị. Tính năng song song của mô hình cho phép các mô hình quá lớn để vừa với một thiết bị.

Để triển khai tính song song của mô hình, hệ thống thường làm như sau:

  1. Phân mảnh (chia) mô hình thành các phần nhỏ hơn.
  2. Phân phối quá trình huấn luyện các phần nhỏ đó trên nhiều bộ xử lý. Mỗi bộ xử lý sẽ huấn luyện phần riêng của mô hình.
  3. Kết hợp các kết quả để tạo một mô hình duy nhất.

Tính song song của mô hình làm chậm quá trình huấn luyện.

Xem thêm về tính song song về dữ liệu.

bộ định tuyến mẫu

#generativeAI

Thuật toán xác định mô hình lý tưởng cho suy luận trong phân tầng mô hình. Trình định tuyến mô hình thường là một mô hình học máy, mô hình này dần dần học cách chọn mô hình tốt nhất cho một dữ liệu đầu vào nhất định. Tuy nhiên, bộ định tuyến mô hình đôi khi có thể đơn giản hơn, không phải thuật toán học máy.

huấn luyện mô hình

Quá trình xác định mô hình tốt nhất.

Đà phát triển

Một thuật toán giảm độ dốc tinh vi, trong đó bước học phụ thuộc vào không chỉ trên đạo hàm ở bước hiện tại mà còn trên các đạo hàm của(các) bước ngay trước nó. Động lực liên quan đến việc điện toán trung bình động có trọng số luỹ thừa của các độ dốc theo thời gian, tương tự thành động lượng trong vật lý. Động lực đôi khi cản trở việc học tập mắc kẹt trong cực tiểu cục bộ.

MOE

#language
#image
#generativeAI

Từ viết tắt của cụm từ chuyên gia.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, một vấn đề phân loại trong đó tập dữ liệu chứa hơn hai lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong các nhãn sau 3 lớp:

  • Hoa diên vĩ
  • Hoa diên vĩ
  • Hoa diên vĩ

Mô hình được huấn luyện trên tập dữ liệu Iris để dự đoán loại Iris trên các ví dụ mới đang thực hiện việc phân loại nhiều lớp.

Ngược lại, bài toán phân loại phân biệt chính xác hai là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các bài toán phân cụm, phân loại nhiều lớp đề cập đến hơn 2 cụm.

hồi quy logistic nhiều lớp

Sử dụng phương pháp hồi quy logistic trong Bài toán phân loại nhiều lớp.

tự chú ý nhiều đầu

#language

Một phần mở rộng của tính năng tự chú ý áp dụng cơ chế tự chú ý nhiều lần cho mỗi vị trí trong chuỗi đầu vào.

Transformer đã giới thiệu tính năng tự chú ý nhiều đầu.

mô hình đa phương thức

#language

Mô hình có đầu vào và/hoặc đầu ra bao gồm nhiều hơn một phương thức. Ví dụ: hãy xem xét một mô hình lấy cả hình ảnh và chú thích văn bản (hai phương thức) làm tính năng, và cho biết mức độ phù hợp của chú thích văn bản với hình ảnh. Vì vậy, đầu vào của mô hình này là đa phương thức và đầu ra là đa phương thức.

điều chỉnh hướng dẫn đa phương thức

#language

Mô hình điều chỉnh theo hướng dẫn có thể xử lý đầu vào ngoài văn bản, chẳng hạn như hình ảnh, video và âm thanh.

phân loại đa thức

Từ đồng nghĩa với phân loại nhiều lớp.

hồi quy đa thức

Từ đồng nghĩa với hồi quy logistic nhiều lớp.

đa nhiệm

Một kỹ thuật học máy trong đó một mô hình duy nhất được huấn luyện để thực hiện nhiều tác vụ.

Các mô hình đa nhiệm được tạo bằng cách huấn luyện về dữ liệu phù hợp với từng nhiệm vụ. Điều này cho phép mô hình học cách chia sẻ thông tin giữa các nhiệm vụ, giúp mô hình học hiệu quả hơn.

Một mô hình được huấn luyện cho nhiều nhiệm vụ thường đã cải thiện được khả năng tổng quát hoá và có thể xử lý hiệu quả hơn nhiều loại dữ liệu.

Không

bẫy NaN

Khi một số trong mô hình của bạn trở thành NaN trong quá trình huấn luyện, điều này khiến nhiều hoặc tất cả các số khác trong mô hình của bạn cuối cùng trở thành NaN.

NaN là viết tắt của Not a Number.

hiểu ngôn ngữ tự nhiên

#language

Xác định ý định của người dùng dựa trên nội dung người dùng nhập hoặc nói. Ví dụ: một công cụ tìm kiếm sử dụng công nghệ hiểu ngôn ngữ tự nhiên để xác định nội dung mà người dùng đang tìm kiếm dựa trên nội dung mà người dùng đã nhập hoặc nói.

lớp âm

#fundamentals

Trong phân loại nhị phân, một lớp là được gọi là tích cực và giá trị còn lại được gọi là âm. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang thử nghiệm và lớp phủ định là khả năng khác. Ví dụ:

  • Lớp âm tính trong xét nghiệm y tế có thể là "không phải khối u".
  • Lớp âm trong một bộ phân loại email có thể là "không phải nội dung rác".

Tương phản với lớp tích cực.

lấy mẫu âm

Từ đồng nghĩa với lấy mẫu đề xuất.

Tìm kiếm kiến trúc nơron (NAS)

Một kỹ thuật tự động thiết kế cấu trúc của mạng nơron. Các thuật toán NAS có thể giảm bớt thời gian và tài nguyên cần thiết để huấn luyện mạng nơron.

NAS thường sử dụng:

  • Không gian tìm kiếm, là một tập hợp các cấu trúc có thể có.
  • Hàm phù hợp là một chỉ số đo lường mức độ hiệu quả của một cấu trúc cụ thể trong một tác vụ nhất định.

Các thuật toán NAS thường bắt đầu bằng một tập hợp nhỏ các cấu trúc có thể có và dần mở rộng không gian tìm kiếm khi thuật toán tìm hiểu thêm về những cấu trúc hiệu quả. Hàm thích ứng thường dựa trên hiệu suất của cấu trúc trên một tập huấn luyện và thuật toán thường được huấn luyện bằng kỹ thuật học tăng cường.

Các thuật toán NAS đã được chứng minh là hiệu quả trong việc tìm kiếm các cấu trúc có hiệu suất cao cho nhiều tác vụ, bao gồm cả phân loại hình ảnh, phân loại văn bản và dịch máy.

mạng nơron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: biểu đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
          tầng đầu ra.

Mỗi nơron trong mạng nơron sẽ kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong biểu đồ trước, lưu ý rằng mỗi nơron trong số ba nơron trong lớp ẩn đầu tiên kết nối riêng rẽ với cả hai nơron trong lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt chúng với mạng nơron có trong não bộ và các hệ thần kinh khác.

Một số mạng nơron có thể mô phỏng các mối quan hệ phi tuyến tính cực kỳ phức tạp giữa các đặc điểm và nhãn.

Xem thêm mạng nơron tích chậpmạng nơron tái sinh.

nơron

#fundamentals

Trong học máy, một đơn vị riêng biệt trong lớp ẩn của mạng nơron. Mỗi tế bào thần kinh thực hiện thao tác hai bước sau:

  1. Tính tổng trọng số của các giá trị đầu vào nhân với trọng số tương ứng.
  2. Truyền tổng có trọng số dưới dạng dữ liệu đầu vào vào chức năng kích hoạt.

Một tế bào thần kinh trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị đặc điểm trong lớp đầu vào. Một tế bào thần kinh trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn trước đó. Ví dụ: một tế bào thần kinh trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây làm nổi bật hai nơron và đầu vào.

Mạng nơron với một lớp đầu vào, hai lớp ẩn và một
          tầng đầu ra. Hai nơron được đánh dấu: một trong tế bào đầu tiên
          lớp ẩn và một ở lớp ẩn thứ hai. Các thuộc tính được đánh dấu
          nơron trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đối tượng
          trong lớp đầu vào. Tế bào thần kinh được đánh dấu trong lớp ẩn thứ hai
          nhận dữ liệu đầu vào từ mỗi 3 nơron ở ẩn thứ nhất
          lớp.

Một nơron trong mạng nơron bắt chước hành vi của các nơron trong não và các phần khác của hệ thần kinh.

N gam

#seq
#language

Một chuỗi có thứ tự gồm N từ. Ví dụ: thực sự điên rồ là 2 gam. Bởi vì có liên quan, thực sự khác với 2 gam thực sự điên rồ.

Không (Các) tên của loại N-gram này Ví dụ
2 quả óc chó hoặc 2 gam để đi, đi chơi, ăn trưa, ăn tối
3 3 gam ăn quá nhiều, ba con chuột bị mù, chuông điện thoại đổ chuông
4 4 gam walk in the park, dust in the wind, the boy ate lentils

Nhiều hiểu biết ngôn ngữ tự nhiên các mô hình dựa vào N-gram để dự đoán từ tiếp theo mà người dùng sẽ nhập hoặc nói. Ví dụ: giả sử người dùng nhập ba mù. Mô hình NLU dựa trên tam giác có thể sẽ dự đoán rằng người dùng sẽ nhập tiếp theo chuột.

Đối chiếu N-gram với túi từ, vốn là tập hợp từ không theo thứ tự.

hiểu ngôn ngữ tự nhiên (NLU)

#language

Từ viết tắt của hiểu ngôn ngữ tự nhiên.

nút (cây quyết định)

#df

Trong cây quyết định, mọi điều kiện hoặc .

Cây quyết định có hai điều kiện và ba lá.

nút (mạng nơron)

#fundamentals

Một neuron trong lớp ẩn.

nút (biểu đồ TensorFlow)

#TensorFlow

Một phép toán trong biểu đồ TensorFlow.

độ nhiễu

Nói chung, bất cứ điều gì làm lu mờ tín hiệu trong một tập dữ liệu. Có nhiều cách để đưa nhiễu vào dữ liệu. Ví dụ:

  • Người đánh giá mắc lỗi khi gắn nhãn.
  • Con người và thiết bị ghi sai hoặc bỏ qua các giá trị đặc điểm.

điều kiện phi nhị phân

#df

Một điều kiện chứa nhiều hơn hai kết quả có thể xảy ra. Ví dụ: điều kiện không nhị phân sau đây chứa 3 kết quả có thể xảy ra:

Một điều kiện (number_of_legs = ?) dẫn đến 3 kết quả có thể xảy ra. Một kết quả (number_of_legs = 8) dẫn đến một chiếc lá
          có tên là nhện. Kết quả thứ hai (number_of_legs = 4) dẫn đến
          một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến một lá có tên penguin.

nonlinear

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể duy nhất được biểu thị bằng cách cộng và nhân. Mối quan hệ tuyến tính có thể được biểu diễn dưới dạng một đường thẳng; mối quan hệ phi tuyến tính không thể được biểu diễn dưới dạng một đường thẳng. Ví dụ: hãy xem xét hai mô hình, mỗi mô hình liên kết một tính năng với một nhãn. Mô hình bên trái là mô hình tuyến tính và mô hình ở bên phải là phi tuyến tính:

2 lô đất. Mỗi biểu đồ là một đường, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

thiên kiến khi không phản hồi

#fairness

Xem phần thiên vị do cách chọn mẫu.

không tĩnh

#fundamentals

Một đặc điểm có giá trị thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

  • Số lượng bộ đồ bơi được bán tại một cửa hàng cụ thể thay đổi theo mùa.
  • Số lượng trái cây được thu hoạch trong một khu vực cụ thể bằng 0 trong hầu hết thời gian trong năm nhưng lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính chất không đổi.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi thực tế của một biến thành một dải giá trị chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0 đến 1
  • Điểm Z (khoảng từ -3 đến +3)

Ví dụ: giả sử phạm vi giá trị thực tế của một đặc điểm nhất định là từ 800 đến 2.400. Trong quá trình kỹ thuật xử lý đặc điểm, bạn có thể chuẩn hoá các giá trị thực tế xuống một phạm vi tiêu chuẩn, chẳng hạn như -1 đến +1.

Chuẩn hoá là một nhiệm vụ phổ biến trong kỹ thuật trích xuất tính chất. Người mẫu thường huấn luyện nhanh hơn (và dự đoán chính xác hơn) khi mỗi đối tượng dạng số trong vectơ đối tượng có gần như cùng phạm vi.

Hãy xem phần Làm việc với mô-đun dữ liệu số của khoá học cấp tốc về học máy để biết thêm thông tin chi tiết. Ngoài ra, hãy xem phần Chuẩn hoá điểm Z.

phát hiện tính mới

Quy trình xác định xem một ví dụ mới (mới) có đến từ cùng một quá trình phân phối với tập dữ liệu huấn luyện hay không. Nói cách khác, sau khi quá trình huấn luyện trên tập huấn luyện, tính năng phát hiện tính năng mới sẽ xác định liệu một mới ví dụ (trong quá trình suy luận hoặc trong quá trình huấn luyện bổ sung) là ngoại lệ.

Tương phản với công nghệ phát hiện giá trị ngoại lai.

dữ liệu dạng số

#fundamentals

Các đối tượng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: mô hình định giá nhà có thể thể hiện kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Việc biểu thị một đặc điểm dưới dạng dữ liệu dạng số cho biết rằng các giá trị của đặc điểm đó có mối quan hệ toán học với nhãn. Tức là số mét vuông trong một ngôi nhà có thể có một số mối quan hệ toán học với giá trị của ngôi nhà đó.

Không phải tất cả dữ liệu số nguyên đều được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là vì một mã bưu chính của 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính của 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau mối tương quan với các giá trị bất động sản khác nhau, nhưng chúng ta không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi giá trị bất động sản tại mã bưu chính 10000. Mã bưu chính phải được thể hiện dưới dạng dữ liệu phân loại thay thế.

Đôi khi, các đặc điểm số được gọi là các đặc điểm liên tục.

NumPy

Thư viện toán học nguồn mở cung cấp các phép toán hiệu quả trên mảng trong Python. pandas được xây dựng dựa trên NumPy.

O

mục tiêu

Chỉ số mà thuật toán của bạn đang cố gắng tối ưu hoá.

hàm mục tiêu

Công thức toán học hoặc chỉ số mà một mô hình hướng đến tối ưu hoá. Ví dụ: hàm mục tiêu cho bước hồi quy tuyến tính thường là Mất mát bình phương trung bình. Do đó, khi huấn luyện một mô hình hồi quy tuyến tính, huấn luyện nhằm giảm thiểu tổn thất bình phương trung bình.

Trong một số trường hợp, mục tiêu là tối đa hoá chức năng mục tiêu. Ví dụ: nếu hàm mục tiêu là độ chính xác thì mục tiêu sẽ là để tăng tối đa độ chính xác.

Hãy xem thêm mục Mất.

điều kiện xiên

#df

Trong cây quyết định, tình trạng liên quan đến nhiều hơn một tính năng. Ví dụ: nếu chiều cao và chiều rộng là cả hai đối tượng, thì sau đây là điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh theo trục.

ngoại tuyến

#fundamentals

Từ đồng nghĩa với static.

suy luận ngoại tuyến

#fundamentals

Quy trình một mô hình tạo một lô dự đoán rồi lưu các dự đoán đó vào bộ nhớ đệm. Sau đó, ứng dụng có thể truy cập vào dữ liệu dự đoán từ bộ nhớ đệm thay vì chạy lại mô hình.

Chẳng hạn hãy cân nhắc một mô hình tạo ra thông tin dự báo thời tiết tại địa phương (dự đoán) 4 giờ một lần. Sau khi mỗi mô hình chạy, hệ thống sẽ lưu vào bộ nhớ đệm tất cả dự báo thời tiết địa phương. Ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá one-hot

#fundamentals

Biểu diễn dữ liệu phân loại dưới dạng vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác được đặt thành 0.

Phương thức mã hoá một lần thường dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn các giá trị khả dĩ. Ví dụ: giả sử một đối tượng phân loại nhất định có tên Scandinavia có thể có 5 giá trị:

  • "Đan Mạch"
  • "Thuỵ Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Mã hoá một nóng có thể biểu thị từng giá trị trong số 5 giá trị như sau:

country Vectơ
"Đan Mạch" 1 0 0 0 0
"Thụy Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ mã hoá một chiều, mô hình có thể học các mối liên kết khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Biểu thị một đối tượng dưới dạng dữ liệu số là thay thế cho mã hoá một nóng. Thật không may, đại diện cho Các quốc gia Bắc Âu theo số lượng không phải là lựa chọn tốt. Ví dụ: hãy xem xét biểu diễn dưới đây bằng số:

  • "Đan Mạch" là 0
  • "Thuỵ Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với mã hoá số, mô hình sẽ diễn giải các số thô về mặt toán học và sẽ cố gắng rèn luyện dựa trên các con số đó. Tuy nhiên, Iceland không thực sự có số lượng gấp đôi (hoặc một nửa) so với Na Uy, vì vậy, mô hình này sẽ đưa ra một số kết luận kỳ lạ.

học từ một dữ liệu

Một phương pháp học máy, thường được dùng để phân loại đối tượng, được thiết kế để học các thuật toán phân loại hiệu quả từ một ví dụ huấn luyện duy nhất.

Bạn cũng có thể xem thêm nội dung học ngắn gọnhọc tập từ bất kỳ chi tiết nào.

câu lệnh một lần

#language
#generativeAI

Câu lệnhmột ví dụ minh hoạ cách mô hình ngôn ngữ lớn cần phản hồi. Ví dụ: câu lệnh sau đây chứa một ví dụ minh hoạ một mô hình ngôn ngữ lớn nó sẽ trả lời một truy vấn.

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Pháp: EUR Một ví dụ.
Ấn Độ: Cụm từ tìm kiếm thực tế.

So sánh và đối chiếu lệnh nhắc một lần với các thuật ngữ sau:

one-vs.-all

#fundamentals

Với một bài toán phân loại có N lớp, một dung dịch gồm N riêng biệt thuật toán phân loại nhị phân – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: với một mô hình phân loại các ví dụ là động vật, rau hoặc khoáng sản, giải pháp một-đối-tất-cả sẽ cung cấp ba bộ phân loại nhị phân riêng biệt sau:

  • động vật so với không phải động vật
  • rau so với không phải rau
  • khoáng sản so với không phải khoáng sản

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng chuyển dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu dự đoán. Hệ thống sử dụng suy luận trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về kết quả dự đoán cho ứng dụng).

Trái ngược với suy luận ngoại tuyến.

hoạt động (hoạt động)

#TensorFlow

Trong TensorFlow, mọi quy trình tạo, thao tác hoặc huỷ bỏ Tensor. Để ví dụ: phép nhân ma trận là một phép toán lấy hai Tensor làm đầu vào và tạo một Tensor làm đầu ra.

Optax

Thư viện tối ưu hoá và xử lý chuyển màu cho JAX. Optax hỗ trợ nghiên cứu bằng cách cung cấp các khối xây dựng có thể được kết hợp lại theo cách tuỳ chỉnh để tối ưu hoá các mô hình tham số như mạng nơron sâu. Các mục tiêu khác bao gồm:

  • Cung cấp cách triển khai các thành phần cốt lõi dễ đọc, được kiểm thử kỹ lưỡng và hiệu quả.
  • Cải thiện năng suất bằng cách cho phép kết hợp các thành phần cấp thấp vào trình tối ưu hoá tuỳ chỉnh (hoặc các thành phần xử lý chuyển màu khác).
  • Đẩy nhanh việc tiếp nhận các ý tưởng mới bằng cách giúp mọi người dễ dàng để đóng góp.

trình tối ưu hoá

Cách triển khai cụ thể của thuật toán giảm độ dốc. Các trình tối ưu hoá phổ biến bao gồm:

  • AdaGrad, viết tắt của ADAptive GRADient descent (hướng xuống theo GRADIENT thích ứng).
  • Adam, viết tắt của ADAptive with Momentum (Thích ứng với động lực).

thiên kiến tính đồng nhất ngoài nhóm

#fairness

Xu hướng thấy các thành viên ngoài nhóm giống nhau hơn thành viên trong nhóm khi so sánh thái độ, giá trị, đặc điểm tính cách, v.v. đặc điểm. Trong nhóm dùng để chỉ những người mà bạn thường xuyên tương tác; out-group dùng để chỉ những người bạn không tương tác thường xuyên. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về nhóm bên ngoài, thì các thuộc tính đó có thể ít tinh tế và mang tính khuôn mẫu hơn so với các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: người Lilliputian có thể mô tả nhà của những người Lilliputian khác rất chi tiết, trích dẫn những khác biệt nhỏ về kiểu kiến trúc, cửa sổ, cửa và kích thước. Tuy nhiên, những người Lilliputian đó có thể chỉ tuyên bố rằng tất cả người Brobdingnag đều sống trong những ngôi nhà giống hệt nhau.

Thành kiến tính đồng nhất ngoài nhóm là một hình thức thiên vị phân bổ nhóm.

Xem thêm thiên vị cùng nhóm.

phát hiện giá trị ngoại lai

Quá trình xác định các điểm ngoại lai trong một tập huấn luyện.

Tương phản với tính năng phát hiện tính năng mới.

các điểm ngoại lai

Giá trị khác xa hầu hết các giá trị khác. Trong học máy, bất kỳ giá trị nào sau đây đều là giá trị ngoại lai:

  • Dữ liệu đầu vào có giá trị lớn hơn khoảng 3 độ lệch chuẩn so với giá trị trung bình.
  • Trọng số có giá trị tuyệt đối cao.
  • Giá trị dự đoán tương đối xa giá trị thực tế.

Ví dụ: giả sử widget-price là một tính năng của một mô hình nhất định. Giả sử widget-price trung bình là 7 Euro với độ lệch chuẩn là 1 Euro. Ví dụ chứa widget-price là 12 Euro hoặc 2 Euro do đó sẽ được coi là các điểm ngoại lai vì mỗi mức giá đó đều 5 độ lệch chuẩn so với giá trị trung bình.

Giá trị ngoại lai thường là do lỗi chính tả hoặc các lỗi nhập khác. Trong các trường hợp khác, giá trị ngoại lai không phải là lỗi; xét cho cùng, các giá trị cách trung bình 5 độ lệch chuẩn là hiếm nhưng khó có thể không xảy ra.

Giá trị ngoại lai thường gây ra vấn đề trong quá trình huấn luyện mô hình. Tạo đoạn video là một cách để quản lý các điểm ngoại lai.

đánh giá ngoài phạm vi (đánh giá OOB)

#df

Cơ chế đánh giá chất lượng của rừng quyết định bằng cách kiểm thử từng cây quyết định dựa trên ví dụ không được sử dụng trong quá trình huấn luyện của cây quyết định đó. Ví dụ: trong sơ đồ dưới đây, lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định vào khoảng 2/3 số ví dụ, sau đó đánh giá dựa trên 1/3 số ví dụ còn lại.

Rừng quyết định bao gồm 3 cây quyết định.
          Cây quyết định một lần huấn luyện dựa trên 2/3 số ví dụ
          rồi sử dụng một phần ba còn lại để đánh giá OOB.
          Cây quyết định thứ hai huấn luyện trên hai phần ba ví dụ khác với cây quyết định trước đó, sau đó sử dụng một phần ba khác để đánh giá OOB so với cây quyết định trước đó.

Phương pháp đánh giá ngoài túi là một phương pháp ước tính hiệu quả và bảo thủ về mặt tính toán của cơ chế xác thực chéo. Trong quy trình xác thực chéo, một mô hình được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện trong quy trình xác thực chéo 10 lần). Với phương pháp đánh giá bên ngoài phạm vi, một mô hình duy nhất sẽ được huấn luyện. Vì hành vi bóc lột hành vi giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, việc đánh giá OOB có thể sử dụng dữ liệu đó để ước tính xác thực chéo.

lớp đầu ra

#fundamentals

"Trận chung kết" lớp của mạng nơron. Lớp đầu ra chứa kết quả dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đặc điểm. Lớp ẩn đầu tiên bao gồm 3 tế bào thần kinh và lớp ẩn thứ hai bao gồm 2 tế bào thần kinh. Lớp đầu ra bao gồm một nút duy nhất.

khái quát hoá kém

#fundamentals

Tạo một mô hình khớp với dữ liệu huấn luyện đến mức mô hình không thể dự đoán chính xác dữ liệu mới.

Quy trình chuẩn hoá có thể làm giảm tình trạng phù hợp quá mức. Việc tập luyện trên một bộ bài tập lớn và đa dạng cũng có thể giảm thiểu việc tập quá mức.

lấy mẫu quá mức

Sử dụng lại ví dụ về lớp thiểu số trong tập dữ liệu bất cân đối về loại để tạo tập huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét một vấn đề phân loại nhị phân trong đó tỷ lệ của lớp đa số với lớp thiểu số là 5.000:1. Nếu tập dữ liệu chứa một triệu ví dụ, thì tập dữ liệu đó chỉ chứa khoảng 200 ví dụ về lớp thiểu số, có thể là quá ít ví dụ để huấn luyện hiệu quả. Để khắc phục khiếm khuyết này, bạn có thể lấy mẫu quá mức (sử dụng lại) 200 ví dụ đó nhiều lần, có thể mang lại đủ ví dụ để huấn luyện hữu ích.

Bạn cần cẩn thận về việc quá phù hợp khi lấy mẫu quá nhiều.

Tương phản với thiếu mẫu.

Điểm

dữ liệu đã đóng gói

Một phương pháp lưu trữ dữ liệu hiệu quả hơn.

Dữ liệu đã đóng gói lưu trữ dữ liệu bằng cách sử dụng định dạng nén hoặc bằng một cách nào đó cho phép truy cập dữ liệu hiệu quả hơn. Dữ liệu đóng gói giúp giảm thiểu dung lượng bộ nhớ và hoạt động tính toán cần thiết để truy cập vào đó, giúp huấn luyện nhanh hơn và suy luận mô hình hiệu quả hơn.

Dữ liệu đóng gói thường được dùng cùng với các kỹ thuật khác, chẳng hạn như tăng cường dữ liệuchính quy, giúp cải thiện hơn nữa hiệu suất của mô hình.

gấu trúc

#fundamentals

API phân tích dữ liệu theo cột được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu pandas làm dữ liệu đầu vào. Hãy xem tài liệu về pandas để biết thông tin chi tiết.

tham số

#fundamentals

Các trọng sốđộ lệch mà một mô hình học được trong quá trình đào tạo. Ví dụ: trong một hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w1, w2, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, tham số siêu dữ liệu là các giá trị mà bạn (hoặc dịch vụ điều chỉnh tham số siêu dữ liệu) cung cấp cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

điều chỉnh hiệu quả tham số

#language
#generativeAI

Một nhóm kỹ thuật để fine-tune đoạn âm thanh lớn mô hình ngôn ngữ luyện trước (PLM) hiệu quả hơn so với việc điều chỉnh hoàn toàn. Việc điều chỉnh hiệu quả về tham số thường tinh chỉnh ít tham số hơn so với việc tinh chỉnh toàn bộ, nhưng thường tạo ra một mô hình ngôn ngữ lớn hoạt động tốt (hoặc gần như tốt) như một mô hình ngôn ngữ lớn được tạo từ việc tinh chỉnh toàn bộ.

So sánh và đối chiếu việc điều chỉnh hiệu quả tham số với:

Điều chỉnh hiệu quả theo tham số còn được gọi là điều chỉnh tinh vi hiệu quả theo tham số.

Máy chủ tham số (PS)

#TensorFlow

Một công việc theo dõi các tham số của mô hình trong một chế độ cài đặt phân phối.

cập nhật thông số

Thao tác điều chỉnh các tham số của mô hình trong quá trình đào tạo, thường là trong một lần lặp lại của quá trình giảm độ dốc.

đạo hàm riêng

Một đạo hàm trong đó tất cả các biến trừ một biến được coi là hằng số. Ví dụ: đạo hàm riêng của f(x, y) theo x là đạo hàm của f được coi là một hàm của riêng x (tức là giữ y không đổi). Đạo hàm riêng của f theo x chỉ tập trung vào cách x thay đổi và bỏ qua tất cả các biến khác trong phương trình.

thiên kiến khi tham gia

#fairness

Từ đồng nghĩa với thiên kiến không phản hồi. Hãy xem phần thiên vị lựa chọn.

chiến lược phân vùng

Thuật toán phân chia các biến trên máy chủ tham số.

Pax

Khung lập trình được thiết kế để huấn luyện các mô hình mạng nơron quy mô lớn đến mức bao gồm nhiều TPU mảnh chip tăng tốc lát cắt hoặc vùng chứa.

Pax được xây dựng trên Flax, được xây dựng trên JAX.

Sơ đồ cho biết vị trí của Pax trong ngăn xếp phần mềm.
          Pax được xây dựng dựa trên JAX. Bản thân Pax bao gồm ba lớp. Lớp dưới cùng chứa TensorStore và Flax.
          Lớp ở giữa chứa Optax và Flaxformer. Trên cùng
          lớp này chứa Thư viện Mô hình Praxis. Fiddle được xây dựng dựa trên Pax.

perceptron

Một hệ thống (phần cứng hoặc phần mềm) nhận một hoặc nhiều giá trị đầu vào, chạy một hàm dựa trên tổng có trọng số của các giá trị đầu vào và tính toán một giá trị đầu ra. Trong công nghệ học máy, hàm này thường phi tuyến tính, chẳng hạn như ReLU, sigmoid hoặc tanh. Ví dụ: perceptron sau đây dựa vào hàm sigmoid để xử lý ba giá trị đầu vào:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Trong hình minh hoạ sau, perceptron nhận ba đầu vào, mỗi đầu vào được sửa đổi bằng một trọng số trước khi vào perceptron:

Một perceptron nhận 3 đầu vào, mỗi đầu vào được nhân với
          trọng số. Perceptron sẽ xuất ra một giá trị duy nhất.

Perceptron là nơ-ron trong mạng nơron.

hiệu quả hoạt động

Thuật ngữ nạp chồng có các nghĩa sau:

  • Ý nghĩa tiêu chuẩn trong kỹ thuật phần mềm. Cụ thể: Phần mềm này chạy nhanh (hoặc hiệu quả) đến mức nào?
  • Ý nghĩa trong học máy. Ở đây, hiệu suất trả lời câu hỏi sau: Mô hình này chính xác đến mức nào? Tức là dự đoán của mô hình có tốt không?

tầm quan trọng của biến hoán vị

#df

Loại mức độ quan trọng có thể thay đổi đánh giá sự gia tăng của lỗi dự đoán của một mô hình sau khi xem xét các giá trị của tính năng. Tầm quan trọng của biến hoán vị là một chỉ số không phụ thuộc vào mô hình.

độ hỗn loạn

Một chỉ số đo lường mức độ hiệu quả của một mô hình trong việc hoàn thành nhiệm vụ. Ví dụ: giả sử nhiệm vụ của bạn là đọc vài chữ cái đầu tiên của một từ mà người dùng đang nhập trên bàn phím điện thoại và cung cấp danh sách các từ có thể hoàn thành. Mức độ phức tạp, P, cho nhiệm vụ này gần bằng số lượng dự đoán bạn cần đưa ra để danh sách của bạn chứa từ thực tế mà người dùng đang cố gắng nhập.

Mức độ phức tạp liên quan đến entropy chéo như sau:

$$P= 2^{-\text{cross entropy}}$$

quy trình

Cơ sở hạ tầng xung quanh thuật toán học máy. Đường ống bao gồm thu thập dữ liệu, đưa dữ liệu vào các tệp dữ liệu huấn luyện, huấn luyện một hoặc nhiều mô hình và xuất mô hình sang sản xuất.

tạo đường ống

#language

Một dạng song song mô hình, trong đó quá trình xử lý của mô hình được chia thành các giai đoạn liên tiếp và mỗi giai đoạn được thực thi trên một thiết bị khác nhau. Mặc dù một giai đoạn đang xử lý một lô, giai đoạn có thể xử lý cho lô tiếp theo.

Hãy xem thêm bài viết về chương trình đào tạo theo giai đoạn.

pjit

Hàm JAX phân tách mã để chạy trên nhiều chip tăng tốc. Người dùng chuyển một hàm đến pjit, phương thức này trả về một hàm có ngữ nghĩa tương đương nhưng được biên dịch vào phép tính XLA chạy trên nhiều thiết bị (chẳng hạn như GPU hoặc lõi TPU).

pjit cho phép người dùng phân đoạn các phép tính mà không cần viết lại bằng cách sử dụng trình phân vùng SPMD.

Kể từ tháng 3 năm 2023, pjit đã được hợp nhất với jit. Tham khảo Các mảng đã phân phối và các biến tự động song song hoá để biết thêm chi tiết.

PLM

#language
#generativeAI

Từ viết tắt của mô hình ngôn ngữ được huấn luyện trước.

pmap

Hàm JAX thực thi các bản sao của hàm đầu vào trên nhiều thiết bị phần cứng cơ bản (CPU, GPU hoặc TPU), với các giá trị đầu vào khác nhau. pmap dựa vào SPMD.

policy

#rl

Trong học tăng cường, bản đồ xác suất của tác nhân từ trạng thái đến hành động.

gộp

#image

Giảm một ma trận (hoặc các ma trận) do một lớp convolutional trước đó tạo thành một ma trận nhỏ hơn. Việc gộp thường liên quan đến việc lấy giá trị tối đa hoặc trung bình trên khu vực được gộp. Ví dụ: giả sử chúng ta có ma trận 3x3 sau:

Ma trận 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Toán tử gộp, cũng giống như toán tử tích chập, chia ma trận thành nhiều lát cắt rồi trượt phép toán tích chập đó bằng cách sải chân. Ví dụ: giả sử phép hợp nhất chia ma trận tích chập thành các lát cắt 2x2 với bước 1x1. Như minh hoạ dưới đây, 4 hoạt động gộp diễn ra. Hãy tưởng tượng rằng mỗi phép hợp nhất chọn giá trị tối đa trong số bốn giá trị trong lát cắt đó:

Ma trận đầu vào có kích thước 3x3 với các giá trị: [[5,3,1], [8,2,5], [9,4,3]].
          Ma trận con 2x2 trên cùng bên trái của ma trận đầu vào là [[5,3], [8,2]], vì vậy, phép hợp nhất trên cùng bên trái sẽ trả về giá trị 8 (là giá trị tối đa của 5, 3, 8 và 2). Ma trận con 2x2 ở trên cùng bên phải của ma trận đầu vào là [[3,1], [2,5]], do đó, phép hợp nhất ở trên cùng bên phải sẽ trả về giá trị 5. Ma trận con 2x2 dưới cùng bên trái của ma trận đầu vào là
          [[8,2], [9,4]], do đó thao tác gộp dưới cùng bên trái mang lại giá trị
          9. Ma trận con 2x2 dưới cùng bên phải của ma trận đầu vào là
          [[2,5], [4,3]], do đó thao tác gộp dưới cùng bên phải mang lại giá trị
          5 điểm. Tóm lại, phép gộp sẽ tạo ra ma trận 2x2
          [[8,5], [9,5]].

Việc gộp giúp thực thi bất biến dịch trong ma trận đầu vào.

Việc gộp dữ liệu cho các ứng dụng thị giác được gọi chính thức là gộp không gian. Các ứng dụng chuỗi thời gian thường gọi phương thức gộp nhóm là phương thức gộp nhóm thời gian. Nói một cách đơn giản hơn, gộp nhóm thường được gọi là lấy mẫu con hoặc giảm tần số lấy mẫu.

mã hoá vị trí

#language

Kỹ thuật thêm thông tin về vị trí của mã thông báo theo trình tự để nhúng của mã thông báo. Mô hình máy biến áp sử dụng dữ liệu vị trí để hiểu rõ hơn mối quan hệ giữa các phần khác nhau của trình tự.

Một cách triển khai phổ biến của mã hoá vị trí là sử dụng hàm sin. (Cụ thể, tần số và biên độ của hàm hình sin là được xác định theo vị trí của mã thông báo trong chuỗi). Kỹ thuật này cho phép mô hình Transformer tìm hiểu cách chú ý đến các phần khác nhau của trình tự dựa trên vị trí của các phần đó.

lớp giá trị dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp khẳng định trong thuật toán phân loại email có thể là "thư rác".

Tương phản với lớp âm.

hậu xử lý

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Xử lý hậu kỳ có thể được sử dụng để thực thi các ràng buộc về tính công bằng mà không cần tự sửa đổi mô hình.

Ví dụ: có thể áp dụng xử lý hậu kỳ cho thuật toán phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho cơ hội bình đẳng được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương thực sự giống nhau đối với tất cả các giá trị của thuộc tính đó.

PR AUC (diện tích dưới đường cong PR)

Diện tích dưới đường cong độ chính xác-độ hồi quy nội suy, thu được bằng cách lập biểu đồ các điểm (độ hồi quy, độ chính xác) cho các giá trị khác nhau của ngưỡng phân loại. Tuỳ thuộc vào cách tính, AUC của PR có thể tương đương với độ chính xác trung bình của mô hình.

Praxis

Thư viện ML cốt lõi, hiệu suất cao của Pax. Praxis thường được gọi là "Thư viện lớp".

Praxis không chỉ chứa các định nghĩa cho lớp Lớp (Layer) mà còn chứa hầu hết các thành phần hỗ trợ của lớp này, bao gồm:

Praxis cung cấp các định nghĩa cho lớp Mô hình.

độ chính xác

Một chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi mô hình dự đoán lớp dương, tỷ lệ phần trăm dự đoán chính xác là bao nhiêu?

Dưới đây là công thức:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

trong đó:

  • dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
  • dương tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp dương.

Ví dụ: giả sử một mô hình đưa ra 200 dự đoán tích cực. Trong số 200 cụm từ gợi ý tích cực này:

  • 150 là số lượng dương tính thật.
  • 50 kết quả là dương tính giả.

Trong trường hợp này:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Ngược lại với độ chính xácsự gợi nhớ.

Hãy xem bài viết Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan để biết thêm thông tin.

đường cong thu hồi độ chính xác

Đường cong độ chính xác so với độ chính xác ở các mức độ khác nhau ngưỡng phân loại.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

  • Dự đoán của mô hình phân loại nhị phân là giá trị dương hoặc lớp phủ định.
  • Thông tin dự đoán của mô hình phân loại nhiều lớp là một lớp.
  • Kết quả dự đoán của mô hình hồi quy tuyến tính là một con số.

độ lệch của dự đoán

Một giá trị cho biết mức độ chênh lệch giữa giá trị trung bình của dự đoán với giá trị trung bình của nhãn trong tập dữ liệu.

Đừng nhầm lẫn với thuật ngữ độ lệch trong các mô hình học máy hoặc thành kiến về đạo đức và công bằng.

công nghệ học máy dự đoán

Bất kỳ hệ thống máy học tiêu chuẩn nào ("cổ điển").

Thuật ngữ ML dự đoán chưa có định nghĩa chính thức. Thay vào đó, thuật ngữ này phân biệt một danh mục hệ thống học máy không dựa trên AI tạo sinh.

ngang bằng dự đoán

#fairness

Chỉ số về tính công bằng kiểm tra xem, cho một thuật toán phân loại nhất định, thì tỷ lệ độ chính xác tương đương với các nhóm con đang được xem xét.

Ví dụ: một mô hình dự đoán khả năng được nhận vào trường đại học sẽ đáp ứng tính tương đương dự đoán về quốc tịch nếu tỷ lệ chính xác của mô hình này giống nhau đối với người Lilliput và người Brobdingnag.

Đôi khi, tính năng cân bằng giá dự đoán còn được gọi là cân bằng giá dự đoán.

Xem "Định nghĩa về tính công bằng Giải thích" (mục 3.2.1) để thảo luận chi tiết hơn về tính tương đồng dự đoán.

tỷ giá dự đoán

#fairness

Một tên khác của tính năng chênh lệch dự đoán.

xử lý trước

#fairness
Xử lý dữ liệu trước khi dùng dữ liệu đó để huấn luyện mô hình. Quá trình xử lý trước có thể chỉ đơn giản như xoá những từ khỏi tập sao lục văn bản tiếng Anh không xảy ra trong từ điển tiếng Anh, hoặc có thể phức tạp như việc diễn đạt lại các điểm dữ liệu theo cách loại bỏ vô số thuộc tính có tương quan bằng thuộc tính nhạy cảm nhất có thể. Việc xử lý trước có thể giúp đáp ứng các quy tắc ràng buộc về tính công bằng.

mô hình luyện sẵn

#language
#image
#generativeAI

Các mô hình hoặc thành phần mô hình (chẳng hạn như vectơ nhúng) đã được huấn luyện. Đôi khi, bạn sẽ đưa các vectơ nhúng được huấn luyện trước vào một mạng nơron. Đôi khi, mô hình của bạn sẽ tự huấn luyện các vectơ nhúng thay vì dựa vào các vectơ nhúng được huấn luyện trước.

Thuật ngữ mô hình ngôn ngữ được huấn luyện trước đề cập đến một mô hình ngôn ngữ lớn đã trải qua trước khi đào tạo.

đào tạo trước

#language
#image
#generativeAI

Quá trình huấn luyện ban đầu của một mô hình trên một tập dữ liệu lớn. Một số mô hình luyện sẵn là những người khổng lồ vụng về và thường phải được hoàn thiện thông qua việc đào tạo bổ sung. Ví dụ: các chuyên gia về học máy có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản khổng lồ, chẳng hạn như tất cả các trang tiếng Anh trong Wikipedia. Sau quá trình đào tạo trước, mô hình thu được có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật:

tín ngưỡng trước

Bạn tin tưởng điều gì về dữ liệu trước khi bắt đầu tìm hiểu về dữ liệu đó. Ví dụ: quy trình chuẩn hoá L2 dựa trên niềm tin trước đó rằng trọng số phải nhỏ và được phân phối theo chuẩn xung quanh 0.

mô hình hồi quy xác suất

Mô hình hồi quy không chỉ sử dụng trọng số cho mỗi tính năng, mà còn độ bất định của các trọng số đó. Mô hình hồi quy có xác suất tạo ra một kết quả dự đoán và mức độ không chắc chắn của kết quả dự đoán đó. Ví dụ: một mô hình hồi quy xác suất có thể mang lại kết quả dự đoán là 325 với độ lệch chuẩn là 12. Để biết thêm thông tin về các mô hình hồi quy xác suất, hãy xem Colab này trên tensorflow.org.

hàm mật độ xác suất

Hàm xác định tần suất của các mẫu dữ liệu có chính xác một giá trị cụ thể. Khi các giá trị của một tập dữ liệu là dấu phẩy động liên tục số, đối sánh chính xác hiếm khi xảy ra. Tuy nhiên, việc tích hợp hàm mật độ xác suất từ giá trị x đến giá trị y sẽ tạo ra tần suất dự kiến của các mẫu dữ liệu giữa xy.

Ví dụ: hãy xem xét phân phối chuẩn có giá trị trung bình là 200 và độ lệch chuẩn 30. Để xác định tần suất dự kiến của các mẫu dữ liệu nằm trong phạm vi từ 211,4 đến 218,7, bạn có thể tích hợp hàm mật độ xác suất cho một phân phối chuẩn từ 211,4 đến 218,7.

lời nhắc

#language
#generativeAI

Bất kỳ văn bản nào được nhập dưới dạng dữ liệu đầu vào vào mô hình ngôn ngữ lớn để điều chỉnh mô hình hoạt động theo một cách nhất định. Lời nhắc có thể ngắn gọn bằng cụm từ hoặc dài tuỳ ý (ví dụ: toàn bộ văn bản của một cuốn tiểu thuyết). Lời nhắc thuộc nhiều danh mục, bao gồm cả những lời nhắc trong bảng sau:

Danh mục câu lệnh Ví dụ: Ghi chú
Câu hỏi Một con chim bồ câu có thể bay nhanh đến mức nào?
Hướng dẫn Viết một bài thơ hài hước về chủ đề chuyên đăng quảng cáo. Câu lệnh yêu cầu mô hình ngôn ngữ lớn làm gì đó.
Ví dụ: Dịch mã Markdown sang HTML. Ví dụ:
Markdown: * mục danh sách
HTML: <ul> <li>mục danh sách</li> </ul>
Câu đầu tiên trong câu lệnh mẫu này là một hướng dẫn. Phần còn lại của câu lệnh là ví dụ.
Vai trò Giải thích lý do sử dụng phương pháp hạ gradient trong quá trình huấn luyện máy học cho một tiến sĩ Vật lý. Phần đầu tiên của câu là một hướng dẫn; cụm từ "thành tiến sĩ vật lý" là phần vai trò.
Dữ liệu đầu vào một phần để mô hình hoàn tất Thủ tướng Vương quốc Anh sống tại Lời nhắc nhập một phần có thể kết thúc đột ngột (như trong ví dụ này) hoặc kết thúc bằng dấu gạch dưới.

Mô hình AI tạo sinh có thể trả lời một câu lệnh bằng văn bản, mã, hình ảnh, nội dung nhúng, video... hầu như mọi thứ.

học tập dựa trên câu lệnh

#language
#generativeAI

Một khả năng của một số mô hình nhất định cho phép các mô hình đó điều chỉnh hành vi để phản hồi hoạt động nhập văn bản tuỳ ý (lời nhắc). Trong mô hình học tập dựa trên câu lệnh thông thường, mô hình ngôn ngữ lớn sẽ phản hồi câu lệnh bằng cách tạo văn bản. Ví dụ: giả sử người dùng nhập câu lệnh sau:

Tóm tắt Định luật chuyển động thứ ba của Newton.

Một mô hình có khả năng học dựa trên câu lệnh chưa được huấn luyện riêng để trả lời câu lệnh trước đó. Thay vào đó, mô hình này "biết" nhiều thông tin về vật lý, rất nhiều về các quy tắc ngôn ngữ chung và những yếu tố cấu thành nên các câu trả lời hữu ích. Kiến thức đó đủ để cung cấp (hy vọng) thông tin hữu ích . Ý kiến phản hồi bổ sung của con người ("Câu trả lời đó quá phức tạp" hoặc "Phản ứng là gì?") cho phép một số hệ thống học dựa trên câu lệnh dần cải thiện tính hữu ích của câu trả lời.

thiết kế câu lệnh

#language
#generativeAI

Từ đồng nghĩa với kỹ thuật câu lệnh.

thiết kế câu lệnh

#language
#generativeAI

Nghệ thuật tạo câu lệnh gợi ra các câu trả lời mong muốn qua một mô hình ngôn ngữ lớn. Con người thực hiện kỹ thuật gợi ý. Việc viết câu lệnh có cấu trúc tốt là một phần thiết yếu để đảm bảo nhận được câu trả lời hữu ích từ mô hình ngôn ngữ lớn. Kỹ thuật câu lệnh phụ thuộc vào nhiều yếu tố, bao gồm:

Xem Giới thiệu về thiết kế lời nhắc để biết thêm chi tiết về cách viết những câu lệnh hữu ích.

Thiết kế câu lệnh là từ đồng nghĩa với kỹ thuật thiết kế câu lệnh.

điều chỉnh nhanh

#language
#generativeAI

Cơ chế điều chỉnh hiệu quả thông số học "tiền tố" mà hệ thống thêm vào trước lời nhắc thực tế.

Một biến thể của tính năng điều chỉnh lời nhắc (đôi khi được gọi là điều chỉnh tiền tố) là đặt tiền tố ở mọi lớp. Ngược lại, hầu hết các tính năng chỉ điều chỉnh câu lệnh thêm tiền tố vào lớp đầu vào.

nhãn đại diện

#fundamentals

Dữ liệu dùng để ước tính nhãn không có trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán nhân viên mức độ căng thẳng. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán, nhưng không chứa nhãn có tên mức độ căng thẳng. Không lo lắng, bạn chọn "tai nạn nơi làm việc" dưới dạng nhãn proxy cho mức độ căng thẳng. Sau cùng, nhân viên đang chịu áp lực cao sẽ làm việc hiệu quả hơn hơn so với những nhân viên bình tĩnh. Có đúng như vậy không? Có thể số vụ tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai: giả sử bạn muốn is it raining? (có mưa không?) là nhãn Boolean cho tập dữ liệu của mình, nhưng tập dữ liệu đó không chứa dữ liệu về mưa. Nếu có ảnh, bạn có thể thiết lập ảnh người dân cầm ô làm nhãn đại diện cho câu lệnh có mưa không? Đó có phải là một nhãn proxy tốt không? Có thể, nhưng mọi người ở một số nền văn hoá có thể có nhiều khả năng mang theo ô để chống nắng hơn là mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực tế, hãy chọn nhãn proxy rất cẩn thận, chọn ứng cử viên nhãn proxy ít tệ nhất.

proxy (thuộc tính nhạy cảm)

#fairness
Một thuộc tính được dùng thay thế cho thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được dùng làm thông tin thay thế cho thu nhập, chủng tộc hoặc sắc tộc của họ.

hàm thuần tuý

Một hàm có kết quả chỉ dựa trên dữ liệu đầu vào và không có cạnh các hiệu ứng. Cụ thể, hàm thuần tuý không sử dụng hoặc thay đổi bất kỳ trạng thái toàn cục nào, chẳng hạn như nội dung của tệp hoặc giá trị của biến bên ngoài hàm.

Bạn có thể dùng các hàm thuần tuý để tạo mã an toàn cho luồng. Điều này sẽ có lợi khi phân đoạn mã mô hình trên nhiều chip tăng tốc.

Các phương thức biến đổi hàm của JAX yêu cầu hàm đầu vào phải là hàm thuần tuý.

Hỏi

Hàm Q

#rl

Trong học tăng cường, hàm dự đoán giá trị trả về dự kiến từ việc thực hiện một hành động trong một trạng thái, sau đó tuân theo một chính sách nhất định.

Hàm Q còn được gọi là hàm giá trị hành động trạng thái.

Học hỏi

#rl

Trong học tăng cường, thuật toán cho phép tác nhân học hàm Q tối ưu của quy trình quyết định Markov bằng cách áp dụng biểu thức Bellman. Quy trình quyết định Markov mô hình hoá một môi trường.

số phân vị

Mỗi bộ chứa trong bộ chứa lượng tử.

phân nhóm số phân vị

Phân phối các giá trị của một đặc điểm vào các bộ chứa để mỗi bộ chứa chứa cùng một số lượng ví dụ (hoặc gần như giống nhau). Ví dụ: hình sau đây chia 44 điểm thành 4 nhóm, mỗi nhóm chứa 11 điểm. Để mỗi bộ chứa trong hình chứa cùng một số điểm, một số bộ chứa có chiều rộng giá trị x khác nhau.

44 điểm dữ liệu được chia thành 4 nhóm, mỗi nhóm có 11 điểm.
          Mặc dù mỗi nhóm chứa cùng số lượng điểm dữ liệu,
          một số nhóm chứa nhiều giá trị tính năng hơn các nhóm khác
          .

lượng tử hoá

Thuật ngữ nạp chồng có thể được sử dụng theo bất kỳ cách nào sau đây:

  • Triển khai tính năng nhóm theo tứ phân vị trên một tính năng cụ thể.
  • Biến đổi dữ liệu thành số 0 và số 1 để lưu trữ, huấn luyện và suy luận nhanh hơn. Vì dữ liệu Boolean có tác động mạnh hơn đến độ nhiễu và lỗi hơn là các định dạng khác, việc lượng tử hoá có thể cải thiện độ chính xác của mô hình. Các kỹ thuật lượng tử hoá bao gồm làm tròn, cắt bớt và nhóm.
  • Giảm số lượng bit được sử dụng để lưu trữ mô hình tham số. Ví dụ: giả sử các tham số của một mô hình được lưu trữ dưới dạng số dấu phẩy động 32 bit. Quá trình lượng tử chuyển đổi những lượt chuyển đổi đó các tham số từ 32 bit xuống còn 4, 8 hoặc 16 bit. Quá trình lượng tử hoá làm giảm các yếu tố sau:

    • Mức sử dụng điện toán, bộ nhớ, ổ đĩa và mạng
    • Thời gian để suy luận
    • Mức tiêu thụ điện năng

    Tuy nhiên, lượng tử hoá đôi khi làm giảm độ chính xác của mô hình dự đoán.

danh sách chờ

#TensorFlow

Thao tác của TensorFlow triển khai dữ liệu hàng đợi cấu trúc. Thường được sử dụng trong I/O.

Điểm

RAG

#fundamentals

Viết tắt của tạo dữ liệu tăng cường truy xuất.

khu rừng ngẫu nhiên

#df

Một bộ dữ liệu tổng hợp của cây quyết định, trong đó mỗi cây quyết định được huấn luyện bằng một nhiễu ngẫu nhiên cụ thể, chẳng hạn như bagging.

Rừng ngẫu nhiên là một loại rừng quyết định.

chính sách ngẫu nhiên

#rl

Trong quá trình học tăng cường, một chính sách chọn một thao tác một cách ngẫu nhiên.

thứ hạng

Một loại học có giám sát có mục tiêu là sắp xếp danh sách các mục.

thứ hạng (thứ tự)

Vị trí thứ tự của một lớp trong một bài toán học máy được phân loại lớp từ cao nhất đến thấp nhất. Ví dụ: xếp hạng hành vi hệ thống có thể xếp hạng phần thưởng cho một chú chó từ cao nhất (một miếng bít tết) đến thấp nhất (cải xoăn héo).

thứ hạng (Tensor)

#TensorFlow

Số lượng phương diện trong một Tensor. Ví dụ: một đại lượng vô hướng có thứ hạng 0, một vectơ có thứ hạng 1 và một ma trận có thứ hạng 2.

Đừng nhầm lẫn với hạng (thứ tự).

người đánh giá

#fundamentals

Người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên khác của người đánh giá.

mức độ ghi nhớ

Chỉ số cho mô hình phân loại giúp trả lời câu hỏi sau:

Khi đầu ra thực sựlớp dương tính, mô hình đã xác định chính xác bao nhiêu phần trăm dự đoán là lớp dương tính?

Dưới đây là công thức:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

trong đó:

  • dương thực có nghĩa là mô hình đã dự đoán chính xác về lớp dương.
  • kết quả âm tính giả có nghĩa là mô hình nhầm lẫn dự đoán lớp âm tính.

Ví dụ: giả sử mô hình của bạn đã đưa ra 200 dự đoán về các ví dụ mà giá trị thực tế là lớp dương tính. Trong số 200 cụm từ gợi ý này:

  • 180 kết quả là dương tính thật.
  • 20 trường hợp là âm tính giả.

Trong trường hợp này:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Hãy xem bài viết Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan để biết thêm thông tin.

hệ thống đề xuất

#recsystems

Một hệ thống chọn cho mỗi người dùng một nhóm tương đối nhỏ các mục mong muốn từ một tập hợp lớn. Ví dụ: hệ thống đề xuất video có thể đề xuất hai video trong một tập hợp gồm 100.000 video, chọn CasablancaThe Philadelphia Story cho một người dùng và Wonder WomanBlack Panther cho người dùng khác. Hệ thống đề xuất video có thể dựa trên các yếu tố như:

  • Phim mà những người dùng tương tự đã xếp hạng hoặc xem.
  • Thể loại, đạo diễn, diễn viên, đối tượng nhân khẩu học mục tiêu...

Đơn vị tuyến tính chỉnh sửa (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

  • Nếu đầu vào là số âm hoặc 0 thì đầu ra sẽ bằng 0.
  • Nếu đầu vào là số dương thì dữ liệu đầu ra sẽ bằng đầu vào.

Ví dụ:

  • Nếu giá trị đầu vào là -3, thì kết quả sẽ là 0.
  • Nếu đầu vào là +3, thì đầu ra là 3.0.

Dưới đây là cốt truyện của ReLU:

Biểu đồ Descartes của hai đường. Dòng đầu tiên có hằng số
          giá trị y bằng 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0,0. Đường này có hệ số góc +1, vì vậy
          nó chạy từ 0,0 đến +vô cùng,+vô cùng.

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, nhưng ReLU vẫn cho phép mạng nơron học các mối quan hệ không tuyến tính giữa các đặc điểmnhãn.

mạng nơron tái sinh

#seq

Mạng nơron được chủ ý chạy nhiều lần, khi các phần của mỗi lần chạy cấp dữ liệu cho lần chạy tiếp theo. Cụ thể, các lớp ẩn từ lần chạy trước cung cấp một phần đầu vào cho cùng một lớp ẩn trong lần chạy tiếp theo. Mạng nơron tái phát đặc biệt hữu ích trong việc đánh giá trình tự, để các lớp ẩn có thể học từ các lần chạy mạng nơron trước đó ở các phần trước của trình tự.

Ví dụ: hình sau đây cho thấy một mạng nơron tái sinh chạy bốn lần. Lưu ý rằng các giá trị đã học được trong các lớp ẩn từ lần chạy đầu tiên sẽ trở thành một phần của đầu vào cho cùng các lớp ẩn trong lần chạy thứ hai. Tương tự, các giá trị đã học trong lớp ẩn trên lần chạy thứ hai sẽ trở thành một phần của dữ liệu đầu vào cho cùng một lớp ẩn trong lần chạy thứ ba. Bằng cách này, mạng nơron tái sinh sẽ dần dần huấn luyện và dự đoán ý nghĩa của toàn bộ trình tự thay vì chỉ ý nghĩa của từng từ.

Một RNN chạy 4 lần để xử lý 4 từ đầu vào.

mô hình hồi quy

#fundamentals

Nói một cách không chính thức, mô hình tạo ra dự đoán dạng số. (Ngược lại, mô hình phân loại sẽ tạo một lớp prediction.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
  • Mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
  • Một mô hình dự báo lượng mưa sẽ rơi ở một thành phố cụ thể trong sáu giờ tiếp theo, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

  • Hồi quy tuyến tính: tìm đường phù hợp nhất khớp giá trị nhãn với các đối tượng.
  • Hồi quy logistic, tạo ra một xác suất từ 0 đến 1 mà hệ thống thường ánh xạ đến một dự đoán về lớp.

Không phải mọi mô hình đưa ra dự đoán dạng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số chỉ thực sự là một mô hình phân loại có tên lớp dạng số. Ví dụ: mô hình dự đoán mã bưu chính dạng số là mô hình phân loại, chứ không phải mô hình hồi quy.

điều hoà

#fundamentals

Bất kỳ cơ chế nào làm giảm khả năng trang bị quá mức. Các loại quy tắc chuẩn hoá phổ biến bao gồm:

Việc điều chỉnh quy ước cũng có thể được định nghĩa là hình phạt đối với sự phức tạp của mô hình.

tỷ lệ điều chỉnh

#fundamentals

Một con số chỉ định tầm quan trọng tương đối của việc điều chỉnh trong quá trình huấn luyện. Nâng tỷ lệ điều chỉnh thấp hơn giúp giảm quá mức phù hợp, nhưng vẫn có thể giảm công suất dự đoán của mô hình. Ngược lại, hãy giảm hoặc bỏ qua thì tỷ lệ điều chỉnh tăng lên.

học tăng cường (rl)

#rl

Một nhóm thuật toán học một chính sách tối ưu, trong đó mục tiêu là tối đa hoá lợi tức khi tương tác với môi trường. Ví dụ: phần thưởng cuối cùng của hầu hết các trò chơi là chiến thắng. Các hệ thống học tập củng cố có thể trở thành chuyên gia chơi trò chơi phức tạp trò chơi bằng cách đánh giá trình tự các nước đi trước đó trong trò chơi mà cuối cùng là dẫn đến các chiến thắng và các chuỗi cuối cùng dẫn đến thua cuộc.

Tăng cường học hỏi từ ý kiến phản hồi của con người (rlHF)

#generativeAI
#rl

Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng các câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng đánh giá chất lượng phản hồi của một mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các câu trả lời trong tương lai dựa trên phản hồi đó.

ReLU

#fundamentals

Từ viết tắt của Đơn vị tuyến tính được chỉnh sửa.

vùng đệm phát lại

#rl

Trong các thuật toán giống như DQN, bộ nhớ mà tác nhân sử dụng để lưu trữ các quá trình chuyển đổi trạng thái để sử dụng trong tái hiện trải nghiệm.

hàng nhái

Một bản sao của tập huấn luyện hoặc mô hình, thường là trên một máy khác. Ví dụ: hệ thống có thể sử dụng để triển khai tính song song dữ liệu:

  1. Đặt bản sao của một mô hình hiện có trên nhiều máy.
  2. Gửi các tập hợp con khác nhau của tập dữ liệu huấn luyện đến từng bản sao.
  3. Tổng hợp các nội dung cập nhật tham số.

thiên vị dựa trên báo cáo

#fairness

Thực tế là tần suất mà mọi người viết về hành động, kết quả hoặc thuộc tính không phản ánh thế giới thực tần suất hoặc mức độ đặc trưng của một thuộc tính của một lớp cá nhân. Sự thiên vị trong báo cáo có thể ảnh hưởng đến thành phần dữ liệu mà hệ thống học máy học hỏi.

Ví dụ: trong sách, từ cười phổ biến hơn thở trong. Mô hình học máy ước tính tần suất tương đối của cười và thở từ kho sách có lẽ sẽ quyết định cười bình thường hơn hít thở.

đại diện

Quá trình liên kết dữ liệu với các tính năng hữu ích.

xếp hạng lại

#recsystems

Giai đoạn cuối cùng của một hệ thống đề xuất, trong đó các mục được tính điểm có thể được chấm lại theo một số thuật toán khác (thường là không phải thuật toán học máy). Việc xếp hạng lại sẽ đánh giá danh sách các mục do giai đoạn đánh giá tạo ra, thực hiện các hành động như:

  • Loại bỏ các mặt hàng mà người dùng đã mua.
  • Tăng điểm số cho các mục mới hơn.

tạo tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng của Đầu ra mô hình ngôn ngữ lớn (LLM) bằng cách dựa vào các nguồn kiến thức truy xuất được sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của câu trả lời của LLM bằng cách cung cấp cho LLM đã huấn luyện quyền truy cập vào thông tin được truy xuất từ các cơ sở tri thức hoặc tài liệu đáng tin cậy.

Sau đây là một số lý do phổ biến để sử dụng phương pháp tạo nội dung được tăng cường bằng tính năng truy xuất:

  • Tăng độ chính xác về mặt thực tế của các câu trả lời do mô hình tạo ra.
  • Cấp cho mô hình này quyền tiếp cận kiến thức mà mô hình không được huấn luyện.
  • Thay đổi kiến thức mà mô hình sử dụng.
  • Cho phép mô hình trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hóa học sử dụng PaLM API để tạo bản tóm tắt liên quan đến các truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

  1. Tìm kiếm dữ liệu ("truy xuất") có liên quan đến truy vấn của người dùng.
  2. Thêm ("mở rộng") dữ liệu hóa học có liên quan vào truy vấn của người dùng.
  3. Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu đã thêm.

phím return

#rl

Trong học tăng cường, căn cứ vào một chính sách và một trạng thái nhất định, trả về là tổng của tất cả phần thưởngtác nhân sẽ nhận được khi tuân thủ chính sách của trạng thái đến cuối tập. Nhân viên hỗ trợ tính đến tính chất chậm trễ của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo chuyển đổi trạng thái cần thiết để nhận được phần thưởng.

Do đó, nếu hệ số chiết khấu là \(\gamma\)và \(r_0, \ldots, r_{N}\) biểu thị phần thưởng cho đến cuối tập, sau đó tính toán lợi nhuận như sau:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

phần thưởng

#rl

Trong học tăng cường, kết quả dạng số của việc thực hiện một hành động trong một trạng thái, như được xác định bởi môi trường.

điều chỉnh độ cao

Từ đồng nghĩa với quy ước L2. Thuật ngữ quy trình điều chỉnh dãy núi được sử dụng thường xuyên hơn trong dữ liệu thống kê thuần tuý trong khi đó L2 chính quy được dùng thường xuyên hơn trong công nghệ học máy.

RNN

#seq

Từ viết tắt của mạng nơron tái phát.

Đường cong ROC (đặc điểm hoạt động của máy thu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các sản phẩm khác nhau ngưỡng phân loại ở dạng tệp nhị phân của bạn.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân để phân tách lớp khẳng định khỏi lớp phủ định. Ví dụ: giả sử mô hình phân loại nhị phân sẽ tách hoàn toàn mọi giá trị âm các lớp từ tất cả các lớp tích cực:

Dòng số có 8 ví dụ dương ở bên phải và
          7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L ngược. Đường cong
          bắt đầu tại (0,0,0,0) và đi thẳng đến (0,0,1,0). Sau đó, đường cong
          đi từ (0,0,1,0) đến (1,0,1,0).

Ngược lại, hình minh hoạ sau đây vẽ biểu đồ hồi quy logistic thô các giá trị của một mô hình rất tệ không thể tách các lớp phủ định khỏi những lớp học tích cực:

Một đường số có các ví dụ dương và lớp âm lẫn lộn hoàn toàn.

Đường cong ROC của mô hình này được thể hiện như sau:

Đường cong ROC (ROC) là một đường thẳng từ (0,0,0,0)
          đến (1,0,1,0).

Trong khi đó, trở lại thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình nằm ở đâu đó giữa hai cực:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y
          là Tỷ lệ dương thực. Đường cong ROC gần giống với một vòng cung không ổn định
          đi qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1,0) về mặt lý thuyết xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.

Chỉ số bằng số gọi là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

nhắc vai trò

#language
#generativeAI

Một phần không bắt buộc trong lời nhắc giúp xác định đối tượng mục tiêu để nhận phản hồi của mô hình AI tạo sinh. Không có vai trò câu lệnh, mô hình ngôn ngữ lớn sẽ đưa ra câu trả lời có thể hữu ích hoặc không hữu ích đối với người đặt câu hỏi. Với câu lệnh nhập vai trò, một ngôn ngữ lớn có thể trả lời theo cách phù hợp và hữu ích hơn đối với đối tượng mục tiêu cụ thể. Ví dụ: phần lời nhắc về vai trò của các lời nhắc sau đây được in đậm:

  • Tóm tắt bài viết này cho một tiến sĩ kinh tế.
  • Mô tả cơ chế hoạt động của thuỷ triều cho trẻ 10 tuổi.
  • Giải thích cuộc khủng hoảng tài chính 2008. Hãy nói như bạn có thể với một đứa trẻ nhỏ, hoặc chó săn lông vàng.

gốc

#df

Điểm bắt đầu (điều kiện đầu tiên) trong cây quyết định. Theo quy ước, sơ đồ đặt phần gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có hai điều kiện và ba lá. Chiến lược phát hành đĩa đơn
          điều kiện bắt đầu (x > 2) là căn.

thư mục gốc

#TensorFlow

Thư mục bạn chỉ định để lưu trữ các thư mục con của điểm kiểm tra TensorFlow và tệp sự kiện của nhiều mô hình.

sai số trung bình bình phương (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

bất biến khi xoay

#image

Trong một bài toán phân loại hình ảnh, khả năng thuật toán thành công phân loại hình ảnh ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một vợt tennis cho dù nó đang hướng lên, sang một bên hoặc xuống dưới. Lưu ý rằng bất biến xoay vòng không phải lúc nào cũng được mong muốn; ví dụ: bạn không nên phân loại 9 lộn ngược là 9.

Hãy xem thêm bất biến dịchbất biến kích thước.

R bình phương

Chỉ số hồi quy cho biết mức độ biến động trong một nhãn là do một tính năng riêng lẻ hoặc một bộ tính năng. R bình phương là một giá trị nằm trong khoảng từ 0 đến 1, bạn có thể hiểu như sau:

  • R-squared bằng 0 có nghĩa là không có biến thể nào của nhãn là do tập hợp tính năng.
  • R-squared bằng 1 có nghĩa là tất cả các biến thể của nhãn đều là do tập hợp tính năng.
  • R-squared từ 0 đến 1 cho biết mức độ biến thiên của nhãn có thể được dự đoán từ một tính năng cụ thể hoặc tập hợp tính năng. Ví dụ: R bình phương bằng 0, 10 có nghĩa là 10% phương sai trên nhãn là do bộ tính năng, R bình phương 0,20 có nghĩa là 20% là do bộ tính năng và cứ thế tiếp tục.

R-squared là bình phương của hệ số tương quan Pearson giữa các giá trị mà mô hình dự đoán và giá trị thực tế.

CN

thiên vị do không lấy mẫu

#fairness

Xem phần thiên vị do cách chọn mẫu.

lấy mẫu có thay thế

#df

Phương pháp chọn các mục từ một tập hợp các mục đề xuất mà trong đó có thể chọn mục nhiều lần. Cụm từ "có sản phẩm thay thế" nghĩa là sau mỗi lần lựa chọn, mục đã chọn sẽ được trả về nhóm mục ứng viên. Phương thức nghịch đảo, lấy mẫu không thay thế, nghĩa là bạn chỉ có thể chọn một mục đề xuất một lần.

Ví dụ: hãy xem xét nhóm trái cây sau đây:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng phương pháp lấy mẫu có thay thế, thì hệ thống sẽ chọn mục thứ hai trong tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Có, đó là cùng một tập hợp như trước, vì vậy, hệ thống có thể chọn lại fig.

Nếu sử dụng phương thức lấy mẫu mà không thay thế thì sau khi đã chọn, bạn không thể lấy mẫu đã chọn lại. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm mẫu đầu tiên, thì bạn không thể chọn lại fig. Do đó, hệ thống sẽ chọn mẫu thứ hai trong tập hợp (rút gọn) sau:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Định dạng được đề xuất để lưu và khôi phục các mô hình TensorFlow. SavedModel là một định dạng chuyển đổi tuần tự trung lập về ngôn ngữ và có thể khôi phục, cho phép các hệ thống và công cụ cấp cao hơn để sản xuất, tiêu thụ và cải tiến TensorFlow người mẫu.

Hãy xem chương Lưu và khôi phục trong Hướng dẫn dành cho lập trình viên TensorFlow để biết toàn bộ thông tin chi tiết.

Vận chuyển hàng tiết kiệm

#TensorFlow

Một đối tượng TensorFlow chịu trách nhiệm lưu các điểm kiểm tra mô hình.

đại lượng vô hướng

Một số hoặc một chuỗi đơn có thể được biểu diễn dưới dạng tensor của thứ hạng 0. Ví dụ: các dòng mã sau đây tạo ra một vectơ trong TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

mở rộng quy mô

Bất kỳ biến đổi hoặc kỹ thuật toán học nào làm thay đổi phạm vi của nhãn và/hoặc giá trị tính năng. Một số hình thức điều chỉnh theo tỷ lệ rất hữu ích cho các phép biến đổi như bình thường hoá.

Sau đây là một số hình thức mở rộng phổ biến hữu ích trong Học máy:

  • tỷ lệ tuyến tính, thường sử dụng kết hợp phép trừ và phép chia để thay thế giá trị ban đầu bằng một số từ -1 đến +1 hoặc trong khoảng từ 0 đến 1.
  • tỷ lệ logarit, thay thế giá trị ban đầu bằng lôgarit của giá trị đó.
  • Chuẩn hoá điểm Z, thay thế cho giá trị ban đầu là một giá trị dấu phẩy động biểu thị số lượng độ lệch chuẩn so với giá trị trung bình của đối tượng đó.

học-scikit

Một nền tảng học máy nguồn mở phổ biến. Xem scikit-learn.org.

ghi điểm

#recsystems

Một phần của hệ thống đề xuất cung cấp giá trị hoặc thứ hạng cho từng mục do giai đoạn tạo đề xuất tạo ra.

thiên kiến lựa chọn

#fairness

Lỗi trong kết luận được rút ra từ dữ liệu được lấy mẫu do quy trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu và các mẫu không được quan sát. Có các dạng thiên lệch lựa chọn sau đây:

  • thành kiến về phạm vi: Tập hợp được biểu thị trong tập dữ liệu không khớp với tập hợp mà mô hình học máy đang dự đoán.
  • độ chệch lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
  • thiên vị không phản hồi (còn gọi là thiên vị tham gia): Người dùng chọn không tham gia khảo sát ở một số nhóm nhất định với tỷ lệ khác với người dùng các nhóm khác.

Ví dụ: giả sử bạn đang tạo một mô hình học máy dự đoán sự hứng thú của mọi người khi xem một bộ phim. Để thu thập dữ liệu huấn luyện, bạn phát một bản khảo sát cho tất cả mọi người ở hàng ghế đầu của một rạp chiếu phim đang chiếu bộ phim đó. Nghe có vẻ như đây là một cách hợp lý để thu thập tập dữ liệu; tuy nhiên, hình thức thu thập dữ liệu này có thể gây ra các dạng thiên vị lựa chọn sau:

  • thiên vị về phạm vi: Bằng cách lấy mẫu từ một nhóm người đã chọn xem phim, dự đoán của mô hình có thể không áp dụng cho những người chưa thể hiện mức độ quan tâm đó đến bộ phim.
  • thiên vị khi lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ tổng thể dự kiến (tất cả mọi người xem phim), bạn chỉ lấy mẫu những người ở hàng ghế trước. Có thể những người ngồi ở hàng đầu quan tâm đến bộ phim hơn những người ở các hàng khác.
  • thiên kiến không phản hồi: Nhìn chung, những người có quan điểm rõ ràng có xu hướng phản hồi các cuộc khảo sát không bắt buộc thường xuyên hơn những người có quan điểm không rõ ràng. Vì bản khảo sát về phim là không bắt buộc, nên các câu trả lời có nhiều khả năng tạo thành một phân phối hai đỉnh hơn là một phân phối chuẩn (hình chuông).

tự chú ý (còn được gọi là tầng tự chú ý)

#language

Một lớp mạng nơron biến đổi một chuỗi các mục nhúng (ví dụ: các mục nhúng mã thông báo) thành một chuỗi các mục nhúng khác. Mỗi mục nhúng trong chuỗi đầu ra là được tạo bằng cách tích hợp thông tin từ các phần tử của chuỗi đầu vào thông qua cơ chế chú ý.

Phần tự của sự tự chú ý đề cập đến trình tự tham gia vào chứ không phải là với một số ngữ cảnh khác. Quan tâm đến bản thân là một trong những thành phần cho Transformers và sử dụng tính năng tra cứu từ điển chẳng hạn như "truy vấn", "khoá" và "giá trị".

Một tầng tự chú ý bắt đầu bằng một chuỗi các biểu diễn đầu vào, một cho từng từ. Biểu diễn đầu vào cho một từ có thể là một đơn giản nhúng. Đối với mỗi từ trong một chuỗi đầu vào, mạng tính điểm mức độ liên quan của từ với mọi thành phần trong toàn bộ chuỗi các từ. Điểm số mức độ liên quan xác định giá trị đại diện cuối cùng của từ đó kết hợp biểu diễn của các từ khác.

Ví dụ: hãy xem xét câu sau:

Con vật không qua đường vì quá mệt.

Hình minh hoạ sau đây (từ Transformer: Cấu trúc mạng nơron mới cho ngôn ngữ Thấu hiểu) cho thấy kiểu chú ý của một lớp tự chú ý cho đại từ it, với độ tối của mỗi dòng cho biết đóng góp của mỗi từ đối với đại diện:

Câu sau đây xuất hiện hai lần: Con vật không vượt qua
          vì quá mệt. Các dòng kết nối đại từ it trong một câu với 5 mã thông báo (The, animal, street, it và dấu chấm) trong câu còn lại.  Dòng giữa đại từ it và từ animal (động vật) là mạnh nhất.

Lớp tự chú ý sẽ đánh dấu những từ có liên quan đến "it". Trong phần này viết hoa, lớp chú ý đã học cách đánh dấu những từ có thể tham chiếu đến việc chỉ định trọng số cao nhất cho động vật.

Đối với một chuỗi n mã thông báo, tính năng tự chú ý sẽ biến đổi một chuỗi các mục nhúng n lần riêng biệt, một lần tại mỗi vị trí trong chuỗi.

Ngoài ra, hãy tham khảo tính năng chú ýtính năng tự chú ý nhiều đầu.

học tập tự giám sát

Một nhóm kỹ thuật để chuyển đổi vấn đề học máy không giám sát thành vấn đề học máy có giám sát bằng cách tạo nhãn thay thế từ ví dụ chưa được gắn nhãn.

Một số mô hình dựa trên Transformer (chẳng hạn như BERT) sử dụng tự giám sát.

Huấn luyện tự giám sát là một phương pháp học bán giám sát.

tự đào tạo

Một biến thể của công nghệ tự giám sát đặc biệt hữu ích khi tất cả các điều kiện sau đây đều đúng:

Tính năng tự huấn luyện hoạt động bằng cách lặp lại hai bước sau cho đến khi mô hình ngừng cải thiện:

  1. Sử dụng công nghệ học máy có giám sát để đào tạo mô hình trên các ví dụ được gắn nhãn.
  2. Sử dụng mô hình được tạo ở Bước 1 để tạo dự đoán (nhãn) trên các ví dụ chưa được gắn nhãn, di chuyển các ví dụ có độ tin cậy cao vào các ví dụ được gắn nhãn bằng nhãn dự đoán.

Lưu ý rằng mỗi lần lặp lại của Bước 2 sẽ thêm nhiều ví dụ được gắn nhãn cho Bước 1 để huấn luyện.

học bán giám sát

Huấn luyện một mô hình về dữ liệu trong đó một số ví dụ huấn luyện có nhãn nhưng những người khác thì không. Một kỹ thuật để học bán giám sát là suy luận nhãn cho các ví dụ chưa được gắn nhãn, sau đó huấn luyện trên các nhãn được suy luận để tạo một mô hình mới. Phương pháp học bán giám sát có thể hữu ích nếu việc thu thập nhãn tốn kém nhưng có nhiều ví dụ chưa được gắn nhãn.

Tự đào tạo là một kỹ thuật dành cho phương pháp bán được giám sát học tập.

thuộc tính nhạy cảm

#fairness
Một thuộc tính của con người có thể được xem xét đặc biệt vì lý do pháp lý, đạo đức, xã hội hoặc cá nhân.

phân tích cảm nhận

#language

Sử dụng thuật toán thống kê hoặc học máy để xác định thái độ tổng thể của một nhóm (tích cực hay tiêu cực) đối với một dịch vụ, sản phẩm, tổ chức hoặc chủ đề. Ví dụ: sử dụng hiểu biết ngôn ngữ tự nhiên, một thuật toán có thể thực hiện phân tích quan điểm dựa trên phản hồi bằng văn bản trong một khoá học đại học để xác định bằng cấp của sinh viên thường thích hoặc không thích khoá học.

mô hình chuỗi

#seq

Một mô hình có dữ liệu đầu vào có sự phụ thuộc tuần tự. Ví dụ: dự đoán video tiếp theo được xem dựa trên một chuỗi video đã xem trước đó.

tác vụ trình tự đến trình tự

#language

Một tác vụ chuyển đổi một chuỗi đầu vào gồm mã thông báo thành một chuỗi đầu ra gồm các mã thông báo. Ví dụ: hai loại trình tự phổ biến nhiệm vụ là:

  • Người dịch:
    • Chuỗi nhập mẫu: "Tôi yêu bạn".
    • Trình tự đầu ra mẫu: "Je t'aime."
  • Trả lời câu hỏi:
    • Chuỗi nhập mẫu: "Tôi có cần xe ô tô của mình ở Thành phố New York không?"
    • Trình tự đầu ra mẫu: "Không. Vui lòng để xe ở nhà."

đang phân phát

Quá trình cung cấp mô hình đã huấn luyện để cung cấp thông tin dự đoán thông qua suy luận trực tuyến hoặc suy luận ngoại tuyến.

shape (Tensor)

Số lượng phần tử trong mỗi phương diện của một tensor. Hình dạng được biểu thị dưới dạng danh sách các số nguyên. Ví dụ: tensor hai chiều sau đây có hình dạng [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow sử dụng định dạng hàng chính (kiểu C) để biểu thị thứ tự của các kích thước. Đó là lý do hình dạng trong TensorFlow là [3,4] thay vì [4,3]. Nói cách khác, trong TensorFlow Tensor có hai chiều, hình dạng là [số hàng, số cột].

Hình dạng tĩnh là hình dạng tensor được biết tại thời điểm biên dịch.

Hình dạng động không xác định tại thời gian biên dịch và do đó phụ thuộc vào dữ liệu thời gian chạy. Tensor này có thể được biểu diễn bằng một phương diện phần giữ chỗ trong TensorFlow, như trong [3, ?].

mảnh

#TensorFlow
#GoogleCloud

Sự phân chia logic của tập hợp huấn luyện hoặc mô hình. Thông thường, một số quá trình tạo phân đoạn bằng cách chia ví dụ hoặc tham số (thường là) đoạn có kích thước bằng nhau. Sau đó, mỗi phân đoạn được chỉ định cho một máy khác.

Việc phân đoạn một mô hình được gọi là mô hình song song; dữ liệu phân đoạn được gọi là tính song song dữ liệu.

co ngót

#df

Siêu tham số trong Tính năng tăng độ dốc giúp kiểm soát trang bị quá mức. Sự co rút trong phương pháp tăng cường độ dốc tương tự như tốc độ học trong phương pháp giảm độ dốc. Độ co lại là số thập phân có giá trị từ 0,0 đến 1,0. Giá trị co rút thấp hơn sẽ làm giảm tình trạng phù hợp quá mức hơn so với giá trị co rút lớn hơn.

hàm sigmoid

#fundamentals

Một hàm toán học "nén" một giá trị đầu vào vào một phạm vi bị ràng buộc, thường là từ 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (2, 1 triệu, âm tỷ, bất kỳ) vào hàm sigmoid và kết quả vẫn nằm trong phạm vi ràng buộc. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều với các giá trị x trải dài từ miền -vô cực đến +dương, trong khi các giá trị y trải dài từ gần 0 đến gần 1. Khi x bằng 0, y là 0,5. Độ dốc của đường cong luôn luôn
          là số dương, có độ dốc cao nhất (0,0,5) và giảm dần
          hệ số góc khi giá trị tuyệt đối của x tăng.

Hàm sigmoid có một số ứng dụng trong học máy, bao gồm:

thước đo độ tương đồng

#clustering

Trong thuật toán nhóm, chỉ số được dùng để xác định mức độ tương đồng (tương tự nhau) của hai ví dụ bất kỳ.

chương trình đơn lẻ / nhiều dữ liệu (SPMD)

Kỹ thuật song song trong đó chạy cùng một phép tính trên nhiều đầu vào dữ liệu song song trên các thiết bị khác nhau. Mục tiêu của SPMD là thu được kết quả nhanh hơn. Đây là kiểu lập trình song song phổ biến nhất.

bất biến khi kích thước

#image

Trong một vấn đề phân loại hình ảnh, khả năng của thuật toán để phân loại thành công hình ảnh ngay cả khi kích thước của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định cho dù nó tiêu thụ 2M pixel hay 200K pixel. Xin lưu ý rằng ngay cả những giá trị tốt nhất các thuật toán phân loại hình ảnh vẫn có những giới hạn thực tế về sự bất biến kích thước. Ví dụ: một thuật toán (hoặc con người) khó có thể phân loại chính xác một hình ảnh con mèo chỉ có 20 pixel.

Xem thêm bất biến theo phép dịchbất biến khi xoay.

phác thảo

#clustering

Trong công nghệ học máy không được giám sát, một danh mục thuật toán thực hiện phân tích sự tương đồng sơ bộ vào các ví dụ. Các thuật toán phác thảo sử dụng hàm băm nhạy cảm với địa phương để xác định các điểm có khả năng tương tự nhau, sau đó nhóm chúng vào nhóm.

Việc phác thảo sẽ làm giảm lượng tính toán cần thiết cho các phép tính tương đồng trên các tập dữ liệu lớn. Thay vì tính toán độ tương đồng cho từng cặp ví dụ trong tập dữ liệu, chúng ta chỉ tính toán độ tương đồng cho từng cặp điểm trong mỗi bộ chứa.

gam bỏ qua

#language

N-gram có thể bỏ qua (hoặc "bỏ qua") các từ khỏi ngữ cảnh gốc, nghĩa là các từ N ban đầu có thể không liền kề nhau. Xem thêm chính xác là "k-skip-n-gram" là n-gram mà trong đó có tối đa k từ có thể có đã bị bỏ qua.

Ví dụ: "con cáo nhanh màu nâu" có thể có 2 gam sau đây:

  • "the quick"
  • "quick brown"
  • " cáo màu nâu"

"1-skip-2-gram" là một cặp từ có tối đa 1 từ ở giữa. Do đó, "con cáo nhanh màu nâu" có 2 gam 1-bỏ qua sau:

  • "màu nâu"
  • "quick fox"

Ngoài ra, tất cả 2 gam cũng là 1 lần bỏ qua 2 gam, vì ít hơn có thể bỏ qua một từ.

Phông chữ bỏ qua rất hữu ích để hiểu thêm ngữ cảnh xung quanh của một từ. Trong ví dụ: "con cáo" được liên kết trực tiếp với "nhanh" trong tập hợp 1-bỏ-2-gam, nhưng không có trong tập hợp 2-gam.

Skip-gram giúp huấn luyện các mô hình nhúng từ.

softmax

#fundamentals

Một hàm xác định xác suất cho mỗi lớp có thể có trong một mô hình phân loại nhiều lớp. Các xác suất cộng lại chính xác là 1.0. Ví dụ: bảng sau đây cho biết cách Softmax phân phối xác suất khác nhau:

Hình ảnh là... Xác suất
chó 0,85
mèo 0,13
con ngựa 0,02

Softmax còn được gọi là softmax đầy đủ.

Tương phản với lấy mẫu ứng viên.

điều chỉnh lời nhắc mềm

#language
#generativeAI

Một kỹ thuật để điều chỉnh mô hình ngôn ngữ lớn cho một tác vụ cụ thể mà không cần điều chỉnh tinh vi tốn nhiều tài nguyên. Thay vì đào tạo lại tất cả weights (trọng số) trong mô hình, điều chỉnh lời nhắc mềm tự động điều chỉnh một lời nhắc để đạt được cùng một mục tiêu.

Với một câu lệnh dạng văn bản, tính năng điều chỉnh câu lệnh mềm thường thêm các phần nhúng mã thông báo bổ sung vào câu lệnh và sử dụng tính năng hồi quy để tối ưu hoá dữ liệu đầu vào.

Một "cứng" chứa mã thông báo thực tế thay vì nhúng mã thông báo.

tính năng thưa

#language
#fundamentals

Một tính năng có giá trị chủ yếu bằng 0 hoặc trống. Ví dụ: một đặc điểm chứa một giá trị 1 và một triệu giá trị 0 là thưa thớt. Ngược lại, tính năng dày đặc có các giá trị chủ yếu không phải là 0 hoặc trống.

Trong học máy, có một số lượng đáng ngạc nhiên các đặc điểm là đặc điểm thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định một cây phong. Hoặc trong số hàng triệu video có thể có trong thư viện video, một ví dụ duy nhất có thể chỉ xác định được "Casablanca".

Trong một mô hình, bạn thường biểu thị các đối tượng thưa thớt bằng mã hoá một nóng. Nếu mã hoá one-hot có kích thước lớn, bạn có thể đặt lớp nhúng lên trên mã hoá one-hot để tăng hiệu quả.

biểu diễn thưa

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa thớt.

Ví dụ: giả sử một đặc điểm phân loại có tên là species xác định 36 loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài.

Bạn có thể sử dụng vectơ một chiều để biểu thị các loài cây trong mỗi ví dụ. Một vectơ một chiều sẽ chứa một 1 (để biểu thị một loài cây cụ thể trong ví dụ đó) và 35 0 (để biểu thị 35 loài cây không trong ví dụ đó). Vì vậy, đại diện phổ biến nhất của maple có thể có dạng như sau:

Vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí
          24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách trình bày thưa thớt sẽ chỉ đơn giản là xác định vị trí của loài cụ thể. Nếu maple ở vị trí 24, thì biểu diễn thưa của maple sẽ đơn giản là:

24

Lưu ý rằng biểu diễn thưa thớt nhỏ gọn hơn nhiều so với biểu diễn một nóng đại diện.

vectơ thưa

#fundamentals

Vectơ có các giá trị gần như bằng 0. Xem thêm thưa thớt tính năngtính tách biệt.

độ thưa

Số phần tử được đặt thành không (hoặc rỗng) trong một vectơ hoặc ma trận chia cho tổng số phần tử trong vectơ hoặc ma trận đó. Ví dụ: hãy xem xét một ma trận gồm 100 phần tử, trong đó 98 ô chứa số 0. Công thức tính độ hụt như sau:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Độ hụt của đối tượng đề cập đến độ thiếu hụt của một vectơ đối tượng; độ giãn của mô hình đề cập đến độ hụt của trọng số mô hình.

tạo nhóm không gian

#image

Xem phần gộp.

phân tách

#df

Trong cây quyết định, một tên khác của tình trạng.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm điều kiện tốt nhất tại mỗi nút.

SPMD

Viết tắt của một chương trình/nhiều dữ liệu.

bình phương tổn thất khớp nối

Bình phương của độ mất bản lề. Hình phạt khi mất bản lề hình vuông những điểm ngoại lai nghiêm trọng hơn sự cố mất bản lề thông thường.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với sự mất mát L2.

đào tạo theo giai đoạn

#language

Một chiến thuật huấn luyện mô hình theo trình tự các giai đoạn riêng biệt. Mục tiêu có thể là đẩy nhanh quá trình huấn luyện hoặc đạt được chất lượng mô hình tốt hơn.

Dưới đây là hình minh hoạ phương pháp xếp chồng tiến bộ:

  • Giai đoạn 1 gồm 3 lớp ẩn, giai đoạn 2 gồm 6 lớp ẩn và giai đoạn 3 chứa 12 lớp ẩn.
  • Giai đoạn 2 bắt đầu tập luyện bằng các trọng số đã học trong 3 lớp ẩn trong Giai đoạn 1. Giai đoạn 3 bắt đầu huấn luyện bằng các trọng số đã học được trong 6 lớp ẩn của Giai đoạn 2.

Ba giai đoạn, được gọi là Giai đoạn 1, Giai đoạn 2 và Giai đoạn 3.
          Mỗi giai đoạn chứa một số lượng lớp khác nhau: Giai đoạn 1 chứa
          3 lớp, Giai đoạn 2 chứa 6 lớp và Giai đoạn 3 chứa 12 lớp.
          3 lớp từ Giai đoạn 1 trở thành 3 lớp đầu tiên của Giai đoạn 2.
          Tương tự, 6 lớp từ Giai đoạn 2 sẽ trở thành 6 lớp đầu tiên của
          Giai đoạn 3.

Xem thêm về quy trình tạo luồng.

tiểu bang

#rl

Trong học tăng cường, các giá trị thông số mô tả cấu hình hiện tại của môi trường mà tác nhân sử dụng để chọn một hành động.

hàm giá trị hành động liên quan đến trạng thái

#rl

Đồng nghĩa với hàm Q.

tĩnh

#fundamentals

Việc nào đó được thực hiện một lần thay vì liên tục. Các thuật ngữ tĩnhngoại tuyến là đồng nghĩa. Sau đây là các cách sử dụng phổ biến của dữ liệu tĩnhngoại tuyến trong học máy:

  • Mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi sử dụng trong một thời gian.
  • huấn luyện tĩnh (hoặc đào tạo ngoại tuyến) là quá trình huấn luyện một mô hình tĩnh.
  • suy luận tĩnh (hoặc suy luận ngoại tuyến) là quá trình một mô hình tạo ra một loạt các dự đoán tại một thời điểm.

Độ tương phản với thuộc tính động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

tính chất không đổi

#fundamentals

Một đặc điểm có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một đặc điểm có các giá trị gần giống nhau trong năm 2021 và năm 2023 cho thấy tính chất không đổi.

Trong thực tế, rất ít đặc điểm thể hiện tính chất không đổi. Ngay cả những đặc điểm đồng nghĩa với sự ổn định (như mực nước biển) cũng thay đổi theo thời gian.

Tương phản với tính không ổn định.

Nhấp vào bước tiếp theo.

Một lượt chuyển tiếp và lượt lùi trong một gói.

Xem phần truyền ngược để biết thêm thông tin về lượt truyền tới và lượt truyền lui.

kích cỡ bước

Từ đồng nghĩa với tỷ lệ học.

phương pháp giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán giảm độ dốc trong đó kích thước lô là một. Nói cách khác, SGD sẽ được huấn luyện dựa trên một ví dụ duy nhất được chọn thống nhất tại ngẫu nhiên từ tập hợp huấn luyện.

sải chân

#image

Trong một phép toán tích chập hoặc hợp nhất, delta trong mỗi phương diện của chuỗi lát cắt đầu vào tiếp theo. Ví dụ: ảnh động sau đây minh hoạ bước (1,1) trong một phép toán tích chập. Do đó, lát cắt đầu vào tiếp theo bắt đầu ở vị trí bên phải lát cắt đầu vào trước đó. Khi thao tác này đạt đến cạnh phải, lát cắt tiếp theo sẽ nằm ở bên trái nhưng thấp hơn một vị trí.

Ma trận đầu vào 5x5 và bộ lọc tích chập 3x3. Vì
     sải chân là (1,1), một bộ lọc tích chập sẽ được áp dụng 9 lần. Đầu tiên
     Lát cắt tích chập đánh giá ma trận con 3x3 trên cùng bên trái của đầu vào
     ma trận. Lát cắt thứ hai đánh giá ma trận con 3x3 ở giữa trên cùng. Lát cắt tích chập thứ ba đánh giá 3x3 ở trên cùng bên phải
     ma trận con.  Lát cắt thứ tư đánh giá ma trận con 3x3 ở giữa bên trái.
     Lát cắt thứ năm đánh giá ma trận con 3x3 ở giữa. Lát cắt thứ sáu đánh giá ma trận con 3x3 ở giữa bên phải. Lát cắt thứ bảy đánh giá ma trận con 3x3 ở dưới cùng bên trái.  Lát thứ tám đánh giá
     ma trận con 3x3 dưới cùng ở giữa. Lát cắt thứ chín đánh giá ma trận con 3x3 ở dưới cùng bên phải.

Ví dụ trước minh hoạ một bước tiến hai chiều. Nếu ma trận đầu vào là ba chiều, thì bước cũng sẽ là ba chiều.

giảm thiểu rủi ro theo cấu trúc (SRM)

Một thuật toán cân bằng hai mục tiêu:

  • Cần xây dựng mô hình dự đoán chính xác nhất (ví dụ: tổn thất thấp nhất).
  • Cần giữ cho mô hình càng đơn giản càng tốt (ví dụ: quy tắc chuẩn hoá mạnh).

Ví dụ: một hàm giảm thiểu tổn thất+điều chỉnh bộ huấn luyện là một thuật toán giảm thiểu rủi ro theo cấu trúc.

Tương phản với giảm thiểu rủi ro theo thực nghiệm.

lấy mẫu phụ

#image

Xem phần gộp.

mã thông báo từ phụ

#language

Trong mô hình ngôn ngữ, một mã thông báo là chuỗi con của một từ, có thể là toàn bộ từ.

Ví dụ: một từ như "phân loại" có thể được chia thành các phần "mục" (từ gốc) và "ize" (một hậu tố), mỗi hậu tố được biểu thị bằng một hậu tố mã thông báo. Việc tách các từ không phổ biến thành các phần như vậy, được gọi là từ phụ, cho phép mô hình ngôn ngữ để hoạt động dựa trên các phần cấu thành phổ biến hơn của từ, chẳng hạn như tiền tố và hậu tố.

Ngược lại, các từ thông dụng như "đi" có thể không bị hỏng và có thể bị được biểu thị bằng một mã thông báo duy nhất.

tóm tắt

#TensorFlow

Trong TensorFlow, một giá trị hoặc tập hợp các giá trị được tính toán tại một bước cụ thể, thường được dùng để theo dõi các chỉ số mô hình trong quá trình huấn luyện.

học máy có giám sát

#fundamentals

Đào tạo một mô hình từ các tính năngnhãn tương ứng. Học máy có giám sát tương tự như việc học một môn học bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng. Sau khi nắm vững mối liên kết giữa câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho các câu hỏi mới (chưa từng thấy) về cùng một chủ đề.

So sánh với công nghệ học máy không giám sát.

tính năng tổng hợp

#fundamentals

Một tính năng không có trong các tính năng đầu vào, nhưng được tập hợp từ một hoặc nhiều tính năng đầu vào. Phương thức tạo các tính năng tổng hợp bao gồm:

  • Sắp xếp một tính năng liên tục vào các thùng phạm vi.
  • Tạo điểm giao nhau của tính năng.
  • Nhân (hoặc chia) một giá trị đặc điểm với (các) giá trị đặc điểm khác hoặc với chính giá trị đó. Ví dụ: nếu ab là các tính năng nhập, thì hàm sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng hàm siêu việt cho một giá trị đặc điểm. Ví dụ: nếu c là một đặc điểm đầu vào, thì sau đây là ví dụ về các đặc điểm tổng hợp:
    • sin(c)
    • ln(c)

Các tính năng được tạo bằng cách chuẩn hoá hoặc điều chỉnh theo tỷ lệ thì chúng không được coi là tính năng tổng hợp.

T

T5

#language

Mô hình học chuyển đổi văn bản sang văn bản do AI của Google ra mắt vào năm 2020. T5 là mô hình bộ mã hoá-bộ giải mã, dựa trên Kiến trúc Transformer, được huấn luyện trên một môi trường cực kỳ lớn tập dữ liệu. Công nghệ này hiệu quả trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên, chẳng hạn như tạo văn bản, dịch ngôn ngữ và trả lời câu hỏi theo cách trò chuyện.

T5 lấy tên từ 5 chữ T trong "Bộ chuyển đổi chuyển văn bản sang văn bản".

T5X

#language

Khung học máy nguồn mở được thiết kế để xây dựng và huấn luyện các mô hình xử lý ngôn ngữ tự nhiên (NLP) trên quy mô lớn. T5 được triển khai trên cơ sở mã T5X (được xây dựng trên JAXFlax).

học Q dạng bảng

#rl

Trong quá trình học tăng cường, việc triển khai Hỏi đáp bằng cách sử dụng một bảng để lưu trữ hàm Q cho mọi tổ hợp trạng tháihành động.

mục tiêu

Từ đồng nghĩa với nhãn.

mạng mục tiêu

#rl

Trong Học hỏi chuyên sâu, một mạng nơron ổn định mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q do mạng mục tiêu dự đoán. Do đó, bạn nên ngăn chặn vòng lặp phản hồi xảy ra khi sẽ tự huấn luyện dựa trên giá trị Q. Bằng cách tránh những phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.

tác vụ

Một vấn đề có thể giải quyết bằng các kỹ thuật học máy, chẳng hạn như:

nhiệt độ

#language
#image
#generativeAI

Thông số siêu tham số kiểm soát mức độ ngẫu nhiên của đầu ra của mô hình. Nhiệt độ cao hơn dẫn đến đầu ra ngẫu nhiên hơn, còn nhiệt độ thấp hơn sẽ dẫn đến đầu ra ít ngẫu nhiên hơn.

Việc chọn nhiệt độ tốt nhất phụ thuộc vào ứng dụng cụ thể và các thuộc tính ưu tiên của đầu ra của mô hình. Ví dụ: bạn nên có thể sẽ tăng nhiệt độ khi tạo một ứng dụng tạo ra đầu ra mẫu quảng cáo. Ngược lại, bạn có thể giảm nhiệt độ khi xây dựng mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và tính nhất quán của mô hình.

Nhiệt độ thường được sử dụng với softmax.

dữ liệu tạm thời

Dữ liệu được ghi lại tại nhiều thời điểm. Ví dụ: doanh số bán áo khoác mùa đông được ghi lại cho mỗi ngày trong năm sẽ là dữ liệu theo thời gian.

Tensor

#TensorFlow

Cấu trúc dữ liệu chính trong các chương trình TensorFlow. Tensor là các cấu trúc dữ liệu N chiều (trong đó N có thể rất lớn), thường là các đại lượng vô hướng, vectơ hoặc ma trận. Các phần tử của Tensor có thể chứa số nguyên, dấu phẩy động, hoặc các giá trị chuỗi.

TensorBoard

#TensorFlow

Trang tổng quan hiển thị bản tóm tắt được lưu trong quá trình thực thi một hoặc nhiều chương trình TensorFlow.

TensorFlow

#TensorFlow

Một nền tảng học máy được phân phối trên quy mô lớn. Thuật ngữ này cũng đề cập đến lớp API cơ sở trong ngăn xếp TensorFlow, hỗ trợ tính toán chung trên biểu đồ luồng dữ liệu.

Mặc dù TensorFlow chủ yếu được dùng cho công nghệ học máy, nhưng bạn cũng có thể sử dụng TensorFlow cho các tác vụ không phải công nghệ học máy cần tính toán số học bằng cách sử dụng biểu đồ luồng dữ liệu.

Sân chơi TensorFlow

#TensorFlow

Một chương trình trực quan hoá cách mô hình ảnh hưởng hyperparameters (chủ yếu là mạng nơron). Chuyển đến http://playground.tensorflow.org để thử nghiệm với TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Một nền tảng để triển khai các mô hình đã huấn luyện trong thực tế.

Bộ xử lý tensor (TPU)

#TensorFlow
#GoogleCloud

Một mạch tích hợp dành riêng cho ứng dụng (ASIC) giúp tối ưu hoá hiệu suất của các khối lượng công việc trong học máy. Các ASIC này được triển khai dưới dạng nhiều chip TPU trên một thiết bị TPU.

hạng Tensor

#TensorFlow

Hãy xem thứ hạng (Tensor).

Hình dạng tensor

#TensorFlow

Số lượng phần tử trong một Tensor theo nhiều phương diện. Ví dụ: Tensor [5, 10] có hình dạng gồm 5 chiều một chiều và 10 chiều trong một thiết bị khác.

Kích thước Tensor

#TensorFlow

Tổng số đại lượng vô hướng mà một Tensor chứa. Ví dụ: Tensor [5, 10] có kích thước là 50.

TensorStore

Thư viện giúp bạn đọc và ghi các mảng đa chiều lớn.

điều kiện chấm dứt

#rl

Trong học tăng cường, các điều kiện xác định thời điểm kết thúc một tập, chẳng hạn như khi nhân viên hỗ trợ đến một trạng thái nhất định hoặc vượt quá số ngưỡng chuyển đổi trạng thái. Ví dụ: trong tic-tac-toe (cũng là còn gọi là truy xuất và chéo), một tập kết thúc khi người chơi đánh dấu ba dấu cách liên tiếp hoặc khi tất cả các dấu cách đều được đánh dấu.

thử nghiệm

#df

Trong cây quyết định, tên khác của điều kiện.

tổn thất kiểm thử

#fundamentals

Chỉ số thể hiện sự sụt giảm của một mô hình so với tập kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất thử nghiệm. Đó là do tổn thất kiểm thử thấp là một tín hiệu chất lượng mạnh hơn so với tổn thất huấn luyện hoặc tổn thất xác thực thấp.

Đôi khi, khoảng cách lớn giữa tổn thất kiểm thử và tổn thất huấn luyện hoặc tổn thất xác thực cho thấy rằng bạn cần tăng tỷ lệ chuẩn hoá.

tập kiểm tra

Một tập hợp con của tập dữ liệu được dành riêng để kiểm thử một mô hình đã huấn luyện.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành ba nhóm sau các tập hợp con riêng biệt:

Mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc cả tập hợp huấn luyện và tập hợp kiểm thử.

Tập huấn luyện và tập xác thực đều liên quan chặt chẽ đến việc huấn luyện mô hình. Vì tập kiểm thử chỉ liên kết gián tiếp với quá trình huấn luyện, nên mất mát kiểm thử là một chỉ số chất lượng cao hơn, ít thiên vị hơn so với mất mát huấn luyện hoặc mất mát xác thực.

span văn bản

#language

Khoảng chỉ mục của mảng được liên kết với một phần phụ cụ thể của chuỗi văn bản. Ví dụ: từ good trong chuỗi Python s="Be good now" chiếm giữ văn bản kéo dài từ 3 đến 6.

tf.Example

#TensorFlow

Một tiêu chuẩn vùng đệm giao thức để mô tả dữ liệu đầu vào cho việc huấn luyện mô hình học máy hoặc suy luận.

tf.keras

#TensorFlow

Cách triển khai Keras được tích hợp vào TensorFlow.

ngưỡng (cho cây quyết định)

#df

Trong điều kiện căn chỉnh theo trục, giá trị mà một tính năng đang được so sánh. Ví dụ: 75 là ngưỡng trong điều kiện sau:

grade >= 75

phân tích chuỗi thời gian

#clustering

Một trường phụ của công nghệ học máy và số liệu thống kê giúp phân tích dữ liệu thời gian. Nhiều loại vấn đề về học máy yêu cầu phân tích chuỗi thời gian, bao gồm cả việc phân loại, phân cụm, dự đoán và phát hiện sự bất thường. Ví dụ: bạn có thể sử dụng phân tích chuỗi thời gian để dự báo doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

bước thời gian

#seq

Một ảnh "chưa cuộn" ô trong một mạng nơron định kỳ. Ví dụ: hình sau đây thể hiện 3 bước thời gian (được gắn nhãn bằng các chỉ số dưới t-1, t và t+1):

3 bước thời gian trong mạng nơron lặp lại. Đầu ra của bước thời gian đầu tiên sẽ trở thành đầu vào cho bước thời gian thứ hai. Đầu ra của bước thời gian thứ hai trở thành đầu vào cho bước thời gian thứ ba.

mã thông báo

#language

Trong mô hình ngôn ngữ, đơn vị nguyên tử mà mô hình đang đào tạo và đưa ra dự đoán. Mã thông báo thường là một trong những sau:

  • một từ – ví dụ: cụm từ "chó thích mèo" bao gồm 3 mã thông báo từ: "chó", "thích" và "mèo".
  • một ký tự – ví dụ: cụm từ "cá xe đạp" bao gồm 9 mã ký tự. (Xin lưu ý rằng khoảng trống được tính là một trong các mã thông báo.)
  • từ phụ—trong đó một từ có thể là một mã thông báo hoặc nhiều mã thông báo. Từ phụ bao gồm từ gốc, tiền tố hoặc hậu tố. Ví dụ: mô hình ngôn ngữ sử dụng từ phụ làm mã thông báo có thể xem từ "dogs" (chó) là hai mã thông báo (từ gốc "dog" (chó) và hậu tố số nhiều "s"). Cùng một mô hình ngôn ngữ đó có thể xem từ "cao hơn" là hai từ phụ (từ gốc "cao" và hậu tố "hơn").

Trong các miền nằm ngoài mô hình ngôn ngữ, mã thông báo có thể đại diện cho các loại đơn vị nguyên tử. Ví dụ: trong thị giác máy tính, mã thông báo có thể là một tập hợp con của một hình ảnh.

tower

Một thành phần của mạng nơron sâu một mạng nơron sâu. Trong một số trường hợp, mỗi tháp đọc từ một nguồn dữ liệu độc lập và các tháp đó vẫn độc lập cho đến khi đầu ra của chúng được kết hợp trong một lớp cuối cùng. Trong các trường hợp khác (ví dụ: trong tháp mã hoágiải mã của nhiều Biến áp), các tháp có kết nối chéo với nhau.

TPU

#TensorFlow
#GoogleCloud

Từ viết tắt của Bộ xử lý cảm biến.

chip TPU

#TensorFlow
#GoogleCloud

Một bộ tăng tốc đại số tuyến tính có thể lập trình với bộ nhớ băng thông cao trên chip được tối ưu hoá cho khối lượng công việc học máy. Nhiều khối TPU được triển khai trên một thiết bị TPU.

Thiết bị TPU

#TensorFlow
#GoogleCloud

Một bảng mạch in (PCB) có nhiều chip TPU, giao diện mạng băng thông cao và phần cứng làm mát hệ thống.

Bậc thầy TPU

#TensorFlow
#GoogleCloud

Quy trình điều phối trung tâm chạy trên máy chủ gửi và nhận dữ liệu, kết quả, chương trình, hiệu suất và thông tin về tình trạng hệ thống cho worker TPU. TPU chính cũng quản lý quá trình thiết lập và ngừng cung cấp các thiết bị TPU.

Nút TPU

#TensorFlow
#GoogleCloud

Một tài nguyên TPU trên Google Cloud với một Loại TPU. Nút TPU kết nối với Mạng VPC của bạn từ một mạng VPC ngang hàng. Nút TPU là một tài nguyên được xác định trong API Cloud TPU.

Vỏ TPU

#TensorFlow
#GoogleCloud

Một cấu hình cụ thể của thiết bị TPU trong một ứng dụng Google trung tâm dữ liệu. Tất cả các thiết bị trong một Nhóm TPU đều được kết nối với nhau qua mạng chuyên dụng tốc độ cao. Vùng chứa TPU là cấu hình lớn nhất của thiết bị TPU có sẵn cho một phiên bản TPU cụ thể.

Tài nguyên TPU

#TensorFlow
#GoogleCloud

Một thực thể TPU trên Google Cloud mà bạn tạo, quản lý hoặc sử dụng. Ví dụ: các nút TPUcác loại TPU là tài nguyên TPU.

Lát TPU

#TensorFlow
#GoogleCloud

Lát cắt TPU là một phần nhỏ của thiết bị TPU trong một Vùng chứa TPU. Tất cả thiết bị trong một lát cắt TPU đã được kết nối với nhau qua mạng tốc độ cao chuyên dụng.

Loại TPU

#TensorFlow
#GoogleCloud

Cấu hình của một hoặc nhiều thiết bị TPU với một phiên bản phần cứng TPU cụ thể. Bạn chọn một loại TPU khi tạo nút TPU trên Google Cloud. Ví dụ: v2-8 Loại TPU là thiết bị TPU phiên bản 2 đơn lẻ có 8 nhân. Loại TPU v3-2048 có 256 thiết bị TPU v3 nối mạng và tổng cộng 2048 lõi. Các loại TPU là một tài nguyên được xác định trong API Cloud TPU.

Worker TPU

#TensorFlow
#GoogleCloud

Một quy trình chạy trên máy chủ và thực thi các chương trình học máy trên thiết bị TPU.

đào tạo

#fundamentals

Quá trình xác định các thông số lý tưởng (trọng số và độ lệch) bao gồm một mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ và dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

tổn thất trong quá trình huấn luyện

#fundamentals

Một chỉ số thể hiện mất mát của mô hình trong một vòng lặp huấn luyện cụ thể. Ví dụ: giả sử hàm mất mát là Sai số bình phương trung bình. Có thể là lượng mất mát trong quá trình đào tạo (chỉ số Trung bình Squared Error) cho lần lặp thứ 10 là 2.2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1.9.

Đường cong tổn thất biểu thị tổn thất trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về việc huấn luyện:

  • Độ dốc hướng xuống cho biết mô hình đang cải thiện.
  • Độ dốc lên trên cho thấy mô hình đang trở nên tệ hơn.
  • Độ dốc phẳng ngụ ý rằng mô hình đã đạt đến trạng thái hội tụ.

Ví dụ: đường cong tổn thất được lý tưởng hoá đôi chút sau đây cho thấy:

  • Đường dốc đi xuống trong vòng lặp ban đầu, ngụ ý rằng cải tiến mô hình nhanh chóng.
  • Độ dốc dần dần phẳng hơn (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này ngụ ý việc tiếp tục cải thiện mô hình ở tốc độ chậm hơn một chút so với trong các lần lặp lại ban đầu.
  • Độ dốc phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ về tổn thất huấn luyện so với số lần lặp lại. Đường cong mức tổn thất này bắt đầu
     có độ dốc đứng xuống. Đường dốc phẳng dần cho đến khi
     hệ số góc trở thành 0.

Mặc dù thời gian huấn luyện mất nhiều thời gian tập luyện là rất quan trọng, hãy xem thêm tổng quát hoá.

lệch hướng phân phát huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của mô hình trong khoảng thời gian huấn luyện và hiệu suất của cùng mô hình đó trong khoảng thời gian phân phát.

tập huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu dùng để huấn luyện mô hình.

Thông thường, các ví dụ trong tập dữ liệu được chia thành 3 nhóm các tập hợp con riêng biệt:

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không được thuộc cả tập huấn luyện và tập xác thực.

quỹ đạo

#rl

Trong học tăng cường, một trình tự các bộ dữ liệu đại diện cho một trình tự chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, hành động, phần thưởng và trạng thái tiếp theo cho một quá trình chuyển đổi trạng thái nhất định.

học chuyển giao

Chuyển thông tin từ một tác vụ học máy sang tác vụ khác. Ví dụ: trong phương pháp học đa nhiệm, một mô hình duy nhất giải quyết nhiều nhiệm vụ, chẳng hạn như mô hình sâu có các nút đầu ra khác nhau cho các nhiệm vụ khác nhau. Học tập có thể bao gồm việc truyền tải kiến thức từ giải pháp của một nhiệm vụ đơn giản sang nhiệm vụ phức tạp hơn, hoặc liên quan đến chuyển kiến thức từ một nhiệm vụ có nhiều dữ liệu sang nhiệm vụ ở nơi có ít dữ liệu hơn.

Hầu hết các hệ thống học máy đều giải quyết một tác vụ duy nhất. Học tập chuyển giao là bước tới trí tuệ nhân tạo mà một chương trình duy nhất có thể giải quyết nhiều nhiệm vụ.

Biến áp

#language

Kiến trúc mạng nơron được phát triển tại Google dựa vào cơ chế tự chú ý để chuyển đổi một trình tự nhúng đầu vào thành một trình tự nhúng đầu ra mà không cần dựa vào lớp phủ hoặc mạng nơron tái sinh. Bộ chuyển đổi có thể là được xem dưới dạng một ngăn xếp gồm các lớp tự chú ý.

Bộ chuyển đổi có thể bao gồm bất kỳ phần tử nào sau đây:

Bộ mã hoá biến đổi một chuỗi các mục nhúng thành một chuỗi mới của cùng độ dài. Bộ mã hoá bao gồm N lớp giống hệt nhau, mỗi lớp chứa hai lớp phụ. Hai lớp phụ này được áp dụng tại mỗi vị trí của trình tự nhúng đầu vào, biến đổi từng phần tử của trình tự thành một phần nhúng mới. Lớp con bộ mã hoá đầu tiên tổng hợp thông tin từ toàn bộ trình tự đầu vào. Lớp con bộ mã hoá thứ hai chuyển đổi thông tin tổng hợp thành một phần nhúng đầu ra.

Bộ giải mã biến đổi một chuỗi các mục nhúng đầu vào thành một chuỗi các nhúng đầu ra, có thể có độ dài khác. Bộ giải mã cũng bao gồm N lớp giống hệt nhau với 3 lớp con, trong đó 2 lớp con tương tự như các lớp con của bộ mã hoá. Lớp con của bộ giải mã thứ ba lấy đầu ra của bộ mã hoá và áp dụng cơ chế tự chú ý cho thu thập thông tin từ đó.

Bài đăng trên blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer: Cấu trúc mạng nơron mới để hiểu ngôn ngữ) cung cấp thông tin giới thiệu hữu ích về Transformer.

bất biến dịch

#image

Trong một bài toán phân loại hình ảnh, khả năng thuật toán thành công phân loại hình ảnh ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một chú chó, cho dù nó nằm trong giữa khung hoặc ở cuối bên trái khung.

Hãy xem thêm về trường hợp bất biến kích thướcbất biến xoay.

hình bát giác

#seq
#language

N-gram trong đó N=3.

âm tính thật (TN)

#fundamentals

Ví dụ về trường hợp mô hình đã dự đoán chính xác lớp âm tính. Ví dụ: mô hình suy luận rằng một nội dung email cụ thể không phải là thư rác và nội dung email đó thực sự là không phải thư rác.

dương tính thật (TP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán chính xác lớp học tích cực. Ví dụ: mô hình suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

Từ đồng nghĩa với gợi nhắc. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương tính thật là trục y trong đường cong ROC.

U

không nhận biết (thuộc tính nhạy cảm)

#fairness

Tình huống trong đó các thuộc tính nhạy cảm xuất hiện nhưng không có trong dữ liệu huấn luyện. Bởi vì thuộc tính nhạy cảm thường tương quan với các thuộc tính khác của dữ liệu, một mô hình được huấn luyện nếu không nhận ra một thuộc tính nhạy cảm vẫn có thể tác động khác nhau đối với thuộc tính đó, hoặc vi phạm các giới hạn khác về tính công bằng.

thiếu vải

#fundamentals

Tạo mô hình có khả năng dự đoán kém vì mô hình đó chưa thể hiện hết mức độ phức tạp của dữ liệu huấn luyện. Nhiều bài toán có thể gây ra tình trạng thiếu cân, bao gồm:

lấy mẫu thiếu

Xoá ví dụ khỏi lớp đại đa số trong một tập dữ liệu không cân bằng về lớp để tạo một tập huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét một tập dữ liệu trong đó tỷ lệ giữa lớp đa số so với lớp tối thiểu là 20:1. Để khắc phục sự mất cân bằng lớp này, bạn có thể tạo một tập huấn luyện bao gồm tất cả ví dụ về lớp thiểu số nhưng chỉ một phần mười ví dụ về lớp đa số, điều này sẽ tạo ra tỷ lệ lớp tập huấn luyện là 2:1. Nhờ giảm tần suất lấy mẫu, tập luyện cân bằng có thể tạo ra mô hình tốt hơn. Ngoài ra, có thể không có đủ ví dụ để huấn luyện một nhóm các bài tập cân bằng hơn mô hình hiệu quả.

Tương phản với trường hợp lấy mẫu quá mức.

một chiều

#language

Hệ thống chỉ đánh giá văn bản trước phần văn bản đích. Ngược lại, hệ thống hai chiều đánh giá cả văn bản trướcsau phần văn bản mục tiêu. Xem nội dung hai chiều để biết thêm thông tin.

mô hình ngôn ngữ một chiều

#language

Mô hình ngôn ngữ chỉ dựa vào xác suất mã thông báo xuất hiện trước, không phải sau(các) mã thông báo mục tiêu. Tương phản với mô hình ngôn ngữ hai chiều.

ví dụ chưa gắn nhãn

#fundamentals

Ví dụ chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây hiển thị ba ví dụ chưa gắn nhãn của một ngôi nhà mô hình định giá, mỗi mô hình có ba tính năng nhưng không có giá trị nội dung:

Số lượng phòng ngủ Số lượng phòng tắm Tuổi nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, các mô hình được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán dựa trên các ví dụ không được gắn nhãn.

Trong chế độ bán giám sát và học tập không có sự giám sát, các ví dụ chưa gắn nhãn được sử dụng trong quá trình huấn luyện.

So sánh ví dụ không có nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering
#fundamentals

Huấn luyện một mô hình để tìm các mẫu trong một tập dữ liệu, thường là tập dữ liệu chưa gắn nhãn.

Việc sử dụng công nghệ học máy không giám sát phổ biến nhất là dữ liệu cụm thành các nhóm ví dụ tương tự nhau. Ví dụ: thuật toán học máy không giám sát có thể phân cụm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Việc phân cụm có thể giúp ích khi bạn không có hoặc có nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.

lập mô hình mức tăng

Một kỹ thuật lập mô hình, thường được dùng trong hoạt động tiếp thị, mô hình hoá "hiệu ứng nhân quả" (còn gọi là "tác động gia tăng") của "phương pháp điều trị" đối với "cá nhân". Dưới đây là hai ví dụ:

  • Bác sĩ có thể sử dụng mô hình mức tăng để dự đoán mức giảm tỷ lệ tử vong (hiệu ứng nhân quả) của một quy trình y tế (phương pháp điều trị) tuỳ thuộc vào độ tuổi và tiền sử bệnh tật của một bệnh nhân (cá nhân).
  • Nhà tiếp thị có thể sử dụng quy trình lập mô hình mức tăng để dự đoán mức tăng trong xác suất mua hàng (hiệu ứng nhân quả) do quảng cáo (thử nghiệm) trên một người (cá nhân).

Quy trình lập mô hình về mức tăng khác với việc phân loại hoặc hồi quy trong đó một số nhãn (ví dụ: nhãn trong các nhóm thử nghiệm nhị phân) luôn bị thiếu trong mô hình mức tăng. Ví dụ: bệnh nhân có thể được hoặc không được điều trị; do đó, chúng tôi chỉ có thể quan sát xem liệu bệnh nhân sẽ khỏi hay không chữa lành chỉ bằng một trong hai tình huống này (nhưng không bao giờ chữa lành cả hai). Ưu điểm chính của mô hình mức tăng là có thể tạo ra thông tin dự đoán cho tình huống không quan sát được (phản thực tế) và sử dụng nó để tính toán hiệu ứng nhân quả.

tăng trọng số

Áp dụng trọng số cho lớp downsampled bằng nhau với hệ số mà bạn đã lấy mẫu bớt.

ma trận người dùng

#recsystems

Trong hệ thống đề xuất, vectơ nhúng do phân tích ma trận tạo ra chứa các tín hiệu tiềm ẩn về lựa chọn ưu tiên của người dùng. Mỗi hàng của ma trận người dùng chứa thông tin về cường độ tương đối của nhiều tín hiệu tiềm ẩn cho một người dùng. Ví dụ: hãy xem xét một hệ thống đề xuất phim. Trong hệ thống này, các tín hiệu tiềm ẩn trong ma trận người dùng có thể thể hiện mối quan tâm của từng người dùng đối với các thể loại cụ thể, hoặc có thể là các tín hiệu khó diễn giải hơn liên quan đến các hoạt động tương tác phức tạp trên nhiều yếu tố.

Ma trận người dùng có một cột cho mỗi đặc điểm tiềm ẩn và một hàng cho mỗi người dùng. Tức là ma trận người dùng có cùng số hàng với ma trận mục tiêu đang được phân tích. Ví dụ: với một hệ thống đề xuất phim cho 1.000.000 người dùng, ma trận người dùng sẽ có 1.000.000 hàng.

V

xác thực

#fundamentals

Kết quả đánh giá ban đầu về chất lượng của một mô hình. Quy trình xác thực kiểm tra chất lượng của kết quả dự đoán của mô hình dựa trên tập hợp dữ liệu xác thực.

Do bộ xác thực khác với nhóm huấn luyện, quy trình xác thực giúp bảo vệ chống lại tình trạng trang bị quá mức.

Bạn có thể coi việc đánh giá mô hình so với tập hợp xác thực là vòng đầu tiên để thử nghiệm và đánh giá mô hình dựa trên kiểm thử set làm vòng kiểm thử thứ hai.

tổn thất xác thực

#fundamentals

Một chỉ số thể hiện mất mát của mô hình trên tập dữ liệu xác thực trong một lặp lại cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát.

tập xác thực

#fundamentals

Tập hợp con của dữ liệu thực hiện đánh giá ban đầu dựa trên một mô hình đã huấn luyện. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên tập dữ liệu xác thực nhiều lần trước khi đánh giá mô hình dựa trên tập dữ liệu kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành ba nhóm sau các tập hợp con riêng biệt:

Lý tưởng nhất là mỗi ví dụ trong tập dữ liệu chỉ thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập xác thực.

tính toán giá trị

Quá trình thay thế giá trị bị thiếu bằng giá trị thay thế được chấp nhận. Khi thiếu một giá trị, bạn có thể loại bỏ toàn bộ ví dụ hoặc bạn có thể sử dụng việc áp dụng giá trị để khôi phục ví dụ.

Ví dụ: hãy xem xét một tập dữ liệu chứa một đối tượng temperature phải được ghi lại mỗi giờ. Tuy nhiên, chỉ số nhiệt độ không khả dụng trong một giờ cụ thể. Dưới đây là một phần của tập dữ liệu:

Dấu thời gian Nhiệt độ
1680561000 10
1680564600 12
1680568200 bị thiếu
1680571800 20
1680575400 21
1680579000 21

Hệ thống có thể xoá ví dụ bị thiếu hoặc áp dụng ví dụ bị thiếu nhiệt độ thông thường là 12, 16, 18 hoặc 20, tùy thuộc vào thuật toán áp dụng.

vấn đề về độ dốc biến mất

#seq

Xu hướng của độ dốc của các lớp ẩn ban đầu của một số mạng nơron sâu để trở thành bằng phẳng một cách đáng ngạc nhiên (thấp). Độ dốc ngày càng thấp dẫn đến các thay đổi ngày càng nhỏ đối với trọng số trên các nút trong mạng nơron sâu, dẫn đến việc học ít hoặc không học được. Các mô hình gặp phải vấn đề về độ dốc biến mất sẽ khó hoặc không thể huấn luyện. Các ô Bộ nhớ ngắn hạn dài sẽ giải quyết vấn đề này.

So sánh với vấn đề chuyển màu bùng nổ.

mức độ quan trọng của biến

#df

Một tập hợp điểm số cho biết tầm quan trọng tương đối của từng chỉ số feature đối với mô hình.

Ví dụ: hãy xem xét một cây quyết định giúp ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 tính năng: kích thước, độ tuổi và kiểu dáng. Nếu một tập hợp các mức độ quan trọng của biến cho 3 đặc điểm được tính là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu dáng.

Tồn tại nhiều chỉ số tầm quan trọng khác nhau, điều này có thể cung cấp thông tin Các chuyên gia học máy về các khía cạnh khác nhau của mô hình.

bộ tự động mã hoá biến thiên (VAE)

#language

Một loại tự động mã hoá tận dụng sự khác biệt giữa dữ liệu đầu vào và đầu ra để tạo các phiên bản sửa đổi của dữ liệu đầu vào. Bộ tự động mã hoá biến thể rất hữu ích cho AI tạo sinh.

VAE dựa trên suy luận biến thiên: một kỹ thuật để ước tính các tham số của mô hình xác suất.

vectơ

Thuật ngữ rất quá tải có ý nghĩa khác nhau trong các toán học khác nhau và lĩnh vực khoa học. Trong công nghệ học máy, vectơ có hai thuộc tính:

  • Loại dữ liệu: Các vectơ trong học máy thường chứa số dấu phẩy động.
  • Số phần tử: Đây là độ dài của vectơ hoặc phương diện của vectơ.

Ví dụ: hãy xem xét một vectơ đối tượng chứa 8 dấu phẩy động. Vectơ đối tượng này có độ dài hoặc kích thước là 8. Xin lưu ý rằng các vectơ học máy thường có rất nhiều phương diện.

Bạn có thể biểu diễn nhiều loại thông tin khác nhau dưới dạng vectơ. Ví dụ:

  • Bất kỳ vị trí nào trên bề mặt Trái Đất đều có thể được biểu diễn dưới dạng không gian 2 chiều vectơ, trong đó một chiều là vĩ độ và chiều còn lại là kinh độ.
  • Giá hiện tại của mỗi cổ phiếu trong số 500 cổ phiếu có thể được trình bày dưới dạng Vectơ 500 chiều.
  • Có thể biểu diễn hàm phân phối xác suất qua một số lượng lớp hữu hạn dưới dạng vectơ. Ví dụ: hệ thống phân loại nhiều lớp dự đoán một trong ba màu đầu ra (đỏ, xanh lục hoặc vàng) có thể xuất ra vectơ (0.3, 0.2, 0.5) có nghĩa là P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Các vectơ có thể được nối với nhau; do đó, nhiều nội dung đa phương tiện có thể được biểu thị dưới dạng một vectơ duy nhất. Một số mô hình hoạt động trực tiếp trên việc nối nhiều mã hoá one-hot.

Các bộ xử lý chuyên dụng như TPU được tối ưu hoá để thực hiện các phép toán trên vectơ.

Vectơ là một tensorhạng 1.

W

Hàm tổn thất Wasserstein

Một trong những hàm tổn thất thường được dùng trong mạng đối kháng tạo sinh, dựa trên khoảng cách của máy di chuyển đất giữa việc phân phối dữ liệu được tạo và dữ liệu thực.

cân nặng

#fundamentals

Giá trị mà một mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; suy luận là quá trình sử dụng các trọng số đã học được để đưa ra dự đoán.

Phương pháp bình phương tối thiểu luân phiên có trọng số (WALS)

#recsystems

Một thuật toán để giảm thiểu hàm mục tiêu trong quá trình phân tích ma trận trong hệ thống đề xuất, cho phép giảm trọng số của các ví dụ bị thiếu. WALS giúp giảm thiểu trọng số sai số bình phương giữa ma trận ban đầu và quá trình tái tạo bằng cách xen kẽ giữa sửa lỗi phân tích hàng và phân tích cột. Bạn có thể giải quyết từng phương pháp tối ưu hoá này bằng tối ưu hoá lồi theo phương pháp bình phương nhỏ nhất. Để biết thông tin chi tiết, hãy xem khoá học Hệ thống đề xuất.

tổng trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với trọng số tương ứng. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị đầu vào trọng số đầu vào
2 -1,3
-1 0,6
3 0,4

Do đó, tổng trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một giá trị tổng chức năng kích hoạt.

mô hình rộng

Mô hình tuyến tính thường có nhiều tính năng nhập dữ liệu thưa thớt. Chúng tôi gọi đó là "rộng" vì mô hình như vậy là một loại mạng nơron đặc biệt với một số lượng lớn đầu vào kết nối trực tiếp với nút đầu ra. Kiểu rộng thường dễ gỡ lỗi và kiểm tra hơn so với mô hình sâu. Mặc dù các mô hình rộng không thể biểu thị tính phi tuyến tính thông qua lớp ẩn, có thể sử dụng các phép biến đổi như chuyển tính năngphân giỏ để lập mô hình phi tuyến tính theo nhiều cách.

Tương phản với mô hình sâu.

chiều rộng

Số lượng nơ-ron trong một lớp cụ thể của một mạng nơron.

của đám đông

#df

Ý tưởng về việc lấy trung bình các ý kiến hoặc ước tính của một nhóm lớn người ("đám đông") thường mang lại kết quả tốt đến bất ngờ. Ví dụ: hãy xem xét một trò chơi mà mọi người đoán số lượng đậu phộng được đóng gói vào một lọ lớn. Mặc dù hầu hết các dự đoán riêng lẻ sẽ không chính xác, nhưng trung bình của tất cả các dự đoán đã được chứng minh bằng kinh nghiệm là gần với số lượng đậu phộng thực tế trong lọ.

Ensembles là một phần mềm tương tự như trí tuệ của đám đông. Ngay cả khi từng mô hình đưa ra những dự đoán hết sức chính xác, việc lấy trung bình dự đoán của nhiều mô hình thường tạo ra các kết quả đáng ngạc nhiên các dự đoán phù hợp. Ví dụ, mặc dù một cá nhân cây quyết định có thể đưa ra các dự đoán kém hiệu quả, rừng quyết định thường đưa ra các dự đoán rất chính xác.

nhúng từ

#language

Trình bày từng từ trong một nhóm từ trong một vectơ nhúng; tức là đại diện cho mỗi từ như vectơ của các giá trị dấu phẩy động nằm trong khoảng từ 0,0 đến 1,0. Các từ có từ tương tự có nhiều cách diễn đạt giống với những từ có nghĩa khác. Ví dụ: cà rốt, cần tâydưa chuột sẽ có tương đối các cách biểu diễn tương tự nhau, sẽ rất khác so với các cách biểu diễn máy bay, kính râmkem đánh răng.

X

XLA (Đại số tuyến tính tăng tốc)

Trình biên dịch học máy nguồn mở cho GPU, CPU và trình tăng tốc học máy.

Trình biên dịch XLA sử dụng mô hình từ các khung máy học phổ biến như PyTorch, TensorFlowJAX rồi tối ưu hoá chúng để thực thi hiệu suất cao trên nhiều nền tảng phần cứng, bao gồm GPU, CPU và trình tăng tốc học máy.

Z

học tập trung thực

Một loại huấn luyện học máy, trong đó mô hình suy luận một dự đoán cho một nhiệm vụ mà mô hình chưa được huấn luyện cụ thể. Nói cách khác, mô hình không được cung cấp ví dụ huấn luyện theo nhiệm vụ cụ thể nhưng được hỏi để suy luận cho tác vụ đó.

nhắc thủ công

#language
#generativeAI

Lệnh gọi không cung cấp ví dụ về cách bạn muốn mô hình ngôn ngữ lớn phản hồi. Ví dụ:

Các phần của một câu lệnh Ghi chú
Đơn vị tiền tệ chính thức của quốc gia đã chỉ định là gì? Câu hỏi mà bạn muốn LLM trả lời.
Ấn Độ: Cụm từ tìm kiếm thực tế.

Mô hình ngôn ngữ lớn có thể phản hồi với bất kỳ yêu cầu nào sau đây:

  • Rupee
  • INR
  • Đồng rupi Ấn Độ
  • Rupee
  • Đồng rupi Ấn Độ

Tất cả các câu trả lời đều đúng, mặc dù bạn có thể thích một định dạng cụ thể.

So sánh và đối chiếu lời nhắc chụp ảnh 0 chính với các cụm từ sau:

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh tỷ lệ thay thế dữ liệu thô Giá trị feature với một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đối tượng đó. Ví dụ: hãy xem xét một đặc điểm có giá trị trung bình là 800 và độ lệch chuẩn là 100. Bảng sau đây trình bày cách chuẩn hoá điểm Z sẽ ánh xạ giá trị thô với điểm Z của nó:

Giá trị thô Điểm Z
800 0
950 +1,5
575 -2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm số Z cho tính năng đó thay vì trên các giá trị thô.