✨Mô hình túi từ

Mô hình túi từ

Mô hình túi từ (bag-of-words) là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngôn ngữ tự nhiên và truy vấn thông tin (IR). Trong mô hình này, một văn bản (chẳng hạn như một câu hoặc một tài liệu) được thể hiện dưới dạng túi (multiset) chứa các từ của nó, không quan tâm đến ngữ pháp và thậm chí trật tự từ nhưng vẫn giữ tính đa dạng. Mô hình túi từ cũng đã được sử dụng cho thị giác máy tính.

Mô hình túi từ thường được sử dụng trong các phương pháp phân loại tài liệu trong đó sự xuất hiện (tần suất) của mỗi từ được sử dụng như một đặc trưng để đào tạo máy phân loại .

Một tài liệu tham khảo đầu tiên về "túi từ" trong ngữ cảnh ngôn ngữ có thể được tìm thấy trong bài viết năm 1954 của Zellect Harris về Cấu trúc phân phối.

Ví dụ áp dụng

Dưới đây mô hình một tài liệu văn bản bằng cách sử dụng túi từ. Đây là hai tài liệu văn bản đơn giản: (1) Phúc thích xem phim. Đạt cũng thích xem phim.

(2) Bích cũng thích xem các trận bóng đá. Dựa trên hai tài liệu văn bản này, một danh sách được xây dựng như sau cho mỗi tài liệu:

(Ví dụ dưới đây coi mỗi tiếng là một từ, "bóng đá" là "bóng" và "đá". Cũng có thể xác định từ theo ngữ pháp, "bóng đá" là một từ.) "Phúc", "thích", "xem", "phim", "Đạt" "cũng", "thích", "xem", "phim"

"Bích" "cũng" "thích" "xem" "các" "trận" "bóng" "đá"

Đại diện cho mỗi túi từ dưới dạng đối tượng JSON và quy cho biến Javascript tương ứng: BoW1 = {"Phú":1,"thích":2,"xem":2,"phim":2,"Đạt":1,"cũng":1}; BoW2 = {"Bích":1,"cũng":1,"thích":1,"xem":1,"các":1,"trận":1,"bóng":1,"đá":1}; Mỗi khóa là từ và mỗi giá trị là số lần xuất hiện của từ đó trong tài liệu văn bản đã cho.

Thứ tự của các từ bị bỏ qua, vì vậy, ví dụ {"Phúc":1,"thích":2,"Đạt":1,"cũng":1,"xem":2,"phim":2} cũng là BoW1.

Lưu ý: nếu một tài liệu khác giống như một kết hợp của hai văn bản trên, (3) Phúc thích xem phim. Đạt cũng thích xem phim. Bích cũng thích xem các trận bóng đá.

thể diện Javascript của nó sẽ là: BoW3 = BoW1 = {"Phúc":1,"thích":3,"xem":3,"phim":2,"Đạt":1,"cũng":2,"Bích":1,"các":1,"trận":1,"bóng":1,"đá":1}; Vì vậy, như chúng ta thấy trong đại số túi, "liên kết" của hai văn bản trong cách biểu thị túi, chính thức là liên kết rời rạc, tổng hợp các bội số của từng từ.

BoW3 = BoW1 \biguplus BoW2

. ## Ứng dụng Trong thực tế, mô hình túi từ chủ yếu được sử dụng như một công cụ tạo đặc trưng. Sau khi chuyển đổi văn bản thành một "túi từ", chúng ta có thể tìm các biện pháp khác nhau để mô tả văn bản. Loại đặc điểm hoặc tính năng phổ biến nhất được tính toán từ mô hình túi từ là tần số thuật ngữ, cụ thể là số lần một thuật ngữ xuất hiện trong văn bản. Đối với ví dụ trên, chúng ta có thể xây dựng hai danh sách sau để ghi lại tần số thuật ngữ của tất cả các từ riêng biệt (BoW1 và BoW2 được chứa như trong BoW3): (1) [1, 2, 2, 2, 1, 1, 0, 0, 0, 0, 0] (2) [0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1] Mỗi mục trong danh sách đề cập đến số lượng mục tương ứng trong danh sách (đây cũng là biểu diễn biểu đồ). Ví dụ: trong danh sách đầu tiên (đại diện cho tài liệu 1), hai mục đầu tiên là "1,2":

Mục đầu tiên tương ứng với từ "Phúc" là từ đầu tiên trong danh sách và giá trị của nó là "1" vì "Phúc" xuất hiện trong tài liệu đầu tiên 1 lần.
Mục thứ hai tương ứng với từ "thích", đó là từ thứ hai trong danh sách và giá trị của nó là "2" vì "thích" xuất hiện trong tài liệu đầu tiên 2 lần

Danh sách (hoặc vectơ) đại diện này không bảo vệ thứ tự của các từ trong câu gốc. Đây chỉ là tính năng chính của mô hình Túi từ. Loại đại diện này có một số ứng dụng thành công, chẳng hạn như lọc email.

Tuy nhiên, tần số thuật ngữ không nhất thiết là đại diện tốt nhất cho văn bản. Các từ phổ biến như "the", "a", "to" trong tiếng Anh hầu như luôn là các thuật ngữ có tần suất cao nhất trong văn bản. Vì vậy, có số lượng thô cao không nhất thiết có nghĩa là từ tương ứng là quan trọng hơn. Để giải quyết vấn đề này, một trong những cách phổ biến nhất để "bình thường hóa" tần số thuật ngữ là tính trọng số của một thuật ngữ bằng nghịch đảo của tần số tài liệu, hoặc tf–idf. Ngoài ra, với mục đích cụ thể của phân loại, các lựa chọn thay thế được giám sát đã được phát triển để giải thích cho nhãn lớp của tài liệu.. Vì vậy, không có bộ nhớ được yêu cầu để lưu trữ một từ điển. Xung đột băm thường được xử lý thông qua giải phóng bộ nhớ để tăng số lượng băm. Trong thực tế, băm đơn giản hóa việc thực hiện các mô hình túi từ và cải thiện khả năng mở rộng.

Ví dụ sử dụng: lọc thư rác

Trong lọc thư rác Bayes, một thông điệp email được mô hình hóa như một tập hợp các từ được sắp xếp theo thứ tự được chọn từ một trong hai phân phối xác suất: một đại diện cho thư rác và một đại diện cho email hợp pháp ("ham"). Hãy tưởng tượng có hai túi chữ đầy chữ. Một túi chứa đầy các từ được tìm thấy trong tin nhắn rác và túi còn lại có các từ được tìm thấy trong e-mail hợp pháp. Mặc dù bất kỳ từ nào có khả năng nằm ở đâu đó trong cả hai túi, túi "spam" sẽ chứa các từ liên quan đến spam như "chứng khoán", "Viagra" và "mua" thường xuyên hơn, trong khi túi "ham" sẽ chứa nhiều từ liên quan đến bạn bè hoặc nơi làm việc của người dùng.

Để phân loại thư e-mail, bộ lọc thư rác Bayes giả định rằng thư đó là một đống từ được đổ ngẫu nhiên từ một trong hai túi và sử dụng xác suất Bayesian để xác định túi nào có khả năng nằm trong túi đó.

👁️ 68 | ⌚2025-09-16 22:45:23.556

Nguyễn Kim

ATADI _ Đặt vé máy bay trực tuyến giá rẻ

GOTADI – Vé máy bay giá rẻ, uy tín

Mô hình túi từ

**Mô hình túi từ (bag-of-words)** là một biểu diễn đơn giản hóa được sử dụng trong xử lý ngôn ngữ tự nhiên và truy vấn thông tin (IR). Trong mô hình này, một văn bản

Mô hình túi từ trong thị giác máy tính

Trong **thị giác máy tính**, **mô hình túi từ** (**bag-of-words model,** mô hình BoW) có thể được áp dụng để phân loại hình ảnh, bằng cách coi các đặc trưng của hình ảnh như từ

Bộ sưu tập mô hình đồ chơi Pokemon 144 chi tiết (bộ đủ không trùng nhau), màu sơn đẹp, ít lem màu, làm vật trang trí bàn học, bàn làm việc, làm quà tặng, làm đồ chơi Pokemon nhập vai, kích thích trí tưởng tượng cho các bé

Bộ sưu tập mô hình đồ chơi Pokemon 144 chi tiết: Pokemon được coi như một trong những biểu tượng văn hóa thành công nhất mà Nhật Bản từng đem đến cho thế giới. Hình tượng

Bộ sưu tập mô hình đồ chơi Pokemon 48 chi tiết không trùng anime chibi vui nhộn, dễ thương cho bé nhập vai, trang trí - Hàng chính hãng

Bộ sưu tập mô hình đồ chơi Pokemon 48 chi tiết: Pokemon được coi như một trong những biểu tượng văn hóa thành công nhất mà Nhật Bản từng đem đến cho thế giới. Hình tượng

Mô Hình Pokemon - Bộ sưu tập đồ chơi Pokemon (30 chi tiết)

Bộ sưu tập mô hình đồ chơi Pokemon 30 chi tiết: Pokemon được coi như một trong những biểu tượng văn hóa thành công nhất mà Nhật Bản từng đem đến cho thế giới. Hình tượng

Bộ Mô Hình Rồng Vàng Đế Trang Trí Như Ý_ Hàng chính hãng

Bộ Mô Hình Rồng Vàng Đế Trang Trí Như Ý Sản phẩm cầu mong lại sự mong muốn bình an, tiền tài, lộc đong đầy cho gia chủ. Thích hợp làm quà tặng, trang trí rất đẹp . Tượng đẹp, rõ nét , Nhựa đặc chắc chắn. Sử dụng thời gian dài không bị phai màu. Chất liệu : Nhựa Kích thước : cao 6cm x 5cm x5.5cm (tượng rồng) ĐÓNG GÓI : Bộ 4 tượng ( Không bao gồm sản phẩm khác) Kệ. ( ( Không bao gồm sản phẩm khác)) Túi vàng ( Không bao gồm sản phẩm khác) Quý khách click trực tiếp sản phẩm hiển thị để mua theo nhu cầu . - Công dụng : Trang trí văn phòng , bàn làm việc, phòng khách, tiểu cảnh, ô tô, trà đạ Lưu ý: 1. Màu sắc thật của sản phẩm có thể khác biệt so với hình ảnh do màn hình thiết bị hiển thị và hiệu ứng ánh sáng .2. Vui lòng cho phép sai số 0.5cm- 1 cm do đo lường thủ công. 4.Hàng thủ công các sẽ có một số chi tiết nhỏ không đều màu, Hãy chấp nhận! VẬN CHUYỂN ĐÓNG GÓI ️ Sản phẩm được đóng gói cẩn thận ️ An toàn khi vận chuyển. Cam Kết Từ Nhà Bán: ️Sản phẩm cam kết như miêu tả ️Chất lượng được kiểm tra ️Vận chuyển nhanh = Hỏa tốc ️Chúng tôi chuyên vật phẩm trang trí quà tặng chất lượng cao sỉ và lẻ số lượng lớn

Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Chất Liệu PU TPU Chống Thấm Kích Thước 22x12x31cm

Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Chất Liệu PU TPU Chống Thấm Kích Thước 22x12x31cm Giới thiệu: Túi có kích thước vừa vặn, tiện dụng, có thể đựng được nhiều vật dụng.

[HCM]Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Cỡ Trung Kích Thước 26x10x15cm Chất Liệu PU TPU Chống Thấm

Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Cỡ Trung Kích Thước 26x10x15cm Chất Liệu PU TPU Chống ThấmGiới thiệu:Túi có kích thước vừa vặn, tiện dụng, có thể đựng được nhiều vật dụng.Sản

Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Cỡ Trung Kích Thước 26x10x15cm Chất Liệu PU TPU Chống Thấm

Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Chất Liệu PU TPU Chống Thấm Kích Thước 22x12x31cm

Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Chất Liệu PU TPU Chống Thấm Kích Thước 22x12x31cmGiới thiệu:Túi có kích thước vừa vặn, tiện dụng, có thể đựng được nhiều vật dụng.Sản phẩm dùng

[HCM]Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Cỡ Trung Kích Thước 26x10x15cm Chất Liệu PU TPU Chống Thấm

[HCM]Túi Đựng Mỹ Phẩm Vật Dụng Du Lịch Washbag Chất Liệu PU TPU Chống Thấm Kích Thước 22x12x31cm

Mô Hình Cấp Cứu Ngừng Tuần Hoàn Nửa Người ( Giá 13.400.000vnđ)

Liên Hệ Mua hàng 0911.115.128 - 086.668.2856 Giá : 13.400.000vnđ)Liên Hệ Đặt Mua : 0911.115.128 - 086.668.2856Mô Hình Cấp Cứu Ngừng Tuần HoànMô Hình Ép Tim,Thổi Ngạt Có Cảnh Báo Điện Tửgiúp cho sinh viên,bác

[HCM]Mô Hình Cấp Cứu Ngừng Tuần Hoàn Có Cảnh Báo Đúng Sai Nửa Người ( Giá 13.400.000vnđ)

MÔ HÌNH TỔNG HỢP BỆNH LÝ GAN

Nhấc máy gọi trực tiếp cho chúng tôi để được tư vấn và nhận hàng nhanh nhất☎ Hotline/zalo 0911.102.882 - 0921.888.222 **Website: Ykhoahueloi.com Địa Chỉ Mua Hàng: Hà Nội Đà Nẵng: Tp. Hồ Chí Minh

[HCM]Mô Hình Cấp Cứu Ngừng Tim Nửa Người ( Giá 13.400.000vnđ)

Màng bọc thực phẩm co giãn siêu dai có chun hình túi gấu set 100 chiếc

Màng bọc thực phẩm co giãn siêu dai có chun hình túi gấu set 100 chiếc Shop -------------------------------------- Sản Phẩm : Màng bọc thực phẩm nilong co giãn phiên bản mới - Khả năng tái

Màng bọc thực phẩm set 100 chiếc co giãn siêu dai có chun hình túi gấu

Màng bọc thực phẩm set 100 chiếc co giãn siêu dai có chun hình túi gấu -------------------------------------- Sản Phẩm : Màng bọc thực phẩm nilong co giãn phiên bản mới - Khả năng tái sử

Màng bọc thực phẩm set 100 chiếc co giãn siêu dai có chun hình túi gấu

Khuôn làm bánh bao tạo hình túi tiền thần tài bánh bao túi tiền

Khuôn làm bánh bao tạo hình túi tiền thần tài bánh bao túi tiền Thông tin sản phẩm Màu sắc: Hồng hoặc trắng Kích thước: Xem chi tiết trong hình sản phẩm Chất liệu: nhựa

Đồ Chơi Lắp Ráp Xếp Hình Mô Hình Sprunki Incredibox 775

Lưu ý: Không có hướng dẫn trên giấy, bạn có thể quét mã QR trên túi để xem hướng dẫn sử dụng PDF. Nếu có thắc mắc, bạn có thể chat với shop (Mẫu đơn

【Promotion】Cofoe Thai Fetal Doppler Heartbeat Detector Xách Tay Mang Thai Bé Siêu Âm Tim Tỷ Lệ Màn Hình Túi LCD Probe Mạch Máu Doppler Ống Nghe

Thông tin sản phẩm Chế độ sản phẩm: FD-270B Đầu dò tần số:2. 0 MHz Tỷ lệ phạm vi hiển thị:50-230Bpm Phạm vi lỗi:± 2bpm Ngày Hiệu Quả:5 năm Kích thước:14 Cm(L) * 10.5 Cm(W)

Cofoe Thai Fetal Doppler Bé Heartbeat Detector Xách Tay Mang Thai Bé Siêu Âm Tim Tỷ Lệ Màn Hình Túi LCD Probe Mạch Máu Doppler Ống Nghe

Thông tin sản phẩm Chế độ sản phẩm: FD-270B Đầu dò tần số:2. 0 MHz Tỷ lệ phạm vi hiển thị:50-230Bpm Phạm vi lỗi:± 1bpm Ngày Hiệu Quả:5 năm Kích cỡ:14Cm(L) * 10.5Cm(W) * 3Cm(H)

Cofoe Thai Fetal Doppler Bé Heartbeat Detector Xách Tay Mang Thai Bé Siêu Âm Tim Tỷ Lệ Màn Hình Túi LCD Probe Mạch Máu Doppler Ống Nghe

Những Mô Hình COACH Thành Công Nhất Hiện Nay - cẩm nang bỏ túi hữu ích cho những ai đang làm Coach

Những Mô Hình COACH Thành Công Nhất Hiện Nay ------------ Đâu là những mô hình Coach thành công nhất hiện nay? Được trình bày một cách cuốn hút thông qua cách viết đơn giản

[HCM]MÔ HÌNH CÁC BỆNH LÝ ĐẠI TRÀNG

MÔ HÌNH CÁC BỆNH LÝ ĐẠI TRÀNGMô hình các bệnh lý đại tràng hay gặpmô tả hình ảnh giải phẫu của khung đại tràng từ manh tràng cho đến hậu môn, đi kèm là hình

MÔ HÌNH CÁC BỆNH LÝ ĐẠI TRÀNG

MÔ HÌNH CÁC BỆNH LÝ ĐẠI TRÀNGMô hình các bệnhlý đại tràng hay gặpmô tả hình ảnhgiải phẫu của khung đại tràng từ manh tràng cho đến hậu môn, đi kèm là hình ảnhcác bệnh

Túi Lưới Giặt Giày, Túi Lưới Giặt Và Đựng Giày Đa Năng, Chống Biến Dạng - HENRYSA

Mô tả: Túi giặt giày có độ bền cao và có thể tái sử dụng. Đây là loại vải lưới cao cấp không bị biến dạng và có độ bền cao. Túi bông lưới kỳ

Bộ Bình Trà Tử Sa Tráng Men Mờ Có Túi Đựng Đi Du Lịch Tiện Lợi Gồm 1 Ấm Trà, 4 Tách, 1 Khay Trà (Tặng Kèm Khăn Lau Và Gắp Tre)- Hàng Loại 1 - Chính Hãng MINIIN

Bộ Bình Trà Tử Sa Tráng Men Mờ Có Túi Đựng Đi Du Lịch Tiện Lợi Gồm 1 Ấm Trà, 4 Tách, 1 Khay Trà (Tặng Kèm Khăn Lau Và Gắp Tre)- Hàng Loại 1

Hạt nhân nguyên tử

nhỏ|Hình ảnh minh họa nguyên tử heli. Trong hạt nhân, proton có màu hồng và neutron có màu tía **Hạt nhân nguyên tử** là cấu trúc vật chất đậm đặc chiếm khối lượng chủ yếu

Bộ 4 Cuốn "Binh Pháp" Cho Doanh Nghiệp : Testing Business Ideas - Kiểm Chứng Ý Tưởng Kinh Doanh + Business Model Generation - Tạo Lập Mô Hình Kinh Doanh + Value Proposition Design - Thiết Kế Giải Pháp Giá Trị + The Invincible Company - Tạo Lập Mô Hình Do

COMBO BINH PHÁP CHO DOANH NGHIỆP Bộ gồm tuyển tập 4 cuốn sách sẽ cung cấp những công cụ mạnh mẽ cùng các tư duy chiến lược xây dựng lên mô hình kinh doanh hiệu

Những Mô Hình COACH Thành Công Nhất Hiện Nay (SGB)

Những Mô Hình COACH Thành Công Nhất Hiện Nay

Đâu là những mô hình Coach thành công nhất hiện nay? Được trình bày một cách cuốn hút thông qua cách viết đơn giản và tinh gọn, Những mô hình Coach thành công nhất hiện

Đồ chơi 72 Pokemon dễ thương cho bé trên 3 tuổi không trùng nhau, chất liệu nhựa PVC đặc sơn màu đẹp, mô phỏng nhân vật phim hoạt hình Poke'mon Mega (mẫu ngẫu nhiên)

Đồ chơi 72 Pokemon dễ thương cho bé trên 3 tuổi: Pokemon được coi như một trong những biểu tượng văn hóa thành công nhất mà Nhật Bản từng đem đến cho thế giới. Hình tượng

Những mô hình Coach thành công nhất hiện nay (Excellence in coaching) - Tác giả Jonathan Passmore

NHỮNG MÔ HÌNH COACH THÀNH CÔNG NHẤT HIỆN NAY Tựa gốc: Excellence in coaching Tác giả: Jonathan Passmore ĐÂU LÀ NHỮNG MÔ HÌNH COACH THÀNH CÔNG NHẤT HIỆN NAY? Được trình bày một

Sách: Những mô hình Coach thành công nhất hiện nay (Excellence in coaching) - Tác giả Jonathan Passmore

NHỮNG MÔ HÌNH COACH THÀNH CÔNG NHẤT HIỆN NAY Tựa gốc: Excellence in coaching Tác giả: Jonathan Passmore ĐÂU LÀ NHỮNG MÔ HÌNH COACH THÀNH CÔNG NHẤT HIỆN NAY? Được trình bày một cách cuốn

Bộ Mô Hình Nhựa Đồ Chơi 8 con Hươu Cao Cổ Nai Lạc Đà Sư Tử Tê Giác Cá Sấu Chuột Túi Hà Mã PB10

Thông tin sản phẩm - Chất liệu nhựa cao cấp, không độc hại cho bé khi chơi, không gây tổn thương khi bị đồ chơi đâm vào, nhựa luôn bền đẹp theo thời gian, dễ

Từ Điển Trực Quan Bỏ Túi Anh-Việt

Nếu bạn muốn học từ tiếng Anh hiệu quả và nhanh chóng mở rộng vốn từ thì đây là tài liệu lý tưởng dành cho bạn. Quyển từ điển này cung cấp hơn 4.000 từ

Túi đeo chéo thông minh Divoom Pixoo Slingbag hiển thị màn hình Led, tích hợp app Divoom

PIXOO SLINGBAG – TÚI ĐEO CHÉO MÀN HÌNH LED CỰC TRENDY Divoom là một thương hiệu nổi tiếng từ Hồng Kông với các sản phẩm loa active, loa smart pixel hay phụ phụ kiện

Túi đeo chéo thông minh Divoom Pixoo Slingbag hiển thị màn hình Led, tích hợp app Divoom

PIXOO SLINGBAG – TÚI ĐEO CHÉO MÀN HÌNH LED CỰC TRENDY Divoom là một thương hiệu nổi tiếng từ Hồng Kông với các sản phẩm , hay cực fashion, độc đáo và bắt mắt.

Liệu trình giảm cân Kem tan mỡ Cô Bông (250g) và 3 Trà giảm cân Slimutea

Tặng THƯỚC DÂYĐánh tan mỡ hiệu quả ngay từ những lần dùng đầuLàm săn chắc tại các vùng bụng, hông, eo, mông và đùiDưỡng da, tái tạo da, chống nhăn, chống rạn và thúc đẩy

Túi Trữ Sữa 💖 💖 Túi Đựng Có Nắp Vặn Dung Tích 120ml Dr.DuDu TE26

MINT HOUSE CHÀO QUÝ KHÁCH HÀNG ------------------------------- * MINT HOUSE CAM KẾT: - Mint House luôn bán hàng chất lượng, đáp ứng mọi nhu cầu của khách hàng từ đơn giản đến phức tạp.- Sản

Túi lưới đựng tài liệu nhiều ngăn A4 Mideer Organized Subject Storage Bag

Món đồ giúp con tổ chức đồ dùng học tập gọn gàng và khoa học! Với thiết kế túi lươi đựng tài liệu 3 ngăn mở hình chữ L, khóa kéo mượt mà, bền bỉ