“Mục tiêu của chúng tôi với dự án hợp tác này là tập hợp các chuyên gia lâm sàng về TBI, những người có bộ dữ liệu phức tạp, nhiều chiều với các nhà khoa học dữ liệu có chuyên môn về khám phá dựa trên dữ liệu,” tác giả tương ứng Kris Bouchard, người đứng đầu Nhóm Khoa học Sinh học Máy tính tại cho biết. Phòng Dữ liệu Khoa học của Phòng thí nghiệm Berkeley. “Chúng tôi có thể phát triển và áp dụng các phương pháp học máy mới để giải quyết những thách thức nổi bật được tìm thấy rộng rãi trên toàn bộ cộng đồng y tế, không chỉ TBI.”
Cụ thể, nhóm đã giải quyết hai thách thức lớn trong y học chính xác và phương pháp điều trị cá nhân hóa: cách thu thập hiểu biết liên quan đến lâm sàng từ các bộ dữ liệu y sinh phức tạp và cách tận dụng dữ liệu đó để cải thiện độ chính xác trong tiên lượng bệnh nhân (dự đoán kết quả dự đoán của bệnh nhân). Việc trích xuất những hiểu biết sâu sắc có thể hiểu được về mặt lâm sàng từ các bộ dữ liệu lớn, phức tạp như dữ liệu được tìm thấy trong TBI – ảnh hưởng đến ~ 4 triệu người ở Hoa Kỳ hàng năm và khiến nền kinh tế thế giới tiêu tốn 400 tỷ USD mỗi năm – là một thách thức và có thể cản trở việc tiên lượng và điều trị.
Geoffrey Manley, Giáo sư Phẫu thuật Thần kinh tại Đại học Y khoa Hoa Kỳ cho biết: “Khung phân loại TBI y tế hiện tại thường nhóm bệnh nhân thành một số ít các nhóm thẳng thừng tùy theo mức độ nghiêm trọng của chấn thương hiện tại – nhẹ, trung bình hoặc nặng – thay vì xem xét sinh học cá nhân và các tình trạng liên quan”. UCSF và PI liên hệ của nghiên cứu thí điểmTRACK-TBI. “Chúng tôi đã biết từ lâu và hiện có dữ liệu để chứng minh rằng chấn thương được mô tả là ‘nhẹ’ trong khoảng thời gian cấp tính sau chấn thương có thể gây ra hậu quả lâu dài, có khả năng thay đổi cuộc sống và gây tàn phế mãn tính (dài hạn hoặc kéo dài). ).”
Ông nói thêm, những nhóm triệu chứng này, được các nhà nghiên cứu gọi là “kiểu hình kết quả”, là một trong những phát hiện quan trọng nhất của phân tích hiện tại. “Vì vậy, cần phải tìm ra những cách mới để sớm mô tả chính xác hơn về bệnh nhân và kết quả dự kiến của họ cũng như dự đoán những kết quả dài hạn đó từ các biến số lượng tiêu thụ của bệnh nhân từ các bộ dữ liệu có sẵn để chúng ta có thể can thiệp một cách thích hợp và kịp thời, thậm chí liệu pháp phòng ngừa,” Manley nhấn mạnh.
Nhóm nghiên cứu lưu ý: “Bước quan trọng đầu tiên hướng tới các phương pháp điều trị cá nhân hóa (trong TBI và các tình trạng y tế phức tạp khác) là tăng độ chính xác mà chúng tôi dự đoán kết quả của bệnh nhân”.
Những con đường mới rực rỡ
Trong hơn một thập kỷ, tập đoàn TRACK-TBI đã đi đầu trong nghiên cứu về TBI, bao gồm cả việc thực hiện Nghiên cứu thí điểm TRACK-TBImột dự án nghiên cứu quan trọng được bắt đầu vào năm 2017, bước đầu đã mang lại một bộ dữ liệu bao gồm hơn 500 biến lượng đầu vào được thu thập từ gần 600 bệnh nhân TBI tại nhiều trung tâm chấn thương của Hoa Kỳ. Làm việc với tập dữ liệu này, các tác giả bài báo của Báo cáo khoa học tự nhiên đã phát triển và áp dụng các kỹ thuật học máy có thể giải thích được cho tập dữ liệu TRACK-TBI Pilot trên hàng trăm biến số đầu vào, bao gồm kinh tế xã hội, nhân khẩu học, dấu ấn sinh học và dữ liệu y tế được thu thập trong quá trình trình bày ban đầu.
Mục tiêu của họ là kiểm tra hai giả thuyết: ẩn trong tập dữ liệu phức tạp này là một số lượng nhỏ các khái niệm lâm sàng mô tả các đặc điểm tiếp nhận và kiểu hình kết quả của từng bệnh nhân; và rằng có một mức độ chính xác không được đánh giá cao mà theo đó các kiểu hình kết quả TBI có thể được dự đoán từ các tính năng tiếp nhận đó.
Bouchard cho biết: “Một điều làm cho tập dữ liệu này trở nên độc đáo trong cả tập dữ liệu y tế và sinh học là sự phong phú và đa dạng mà đặc trưng của từng đối tượng”. “Điều này cho phép bạn xác định các mô hình và đặc điểm mà ngay từ đầu bạn có thể không nghĩ là có liên quan, sau đó đưa ra quyết định hỗ trợ cho việc tiên lượng bệnh nhân.”
Sử dụng bộ dữ liệu Nghiên cứu thí điểm TRACK-TBI và khả năng học máy được phát triển bởi các nhà khoa học dữ liệu trong Khu vực Khoa học Máy tính của Phòng thí nghiệm Berkeley, nhóm đã phân tích hàng trăm mô phỏng trên siêu máy tính Cori tại Trung tâm Máy tính Khoa học Nghiên cứu Năng lượng Quốc gia (NERSC) và phát hiện ra rằng 19 loại Họ lưu ý rằng kết quả có thể được dự đoán từ dữ liệu tiếp nhận – độ chính xác được cải thiện hơn gấp sáu lần so với các tiêu chuẩn lâm sàng hiện tại (hiện chỉ giới hạn ở TBI nhẹ, trung bình và nặng).
Ở cấp độ cá nhân, họ phát hiện ra rằng 36% tổng phương sai kết quả giữa các bệnh nhân có thể được dự đoán hoặc dự đoán – đây là lần đầu tiên vấn đề dự đoán như vậy được thử trong TBI. Họ cũng phát hiện ra rằng dữ liệu phức tạp mô tả đặc điểm tiếp nhận của bệnh nhân TBI và kiểu hình kết quả sau chấn thương có thể được đơn giản hóa thành các nhóm yếu tố nhỏ hơn mà bác sĩ có thể dễ dàng hiểu, cung cấp mô tả đầy đủ và có thể đo lường được về từng bệnh nhân.
Điều thú vị là nghiên cứu này cũng chỉ ra mối quan hệ giữa môi trường kinh tế xã hội của bệnh nhân và tổn thương của họ có thể giúp giải thích sự đa dạng trong kết quả của họ, Bouchard lưu ý. “Chúng tôi nhận thấy rằng một trong những yếu tố điều biến môi trường chính là nền tảng kinh tế xã hội của họ. Điều này đã trở thành một yếu tố khác biệt về đặc điểm tiếp nhận của họ, điều này rất quan trọng để dự đoán các quỹ đạo kết quả khác nhau,” ông nói.
Một sự kết hợp độc đáo
Phương pháp học máy mà các cộng tác viên áp dụng để đạt được những kết quả này là “phương pháp đầu tiên” trong nghiên cứu về TBI: một thuật toán học máy có thể giải thích được gọi là UoI-NMF và sự kết hợp giữa các phương pháp học máy có giám sát và không giám sát.
Bouchard giải thích: “Chúng tôi đã phát triển và áp dụng hai thuật toán chính cho dự án này. “Đầu tiên là thuật toán mới cho Hệ số ma trận không âm (NMF), thuật toán mà chúng tôi sử dụng để chắt lọc dữ liệu phức tạp thành các hệ số tổng thể; thứ hai là phương pháp học máy phi tham số để xác định có bao nhiêu loại kết quả có thể được dự đoán từ các biến đầu vào.”
Hiểu được có bao nhiêu loại kết quả hoặc kiểu hình của bệnh nhân tồn tại là vấn đề trọng tâm trong nghiên cứu TBI. Để giải quyết vấn đề này, nhóm đã thực hiện học tập không giám sát để tập hợp các kết quả của bệnh nhân và sử dụng phương pháp học tập có giám sát làm hướng dẫn cho quy trình không giám sát, Andrew Tritt, kỹ sư dữ liệu tại Phòng nghiên cứu tính toán và toán học ứng dụng của Phòng thí nghiệm Berkeley và là tác giả chính của tạp chí Nature, cho biết thêm. Bài báo cáo khoa học. Điều này cho phép họ giải quyết một số thách thức trong “phân cụm”, một phương pháp thống kê phổ biến được sử dụng để xác định các nhóm dữ liệu tương tự trong một tập dữ liệu lớn. Phân cụm sử dụng thuật toán học không giám sát để sắp xếp các biến thành các nhóm dựa trên mức độ liên kết chặt chẽ của chúng. Vấn đề là bạn không biết có bao nhiêu cụm tồn tại trong dữ liệu trước khi chạy mô hình.
“Phân cụm là nơi bạn có một tập dữ liệu và bạn muốn xác định có bao nhiêu thứ khác nhau trong đó, nhưng làm sao bạn biết?” Trit nói. “Khi bạn không có cơ sở thực tế, làm sao bạn biết khi nào bạn đã xác định đúng con số?”
Khi thuật toán phân cụm được chạy trên tập dữ liệu, mục tiêu là chia tập dữ liệu thành một số nhóm, “và có một số tính ngẫu nhiên (ngẫu nhiên) đối với quy trình đó khi bạn cố gắng ghi điểm và xác minh số lượng cụm bạn tìm thấy,” Tritt thêm. Để giải quyết những vấn đề này và các hiệu ứng ngẫu nhiên khác có thể xảy ra trong phân tích cụm, nhóm đã chạy lại quy trình hàng trăm lần trên siêu máy tính Cori, sau đó xem xét kết quả trung bình để xác định các nhóm ổn định nhất và thực hiện định lượng độ không đảm bảo.
“Đó là điều làm cho cách tiếp cận của chúng tôi trở nên độc đáo,” ông nói. “Phương pháp được giám sát được sử dụng để xác minh hoặc chấm điểm kết quả của phương pháp không giám sát, trong đó bạn thường không có cách xác minh kết quả một cách nghiêm ngặt. Tôi chưa từng thấy điều đó được thực hiện trước đây.” Ông nói thêm, có nhiều trường hợp các bộ dữ liệu phức tạp khác nhau được thu thập cho cùng một thực thể sinh học, trong đó việc định lượng mối quan hệ giữa các bộ dữ liệu đó vẫn khó nắm bắt. “Ví dụ: nghiên cứu mối quan hệ giữa dữ liệu hệ vi sinh vật môi trường và dữ liệu hệ sinh thái hoặc khí quyển. Trong những tình huống này, tôi nghĩ các phương pháp được phát triển như một phần của dự án này có thể áp dụng trực tiếp để phân tích các mối quan hệ này.”
Ngoài Bouchard, Manley và Tritt, các đồng tác giả của Báo cáo khoa học tự nhiên bài báo bao gồm John Yue của Bệnh viện Đa khoa Zuckerberg San Francisco và Trung tâm Chấn thương và UCSF; Adam Ferguson của Bệnh viện Đa khoa Zuckerberg San Francisco và Trung tâm Chấn thương, UCSF, và Hệ thống Chăm sóc Sức khỏe Cựu chiến binh San Francisco; Abel Torres Espin của Đại học Waterloo (Canada); Esther Yuh và Amy Markowitz của Bệnh viện Đa khoa Zuckerberg San Francisco và Trung tâm Chấn thương và UCSF; Lindsay Nelson của Đại học Y Wisconsin; và các nhà điều tra TRACK-TBI.
NERSC là cơ sở người dùng của Văn phòng Khoa học thuộc Bộ Năng lượng Hoa Kỳ đặt tại Phòng thí nghiệm Berkeley.
Giới thiệu về Phòng thí nghiệm Berkeley
Được thành lập vào năm 1931 với niềm tin rằng những thách thức khoa học lớn nhất sẽ được giải quyết tốt nhất bởi các nhóm, Phòng thí nghiệm Quốc gia Lawrence Berkeley và các nhà khoa học của nó đã được công nhận với 16 giải Nobel. Hôm nay, Phòng thí nghiệm Berkeley các nhà nghiên cứu phát triển các giải pháp năng lượng và môi trường bền vững, tạo ra các vật liệu mới hữu ích, nâng cao các giới hạn của điện toán và khám phá những bí ẩn của sự sống, vật chất và vũ trụ. Các nhà khoa học từ khắp nơi trên thế giới dựa vào cơ sở vật chất của Phòng thí nghiệm để khám phá khoa học của riêng họ. Phòng thí nghiệm Berkeley là một phòng thí nghiệm quốc gia đa chương trình, do Đại học California quản lý cho Văn phòng Khoa học của Bộ Năng lượng Hoa Kỳ.
Nguồn: Kathy Kincade, Phòng thí nghiệm Berkeley