Chiếc máy tính đầu tiên có thể nhận diện hành động trong bức ảnh

Không chỉ là những chiếc cỗ máy vô tri, giờ đây máy tính đã có thể nhận diện những gì đang diễn ra trong cuộc sống.

Chiếc máy tính đầu tiên có thể nhận diện hành động trong bức ảnh

Khoa học và công nghệ của thế giới đã có nhiều bước tiến vượt bậc trong thời gian qua, và điều đó đem lại những kết quả mà chúng ta tưởng chừng chỉ có thể thấy trong các bộ phim khoa học viễn tưởng. Mới đây, các nghiên cứu tại Đại học Stanford đã phát triển thành công một chương trình giúp cho máy tính có thể phân tích hình ảnh và "hiểu" được chúng.

Mang tên NeuralTalk, phần mềm này được phát triển dưới sự chỉ đạo của Fei-Fei Li - giám đốc phòng thí nghiệm trí tuệ nhân tạo Stanford và một sinh viên đại học có tên Andrej Karpathy. Sản phẩm của họ có khả năng "nhìn" vào những bức ảnh và phân tích xem điều gì đang diễn ra trong đó. Lấy ví dụ với bức hình dưới đây về một nhóm người đang hóa trang làm Zombie trên đường phố, máy tính đã phân tích cực kỳ chuẩn xác: "Five young people are seen wearing zombie costumes", tạm dịch là 5 người trẻ tuổi đang mặc trang phục hóa trang Zombie.

 

 

Cũng giống như hệ thống Deep Dream của Google, phần mềm này sử dụng một hệ thần kinh nhân tạo để nhận diện bức ảnh, sau đó so sánh với những hình ảnh có trong bộ nhớ để mô tả chúng theo cách của con người. Mạng lưới thần kinh nhân tạo này được thiết kế giống như bộ não của con người, và chúng hoạt động giống như suy nghĩ của một đứa bé. Chúng sẽ được "học" những hình ảnh, những điều cơ bản của thế giới để rồi tự sắp xếp chúng lại với nhau mỗi khi nhận diện hình ảnh trong cuộc sống.

Mặc dù vậy, những phán đoán của hệ thống NeuralTalk vẫn chưa hoàn toàn chính xác. Một hình ảnh về người phụ nữ trưởng thành cầm một chiếc bánh lớn lại được nó nhận diện thành "một cô bé tay cầm chiếc máy sấy bên cạnh đầu". Trong một trường hợp khác, một con hươu cao cổ đang tò mò lại được nó nhận diện thành... một con chó đang nhìn ra ngoài cửa sổ. Và buồn cười nhất có lẽ là việc một cặp vợ chồng già đang ngồi bên chiếc bánh sinh nhật ở ngoài vườn lại bị nhận dạng thành một người đàn ông trong chiếc áo xanh đang ngồi cạnh một con voi.

 

 

Mặc dù vậy, trong phần lớn các trường hợp, nó đã nhận diện và có những phán đoán cơ bản. Tức là con người và động vật, đồ vật đã được nó nhận diện khá chính xác.

Ý nghĩa của nghiên cứu này là rất lớn, ít nhất là đối với những công cụ tìm kiếm như Google. Lượng dữ liệu trên Internet là một con số khổng lồ, và để định danh chính xác cho chúng là điều không hề dễ dàng. Lấy một ví dụ: Khi Google lần đầu tiên xây dựng Google Maps, họ đã phải huy động một đội ngũ nhân sự chỉ để xem xét những hình ảnh, những thông tin được cung cấp chỉ để xác nhận là chúng có thực. Công việc mệt mỏi này chỉ chấm dứt khi họ có Google Brain - công cụ cho phép xử lý lượng thông tin mà cả đội mất 1 tuần để giải quyết trong... 1 giờ đồng hồ.

 

 

Thực tế thì việc nghiên cứu cho phép máy tính có thể hiểu được nội dung của những bức ảnh không phải là mới. Hồi 2012, Google đã tiến hành xây dựng Google study - môt máy tính có khả năng tự dạy bản thân nó cách để nhận ra một con mèo. Đáng tiếc là họ chỉ tập trung vào việc đó mà không nghĩ đến ứng dụng rộng hơn như những nhà nghiên cứu của đại học Stanford. Ali Farhadi - nhà khoa học tại Đại học Washington đã trả lời với tờ The NewYork Times rằng: "Chúng tôi đã quá tập trung vào các đối tượng mà bỏ qua những hành động của chúng".

Sự khác biệt trong nghiên cứu của đại học Stanford đến từ cách tiếp cận của họ. Thay vì cố gắng định danh những thứ xuất hiện trong bức ảnh, họ thiết kế ra thuật toán để NeuralTalk có thể hiểu được điều gì đang diễn ra bên trong bức ảnh đó. Điều đó có nghĩa là khi bạn đưa cho nó một bức ảnh về chú chó, nó sẽ tìm hiểu xem chú chó đó đang làm gì, trong hoàn cảnh nào chứ không chỉ đơn giản là xác nhận đấy là con chó như hiện nay. Điều này sẽ giúp người dùng trong tương lai hưởng lợi rất nhiều trong việc tìm kiếm dữ liệu trên YouTube hoặc Google Search.

Tiềm năng của "hệ thần kinh nhân tạo" là vô cùng lớn. Tại triển lãm CES năm nay, ông Jen-Hsun Huang - đại diện của Nvidia đã giới thiệu sản phẩm Drive PX của họ. Đây là một siêu máy tính tích hợp vào chiếc ô tô của người dùng hiện nay. Bằng cách "tự học" và sử dụng dữ liệu chia sẻ trong mạng lưới, nó sẽ giúp chúng ta phát hiện các mối nguy hiểm khi lưu hành trên đường, những hiểm họa đến từ chướng ngại vật,... Với khả năng tự học của mình, nó không bị phụ thuộc vào loại xe, hãng xe mà nó sẽ tự thích nghi với những chiếc xe mà nó đang tích hợp vào và sử dụng những dữ liệu có giá trị với chiếc xe đó. Nvidia đã theo đuổi công nghệ này từ rất lâu và chính họ là đơn vị cung cấp các công nghệ xử lý đồ họa cho công trình nghiên cứu của đại học Stanford.

 

Công nghệ của Nvidia

Công nghệ của Nvidia

 

Sức mạnh của máy tính nói chung đã và đang lớn mạnh một cách nhanh chóng. Công nghệ nhận diện, dự đoán, thậm chí là phân tích tình huống đang được các ông lớn công nghệ theo đuổi để phục vụ cho những tham vọng của riêng họ. Có thể trước mắt, người dùng sẽ là đối tượng được hưởng lợi đầu tiên. Nhưng điều gì sẽ xảy ra khi những cỗ máy có thể nhìn cuộc sống và suy nghĩ như một con người thực sự? Điều này không ai dám nói trước.

Nguồn: GenK