Mo-Ca Session Visual
Mo-Ca Session Visual
Advantages
Disadvantages
• Specific hardware and special software programs are required
to obtain and process the data.
• The cost of the software, equipment and personnel required can
be prohibitive for small productions.
• The capture system may have specific requirements for the
space in which it is operated, depending on camera field of
view or magnetic distortion.
• When problems occur, it is easier to shoot the scene again
rather than trying to manipulate the data. Only a few systems
allow real-time viewing of the data to decide if the take
needs to be redone.
• The initial results are limited to what can be performed within the
capture volume without extra editing of the data.
• Movement that does not follow the laws of physics cannot be
captured.
• Traditional animation techniques, such as added emphasis on
anticipation and follow through, secondary motion or
manipulating the shape of the character, as with squash and
stretch animation techniques, must be added later.
• If the computer model has different proportions from the capture
subject, artifacts may occur. For example, if a cartoon
character has large, oversized hands, these may intersect
the character's body if the human performer is not careful
with their physical motion.
Applications
Video Games[edit]
Video games often use motion capture to animate
athletes, martial artists, and other in-game characters.[13][14] As
early as 1988, an early form of motion capture was used to
animate the 2D player characters of Martech's video
game Vixen (performed by model Corinne Russell)[15] and Magical
Company's 2D arcade fighting game Last Apostle Puppet
Show (to animate digitized sprites).[16] Motion capture was later
notably used to animate the 3D character models in the Sega
Model arcade games Virtua Fighter (1993)[17][18] and Virtua Fighter
2 (1994).[19] In mid-1995, developer/publisher Acclaim
Entertainment had its own in-house motion capture studio built
into its headquarters.[14] Namco's 1995 arcade game Soul
Edge used passive optical system markers for motion capture.
[20]
Motion capture also uses athletes in based-off animated
games, such as Naughty Dog's Crash Bandicoot, Insomniac
Games' Spyro the Dragon, and Rare's Dinosaur Planet.
Robotics[edit]
Indoor positioning is another application for optical motion capture
systems. Robotics researchers often use motion capture systems
when developing and evaluating control, estimation, and
perception algorithms and hardware. In outdoor spaces, it’s
possible to achieve accuracy to the centimeter by using the
Global Navigation Satellite System (GNSS) together with Real-
Time Kinematics (RTK). However, this reduces significantly when
there is no line-of-sight to the satellites — such as in indoor
environments. The majority of vendors selling commercial optical
motion capture systems provide accessible open source drivers
that integrate with the popular Robotic Operating System (ROS)
framework, allowing researchers and developers to effectively test
their robots during development.
Movies[edit]
Movies use motion capture for CGI effects, in some cases
replacing traditional cel animation, and for
completely CGI creatures, such as Gollum, The Mummy, King
Kong, Davy Jones from Pirates of the Caribbean, the Na'vi from
the film Avatar, and Clu from Tron: Legacy. The Great Goblin, the
three Stone-trolls, many of the orcs and goblins in the 2012
film The Hobbit: An Unexpected Journey, and Smaug were
created using motion capture.
The film Batman Forever (1995) used some motion capture for
certain visual effects. Warner Bros. had acquired motion capture
technology from arcade video game company Acclaim
Entertainment for use in the film's production.[22] Acclaim's
1995 video game of the same name also used the same motion
capture technology to animate the digitized sprite graphics.[23]
Star Wars: Episode I – The Phantom Menace (1999) was the first
feature-length film to include a main character created using
motion capture (that character being Jar Jar Binks, played
by Ahmed Best), and Indian-American film Sinbad: Beyond the
Veil of Mists (2000) was the first feature-length film made
primarily with motion capture, although many character animators
also worked on the film, which had a very limited release.
2001's Final Fantasy: The Spirits Within was the first widely
released movie to be made with motion capture technology.
Despite its poor box-office intake, supporters of motion capture
technology took notice. Total Recall had already used the
technique, in the scene of the x-ray scanner and the skeletons.
The Lord of the Rings: The Two Towers was the first feature film
to utilize a real-time motion capture system. This method
streamed the actions of actor Andy Serkis into the computer-
generated imagery skin of Gollum / Smeagol as it was being
performed.[24]
Out of the three nominees for the 2006 Academy Award for Best
Animated Feature, two of the nominees (Monster House and the
winner Happy Feet) used motion capture, and
only Disney·Pixar's Cars was animated without motion capture. In
the ending credits of Pixar's film Ratatouille, a stamp appears
labelling the film as "100% Genuine Animation – No Motion
Capture!"
Movement Capture[edit]
Virtual reality and Augmented reality providers, such
as uSens and Gestigon, allow users to interact with digital content
in real time by capturing hand motions. This can be useful for
training simulations, visual perception tests, or performing virtual
walk-throughs in a 3D environment. Motion capture technology is
frequently used in digital puppetry systems to drive computer-
generated characters in real time.
Optical systems
Passive markers[edit]
https://en.wikipedia.org/wiki/File:MotionCapture.jpg
A dancer wearing a suit used in an optical motion capture system
https://en.wikipedia.org/wiki/File:Motion_capture_facial.jpg
Markers are placed at specific points on an actor's face during facial optical
motion capture.
Passive optical systems use markers coated with
a retroreflective material to reflect light that is generated near the
camera's lens. The camera's threshold can be adjusted so only
the bright reflective markers will be sampled, ignoring skin and
fabric.
Active marker[edit]
https://en.wikipedia.org/wiki/File:Body_Motion_Capture.jpg
Body motion capture
Active optical systems triangulate positions by illuminating one
LED at a time very quickly or multiple LEDs with software to
identify them by their relative positions, somewhat akin to celestial
navigation. Rather than reflecting light back that is generated
externally, the markers themselves are powered to emit their own
light. Since the inverse square law provides one quarter of the
power at two times the distance, this can increase the distances
and volume for capture. This also enables a high signal-to-noise
ratio, resulting in very low marker jitter and a resulting high
measurement resolution (often down to 0.1 mm within the
calibrated volume).
Underwater cameras[edit]
The vital part of the system, the underwater camera, has a
waterproof housing. The housing has a finish that withstands
corrosion and chlorine which makes it perfect for use in basins
and swimming pools. There are two types of cameras. Industrial
high-speed cameras can also be used as infrared cameras.
Infrared underwater cameras come with a cyan light strobe
instead of the typical IR light for minimum fall-off underwater and
high-speed cameras with an LED light or with the option of using
image processing.
https://en.wikipedia.org/wiki/File:Oqus_underwater.jpg
Underwater motion capture camera
https://en.wikipedia.org/wiki/File:Motion_tacking_by_using_image_processing.PNG
Motion tracking in swimming by using image processing
Measurement volume[edit]
An underwater camera is typically able to measure 15–20 meters
depending on the water quality, the camera and the type of
marker used. Unsurprisingly, the best range is achieved when the
water is clear, and like always, the measurement volume is also
dependent on the number of cameras. A range of underwater
markers are available for different circumstances.
Tailored[edit]
Different pools require different mountings and fixtures. Therefore,
all underwater motion capture systems are uniquely tailored to
suit each specific pool instalment. For cameras placed in the
center of the pool, specially designed tripods, using suction cups,
are provided.
Markerless[edit]
Emerging techniques and research in computer vision are leading
to the rapid development of the markerless approach to motion
capture. Markerless systems such as those developed at Stanford
University, the University of Maryland, MIT, and the Max Planck
Institute, do not require subjects to wear special equipment for
tracking. Special computer algorithms are designed to allow the
system to analyze multiple streams of optical input and identify
human forms, breaking them down into constituent parts for
tracking. ESC entertainment, a subsidiary of Warner Brothers
Pictures created especially to enable virtual cinematography,
including photorealistic digital look-alikes for filming The Matrix
Reloaded and The Matrix Revolutions movies, used a technique
called Universal Capture that utilized 7 camera setup and the
tracking the optical flow of all pixels over all the 2-D planes of the
cameras for motion, gesture and facial expression capture leading
to photorealistic results.
Traditional systems[edit]
Traditionally markerless optical motion tracking is used to keep
track of various objects, including airplanes, launch vehicles,
missiles and satellites. Many such optical motion tracking
applications occur outdoors, requiring differing lens and camera
configurations. High-resolution images of the target being tracked
can thereby provide more information than just motion data. The
image obtained from NASA's long-range tracking system on the
space shuttle Challenger's fatal launch provided crucial evidence
about the cause of the accident. Optical tracking systems are also
used to identify known spacecraft and space debris despite the
fact that it has a disadvantage compared to radar in that the
objects must be reflecting or emitting sufficient light.[37]
The software that runs such systems is also customized for the
corresponding hardware components. One example of such
software is OpticTracker, which controls computerized telescopes
to track moving objects at great distances, such as planes and
satellites. Another option is the software SimiShape, which can
also be used hybrid in combination with markers.
RGB-D cameras[edit]
RGB-D cameras such as Kinect capture both the color and depth
images. By fusing the two images, 3D colored voxels can be
captured, allowing motion capture of 3D human motion and
human surface in real-time.
Because of the use of a single-view camera, motions captured
are usually noisy. Machine learning techniques have been
proposed to automatically reconstruct such noisy motions into
higher quality ones, using methods such as lazy
learning[38] and Gaussian models.[39] Such method generates
accurate enough motion for serious applications like ergonomic
assessment.[40]
Mechanical motion[edit]
Mechanical motion capture systems directly track body joint
angles and are often referred to as exoskeleton motion capture
systems, due to the way the sensors are attached to the body. A
performer attaches the skeletal-like structure to their body and as
they move so do the articulated mechanical parts, measuring the
performer's relative motion. Mechanical motion capture systems
are real-time, relatively low-cost, free from occlusion, and wireless
(untethered) systems that have unlimited capture volume.
Typically, they are rigid structures of jointed, straight metal or
plastic rods linked together with potentiometers that articulate at
the joints of the body. These suits tend to be in the $25,000 to
$75,000 range plus an external absolute positioning system.
Some suits provide limited force feedback or haptic input.
Magnetic systems[edit]
Magnetic systems calculate position and orientation by the
relative magnetic flux of three orthogonal coils on both the
transmitter and each receiver.[43] The relative intensity of the
voltage or current of the three coils allows these systems to
calculate both range and orientation by meticulously mapping the
tracking volume. The sensor output is 6DOF, which provides
useful results obtained with two-thirds the number of markers
required in optical systems; one on upper arm and one on lower
arm for elbow position and angle.[citation needed] The markers are not
occluded by nonmetallic objects but are susceptible to magnetic
and electrical interference from metal objects in the environment,
like rebar (steel reinforcing bars in concrete) or wiring, which
affect the magnetic field, and electrical sources such as monitors,
lights, cables and computers. The sensor response is nonlinear,
especially toward edges of the capture area. The wiring from the
sensors tends to preclude extreme performance movements.
[43]
With magnetic systems, it is possible to monitor the results of a
motion capture session in real time.[43] The capture volumes for
magnetic systems are dramatically smaller than they are for
optical systems. With the magnetic systems, there is a distinction
between alternating-current (AC) and direct-current (DC) systems:
DC system uses square pulses, AC systems uses sine wave
pulse.
Stretch sensors[edit]
Stretch sensors are flexible parallel plate capacitors that measure
either stretch, bend, shear, or pressure and are typically produced
from silicone. When the sensor stretches or squeezes its
capacitance value changes. This data can be transmitted via
Bluetooth or direct input and used to detect minute changes in
body motion. Stretch sensors are unaffected by magnetic
interference and are free from occlusion. The stretchable nature
of the sensors also means they do not suffer from positional drift,
which is common with inertial systems. Stretchable sensors, on
the other hands, due to the material properties of their substrates
and conducting materials, suffer from relatively low signal-to-noise
ratio, requiring filtering or machine learning to make them usable
for motion capture. These solutions result in higher latency when
compared to alternative sensors.
Non-traditional systems[edit]
An alternative approach was developed where the actor is given
an unlimited walking area through the use of a rotating sphere,
similar to a hamster ball, which contains internal sensors
recording the angular movements, removing the need for external
cameras and other equipment. Even though this technology could
potentially lead to much lower costs for motion capture, the basic
sphere is only capable of recording a single continuous direction.
Additional sensors worn on the person would be needed to record
anything more.
3D pose estimation[edit]
In 3D pose estimation, an actor's pose can be reconstructed from
an image or depth map.[45]
BẢN DỊCH
Trong các phiên chụp chuyển động, chuyển động của một hoặc
nhiều diễn viên được lấy mẫu nhiều lần mỗi giây. Trong khi các
kỹ thuật ban đầu sử dụng hình ảnh từ nhiều máy ảnh để tính toán
vị trí 3D , [ 9 ] mục đích thường của chụp chuyển động là chỉ ghi lại
chuyển động của diễn viên, không phải ngoại hình của họ. Dữ
liệu hoạt hình này được ánh xạ vào mô hình 3D để mô hình thực
hiện các hành động giống như diễn viên. Quá trình này có thể trái
ngược với kỹ thuật rotoscoping cũ hơn .
Chuyển động của máy quay cũng có thể được ghi lại chuyển
động để máy quay ảo trong cảnh quay sẽ xoay, nghiêng hoặc di
chuyển xung quanh sân khấu do người điều khiển máy quay điều
khiển trong khi diễn viên đang biểu diễn. Đồng thời, hệ thống ghi
lại chuyển động có thể ghi lại máy quay và đạo cụ cũng như màn
trình diễn của diễn viên. Điều này cho phép các nhân vật, hình
ảnh và bối cảnh do máy tính tạo ra có cùng góc nhìn với hình ảnh
video từ máy quay. Máy tính xử lý dữ liệu và hiển thị chuyển động
của diễn viên, cung cấp vị trí máy quay mong muốn về mặt các
đối tượng trong bối cảnh. Việc thu thập dữ liệu chuyển động của
máy quay một cách hồi tố từ cảnh quay đã ghi lại được gọi là di
chuyển khớp hoặc theo dõi máy quay .
Diễn viên ảo đầu tiên được hoạt hình hóa bằng công nghệ ghi
hình chuyển động được sản xuất vào năm 1993 bởi Didier
Pourcel và nhóm của ông tại Gribouille. Nó bao gồm việc "nhân
bản" cơ thể và khuôn mặt của diễn viên hài người Pháp Richard
Bohringer, sau đó hoạt hình hóa nó bằng các công cụ ghi hình
chuyển động vẫn còn mới mẻ.
Công nghệ ghi lại chuyển động mang lại một số lợi thế so
với hoạt hình máy tính truyền thống của mô hình 3D:
• Có thể thu được kết quả gần với thời gian thực, độ trễ thấp.
Trong các ứng dụng giải trí, điều này có thể giảm chi phí
cho hoạt hình dựa trên khung hình chính . [ 10 ] Kỹ thuật Hand
Over là một ví dụ về điều này.
• Lượng công việc không thay đổi theo độ phức tạp hoặc độ dài
của buổi biểu diễn ở cùng mức độ như khi sử dụng các kỹ
thuật truyền thống. Điều này cho phép thực hiện nhiều bài
kiểm tra với các phong cách hoặc cách trình bày khác nhau,
tạo ra một cá tính riêng biệt chỉ bị giới hạn bởi tài năng của
diễn viên.
• Chuyển động phức tạp và tương tác vật lý thực tế như chuyển
động thứ cấp , trọng lượng và trao đổi lực có thể dễ dàng
được tái tạo theo cách chính xác về mặt vật lý. [ 11 ]
• Lượng dữ liệu hoạt hình có thể được tạo ra trong một khoảng
thời gian nhất định là cực kỳ lớn khi so sánh với các kỹ thuật
hoạt hình truyền thống. Điều này góp phần vào cả hiệu quả
về chi phí và đáp ứng thời hạn sản xuất. [ 12 ]
• Tiềm năng cho phần mềm miễn phí và các giải pháp của bên
thứ ba giúp giảm chi phí.
Nhược điểm[ biên tập ]
Trong lĩnh vực nghiên cứu robot trên không, hệ thống bắt chuyển
động cũng được sử dụng rộng rãi để định vị. Các quy định về sử
dụng không phận hạn chế khả năng thực hiện các thí nghiệm
ngoài trời với Hệ thống máy bay không người lái ( UAS ). Các thử
nghiệm trong nhà có thể tránh được những hạn chế như vậy.
Nhiều phòng thí nghiệm và tổ chức trên khắp thế giới đã xây
dựng các khối lượng bắt chuyển động trong nhà cho mục đích
này.
Đại học Purdue sở hữu hệ thống ghi lại chuyển động trong nhà
lớn nhất thế giới, bên trong cơ sở Nghiên cứu và Thử nghiệm
UAS (PURT) của Purdue. PURT dành riêng cho nghiên cứu UAS
và cung cấp thể tích theo dõi là 600.000 feet khối bằng cách sử
dụng 60 camera ghi lại chuyển động. [ 21 ] Hệ thống ghi lại chuyển
động quang học có thể theo dõi mục tiêu trong thể tích của nó với
độ chính xác đến từng milimét, cung cấp hiệu quả vị trí thực của
mục tiêu — cơ sở “thực tế” trong nghiên cứu và phát triển. Sau
đó, kết quả thu được từ các cảm biến và thuật toán khác có thể
được so sánh với dữ liệu thực tế để đánh giá hiệu suất của
chúng.
Từ năm 2001, công nghệ ghi hình chuyển động đã được sử dụng
rộng rãi để mô phỏng hoặc gần đúng với diện mạo của rạp chiếu
phim người đóng, với các mô hình nhân vật kỹ thuật số gần
như chân thực . The Polar Express đã sử dụng công nghệ ghi
hình chuyển động để cho phép Tom Hanks đóng vai một số nhân
vật kỹ thuật số riêng biệt (trong đó anh cũng lồng tiếng). Bản
chuyển thể năm 2007 của bộ truyện Beowulf đã hoạt hình hóa
các nhân vật kỹ thuật số có ngoại hình dựa một phần vào các
diễn viên đã cung cấp chuyển động và giọng nói của họ. Bộ phim
Avatar cực kỳ nổi tiếng của James Cameron đã sử dụng kỹ thuật
này để tạo ra người Na'vi sinh sống ở Pandora. Công ty Walt
Disney đã sản xuất A Christmas Carol của Robert Zemeckis bằng
kỹ thuật này. Năm 2007, Disney đã mua lại ImageMovers
Digital của Zemeckis (công ty sản xuất phim ghi hình chuyển
động), nhưng sau đó đóng cửa vào năm 2011, sau thất bại tại
phòng vé của Mars Needs Moms .
Các bộ phim truyền hình được sản xuất hoàn toàn bằng công
nghệ hoạt hình bắt chuyển động bao gồm Laflaque ở
Canada, Sprookjesboom và Cafe de Wereld [ nl ] ở Hà Lan
và Headcases ở Vương quốc Anh.
Phân tích dáng đi là một ứng dụng của việc ghi lại chuyển động
trong y học lâm sàng . Các kỹ thuật cho phép các bác sĩ lâm sàng
đánh giá chuyển động của con người qua một số yếu tố cơ sinh
học, thường là trong khi truyền trực tiếp thông tin này vào phần
mềm phân tích.
Một ứng dụng sáng tạo là phát hiện tư thế, có thể trao quyền cho
bệnh nhân trong quá trình phục hồi sau phẫu thuật hoặc phục hồi
chức năng sau chấn thương. Phương pháp này cho phép theo
dõi liên tục, hướng dẫn thời gian thực và các chương trình được
thiết kế riêng để nâng cao kết quả cho bệnh nhân. [ 26 ]
Một số phòng khám vật lý trị liệu sử dụng công nghệ ghi lại
chuyển động như một cách khách quan để định lượng tiến trình
của bệnh nhân. [ 27 ]
Trong quá trình quay phim Avatar của James Cameron , tất cả
các cảnh quay liên quan đến chuyển động đều được đạo diễn
theo thời gian thực bằng phần mềm Autodesk MotionBuilder để
dựng hình ảnh trên màn hình, cho phép đạo diễn và diễn viên
thấy họ sẽ trông như thế nào trong phim, giúp đạo diễn dễ dàng
hơn khi chỉ đạo bộ phim như cách người xem nhìn thấy. Phương
pháp này cho phép xem các góc nhìn và góc quay mà hoạt hình
dựng sẵn không thể có. Cameron rất tự hào về kết quả của mình
đến nỗi ông đã mời Steven Spielberg và George Lucas đến
trường quay để xem hệ thống hoạt động.
Phần mềm FaceRig sử dụng công nghệ nhận dạng khuôn mặt từ
ULSee.Inc để lập bản đồ biểu cảm khuôn mặt của người chơi và
công nghệ theo dõi cơ thể từ Perception Neuron để lập bản đồ
chuyển động cơ thể lên chuyển động của nhân vật 2D hoặc 3D
trên màn hình. [ 28 ] [ 29 ]
Trong Hội nghị các nhà phát triển trò chơi 2016 tại San
Francisco, Epic Games đã trình diễn công nghệ bắt chuyển động
toàn thân trực tiếp trong Unreal Engine. Toàn bộ cảnh quay, từ
trò chơi sắp ra mắt Hellblade về một nữ chiến binh tên là Senua,
đã được dựng theo thời gian thực. Bài phát biểu chính [ 30 ] là sự
hợp tác giữa Unreal Engine , Ninja Theory , 3Lateral , Cubic
Motion , IKinema và Xsens .
Năm 2020, nhà vô địch trượt băng nghệ thuật Olympic hai
lần Yuzuru Hanyu đã tốt nghiệp Đại học Waseda . Trong luận án
của mình, anh đã sử dụng dữ liệu do 31 cảm biến đặt trên cơ thể
cung cấp để phân tích các cú nhảy của mình. Anh đã đánh giá
việc sử dụng công nghệ để cải thiện hệ thống tính điểm và giúp
người trượt băng cải thiện kỹ thuật nhảy của họ. [ 31 ] [ 32 ] Vào tháng
3 năm 2021, một bản tóm tắt của luận án đã được công bố trên
tạp chí học thuật. [ 33 ]
https://en.wikipedia.org/wiki/File:Kistler_plates.jpg
Các điểm đánh dấu phản quang được gắn vào da để xác định các điểm
mốc của cơ thể và chuyển động 3D của các phân đoạn cơ thể
https://en.wikipedia.org/wiki/File:Silhouette_tracking.PNG
Theo dõi hình bóng
Theo dõi chuyển động hoặc bắt chuyển động bắt đầu như một
công cụ phân tích ảnh trắc trong nghiên cứu cơ sinh học vào
những năm 1970 và 1980, và mở rộng sang giáo dục, đào tạo,
thể thao và gần đây là hoạt hình máy tính cho truyền hình , điện
ảnh và trò chơi điện tử khi công nghệ phát triển. Kể từ thế kỷ 20,
người biểu diễn phải đeo các điểm đánh dấu gần mỗi khớp để
xác định chuyển động theo vị trí hoặc góc giữa các điểm đánh
dấu. Các điểm đánh dấu âm thanh, quán tính, LED , từ tính hoặc
phản xạ, hoặc kết hợp bất kỳ loại nào trong số này, được theo
dõi, tối ưu ít nhất gấp hai lần tần số của chuyển động mong
muốn. Độ phân giải của hệ thống rất quan trọng đối với cả độ
phân giải không gian và độ phân giải thời gian vì chuyển động
mờ gây ra gần như cùng một vấn đề như độ phân giải thấp. Kể từ
đầu thế kỷ 21 - và do sự phát triển nhanh chóng của công nghệ -
các phương pháp mới đã được phát triển. Hầu hết các hệ thống
hiện đại có thể trích xuất hình bóng của người biểu diễn từ nền.
Sau đó, tất cả các góc khớp được tính toán bằng cách đưa một
mô hình toán học vào hình bóng. Đối với các chuyển động mà
bạn không thể thấy sự thay đổi của hình bóng, có các hệ thống lai
có thể thực hiện cả hai (điểm đánh dấu và hình bóng), nhưng với
ít điểm đánh dấu hơn. [ cần trích dẫn ] Trong robot, một số hệ thống chụp
chuyển động dựa trên định vị và lập bản đồ đồng thời . [ 34 ]
Thông tin thêm: Biểu đồ hoạt động tay trái-tay phải và Động học
Hệ thống quang học sử dụng dữ liệu thu được từ cảm biến hình
ảnh để xác định vị trí 3D của đối tượng giữa hai hoặc nhiều
camera được hiệu chỉnh để cung cấp các phép chiếu chồng lấn.
Việc thu thập dữ liệu theo truyền thống được thực hiện bằng cách
sử dụng các điểm đánh dấu đặc biệt được gắn vào một diễn viên;
tuy nhiên, các hệ thống gần đây hơn có thể tạo ra dữ liệu chính
xác bằng cách theo dõi các đặc điểm bề mặt được xác định động
cho từng đối tượng cụ thể. Việc theo dõi một số lượng lớn người
biểu diễn hoặc mở rộng khu vực chụp được thực hiện bằng cách
bổ sung thêm nhiều camera. Các hệ thống này tạo ra dữ liệu với
ba bậc tự do cho mỗi điểm đánh dấu và thông tin quay phải được
suy ra từ hướng tương đối của ba hoặc nhiều điểm đánh dấu; ví
dụ như các điểm đánh dấu vai, khuỷu tay và cổ tay cung cấp góc
của khuỷu tay. Các hệ thống lai mới hơn đang kết hợp các cảm
biến quán tính với các cảm biến quang học để giảm sự che
khuất, tăng số lượng người dùng và cải thiện khả năng theo dõi
mà không cần phải dọn dẹp dữ liệu thủ công. [ 35 ]
https://en.wikipedia.org/wiki/File:MotionCapture.jpg
Một vũ công mặc bộ đồ được sử dụng trong hệ thống chụp chuyển động
quang học
https://en.wikipedia.org/wiki/File:Motion_capture_facial.jpg
Các điểm đánh dấu được đặt tại các điểm cụ thể trên khuôn mặt của diễn
viên trong quá trình ghi lại chuyển động quang học trên khuôn mặt.
Hệ thống quang học thụ động sử dụng các điểm đánh dấu được
phủ vật liệu phản quang để phản chiếu ánh sáng được tạo ra gần
ống kính máy ảnh. Ngưỡng của máy ảnh có thể được điều chỉnh
để chỉ các điểm đánh dấu phản quang sáng mới được lấy mẫu,
bỏ qua da và vải.
Tâm của điểm đánh dấu được ước tính là vị trí trong hình ảnh hai
chiều được chụp. Giá trị thang độ xám của mỗi điểm ảnh có thể
được sử dụng để cung cấp độ chính xác của từng điểm ảnh bằng
cách tìm tâm của Gaussian .
Một vật thể có gắn điểm đánh dấu ở các vị trí đã biết được sử
dụng để hiệu chuẩn máy ảnh và xác định vị trí của chúng, và độ
méo ống kính của mỗi máy ảnh được đo. Nếu hai máy ảnh đã
hiệu chuẩn nhìn thấy một điểm đánh dấu, có thể có được bản
sửa lỗi ba chiều. Thông thường, một hệ thống sẽ bao gồm
khoảng 2 đến 48 máy ảnh. Các hệ thống có hơn ba trăm máy ảnh
tồn tại để cố gắng giảm việc hoán đổi điểm đánh dấu. Cần có
thêm máy ảnh để bao phủ toàn bộ xung quanh đối tượng chụp và
nhiều đối tượng.
Các nhà cung cấp có phần mềm hạn chế để giảm vấn đề hoán
đổi điểm đánh dấu vì tất cả các điểm đánh dấu thụ động đều có
vẻ giống hệt nhau. Không giống như các hệ thống điểm đánh dấu
chủ động và hệ thống từ tính, các hệ thống thụ động không yêu
cầu người dùng phải đeo dây hoặc thiết bị điện tử. [ 36 ] Thay vào
đó, hàng trăm quả bóng cao su được gắn bằng băng phản
quang, cần được thay thế định kỳ. Các điểm đánh dấu thường
được gắn trực tiếp vào da (như trong cơ học sinh học) hoặc
chúng được dán bằng miếng dán Velcro vào người biểu diễn mặc
bộ đồ spandex/lycra toàn thân được thiết kế riêng để ghi lại
chuyển động . Loại hệ thống này có thể ghi lại số lượng lớn điểm
đánh dấu ở tốc độ khung hình thường là khoảng 120 đến 160
khung hình/giây mặc dù bằng cách hạ thấp độ phân giải và theo
dõi vùng quan tâm nhỏ hơn, chúng có thể theo dõi tới 10.000
khung hình/giây.
https://en.wikipedia.org/wiki/File:Body_Motion_Capture.jpg
Chụp chuyển động cơ thể
Hệ thống quang học chủ động xác định vị trí bằng cách chiếu
sáng một đèn LED tại một thời điểm rất nhanh hoặc nhiều đèn
LED bằng phần mềm để xác định chúng theo vị trí tương đối của
chúng, có phần giống với định vị thiên thể. Thay vì phản xạ ánh
sáng trở lại được tạo ra bên ngoài, bản thân các điểm đánh dấu
được cấp nguồn để phát ra ánh sáng của riêng chúng. Vì định
luật nghịch đảo bình phương cung cấp một phần tư công suất ở
khoảng cách gấp đôi, điều này có thể làm tăng khoảng cách và
thể tích để chụp. Điều này cũng cho phép tỷ lệ tín hiệu trên nhiễu
cao, dẫn đến độ nhiễu điểm đánh dấu rất thấp và độ phân giải đo
lường cao (thường xuống tới 0,1 mm trong thể tích đã hiệu
chuẩn).
Bộ phim truyền hình Stargate SG1 sản xuất các tập phim sử dụng
hệ thống quang học chủ động cho VFX cho phép diễn viên đi bộ
xung quanh các đạo cụ mà các hệ thống quang học không chủ
động khác khó có thể thực hiện được việc ghi lại chuyển động. [ cần
trích dẫn ]
ILM đã sử dụng các điểm đánh dấu hoạt động trong Van
Helsing để cho phép bắt giữ các cô dâu bay của Dracula trên các
bối cảnh rất lớn tương tự như cách Weta sử dụng các điểm đánh
dấu hoạt động trong Rise of the Planet of the Apes . Sức mạnh
của mỗi điểm đánh dấu có thể được cung cấp tuần tự theo pha
với hệ thống bắt giữ cung cấp nhận dạng duy nhất của mỗi điểm
đánh dấu cho một khung bắt giữ nhất định với chi phí cho tốc độ
khung hình kết quả. Khả năng nhận dạng từng điểm đánh dấu
theo cách này rất hữu ích trong các ứng dụng thời gian thực.
Phương pháp thay thế để nhận dạng các điểm đánh dấu là thực
hiện theo thuật toán đòi hỏi phải xử lý thêm dữ liệu.
Ngoài ra còn có khả năng tìm vị trí bằng cách sử dụng các điểm
đánh dấu LED màu. Trong các hệ thống này, mỗi màu được chỉ
định cho một điểm cụ thể trên cơ thể.
Một trong những hệ thống đánh dấu chủ động sớm nhất vào
những năm 1980 là hệ thống mocap thụ động-chủ động kết hợp
với gương xoay và các điểm đánh dấu phản chiếu bằng kính màu
và sử dụng các máy dò mảng tuyến tính có mặt nạ.
Đánh dấu hoạt động điều chế theo thời gian[ biên tập ]
https://en.wikipedia.org/wiki/File:Activemarker2.PNG
Hệ thống đánh dấu hoạt động có độ phân giải cao được xác định duy nhất
với độ phân giải 3.600 × 3.600 ở tần số 960 hertz cung cấp vị trí dưới
milimét theo thời gian thực
Hệ thống đánh dấu chủ động có thể được tinh chỉnh thêm bằng
cách nhấp nháy một điểm đánh dấu tại một thời điểm hoặc theo
dõi nhiều điểm đánh dấu theo thời gian và điều chế biên độ hoặc
độ rộng xung để cung cấp ID điểm đánh dấu. Hệ thống điều chế
độ phân giải không gian 12 megapixel cho thấy các chuyển động
tinh tế hơn hệ thống quang học 4 megapixel bằng cách có cả độ
phân giải không gian và thời gian cao hơn. Đạo diễn có thể xem
diễn xuất của diễn viên theo thời gian thực và xem kết quả trên
nhân vật CG điều khiển chuyển động. ID điểm đánh dấu duy nhất
làm giảm thời gian quay vòng, bằng cách loại bỏ việc hoán đổi
điểm đánh dấu và cung cấp dữ liệu sạch hơn nhiều so với các
công nghệ khác. Đèn LED với xử lý tích hợp và đồng bộ hóa vô
tuyến cho phép ghi lại chuyển động ngoài trời dưới ánh sáng mặt
trời trực tiếp trong khi chụp ở tốc độ 120 đến 960 khung hình mỗi
giây nhờ màn trập điện tử tốc độ cao. Xử lý máy tính các ID đã
điều chế cho phép ít phải dọn dẹp bằng tay hoặc lọc kết quả để
giảm chi phí vận hành. Độ chính xác và độ phân giải cao hơn này
đòi hỏi nhiều xử lý hơn so với các công nghệ thụ động, nhưng
quá trình xử lý bổ sung được thực hiện tại máy ảnh để cải thiện
độ phân giải thông qua xử lý dưới điểm ảnh hoặc tâm điểm, cung
cấp cả độ phân giải cao và tốc độ cao. Các hệ thống ghi hình
chuyển động này thường có giá 20.000 đô la cho hệ thống tám
camera, độ phân giải không gian 12 megapixel, tần số 120 Hz với
một diễn viên.
https://en.wikipedia.org/wiki/File:PrakashOutdoorMotionCapture.jpg
Cảm biến IR có thể tính toán vị trí của chúng khi được chiếu sáng bởi các
bộ phát đa LED di động, ví dụ như trong một chiếc xe đang di chuyển. Với
Id cho mỗi điểm đánh dấu, các thẻ cảm biến này có thể được đeo dưới
quần áo và theo dõi ở tần số 500 Hz vào ban ngày.
Dấu hiệu bán thụ động không thể nhận thấy[ biên tập ]
Người ta có thể đảo ngược cách tiếp cận truyền thống dựa trên
các camera tốc độ cao. Các hệ thống như Prakash sử dụng máy
chiếu tốc độ cao đa LED giá rẻ. Máy chiếu IR đa LED được chế
tạo đặc biệt mã hóa không gian quang học. Thay vì các điểm
đánh dấu phản xạ ngược hoặc điốt phát sáng chủ động (LED), hệ
thống sử dụng các thẻ đánh dấu nhạy sáng để giải mã các tín
hiệu quang. Bằng cách gắn các thẻ có cảm biến ảnh vào các
điểm cảnh, các thẻ có thể tính toán không chỉ vị trí của riêng
chúng tại mỗi điểm mà còn cả hướng, độ chiếu sáng tới và độ
phản xạ của riêng chúng.
Các thẻ theo dõi này hoạt động trong điều kiện ánh sáng tự nhiên
và có thể được nhúng một cách không thể nhận thấy vào trang
phục hoặc các vật thể khác. Hệ thống hỗ trợ số lượng thẻ không
giới hạn trong một cảnh, với mỗi thẻ được xác định duy nhất để
loại bỏ các vấn đề thu lại điểm đánh dấu. Vì hệ thống loại bỏ
camera tốc độ cao và luồng hình ảnh tốc độ cao tương ứng, nên
nó yêu cầu băng thông dữ liệu thấp hơn đáng kể. Các thẻ cũng
cung cấp dữ liệu chiếu sáng sự cố có thể được sử dụng để khớp
với ánh sáng cảnh khi chèn các thành phần tổng hợp. Kỹ thuật
này có vẻ lý tưởng để ghi lại chuyển động trên phim trường hoặc
phát sóng thời gian thực các phim trường ảo nhưng vẫn chưa
được chứng minh.
Một hệ thống theo dõi quang học thường bao gồm ba hệ thống
con: hệ thống hình ảnh quang học, nền tảng theo dõi cơ học và
máy tính theo dõi.
Hệ thống hình ảnh quang học có nhiệm vụ chuyển đổi ánh sáng
từ khu vực mục tiêu thành hình ảnh kỹ thuật số mà máy tính theo
dõi có thể xử lý. Tùy thuộc vào thiết kế của hệ thống theo dõi
quang học, hệ thống hình ảnh quang học có thể thay đổi từ đơn
giản như máy ảnh kỹ thuật số tiêu chuẩn đến chuyên dụng như
kính thiên văn trên đỉnh núi. Thông số kỹ thuật của hệ thống hình
ảnh quang học xác định giới hạn trên của phạm vi hiệu quả của
hệ thống theo dõi.
Nền tảng theo dõi cơ học giữ hệ thống hình ảnh quang học và
chịu trách nhiệm điều khiển hệ thống hình ảnh quang học theo
cách mà nó luôn hướng đến mục tiêu đang được theo dõi. Động
lực của nền tảng theo dõi cơ học kết hợp với hệ thống hình ảnh
quang học xác định khả năng của hệ thống theo dõi trong việc
giữ khóa mục tiêu thay đổi tốc độ nhanh chóng.
Máy tính theo dõi có nhiệm vụ chụp ảnh từ hệ thống hình ảnh
quang học, phân tích ảnh để trích xuất vị trí mục tiêu và điều
khiển nền tảng theo dõi cơ học để theo dõi mục tiêu. Có một số
thách thức. Đầu tiên, máy tính theo dõi phải có khả năng chụp
ảnh ở tốc độ khung hình tương đối cao. Điều này đặt ra yêu cầu
về băng thông của phần cứng chụp ảnh. Thách thức thứ hai là
phần mềm xử lý ảnh phải có khả năng trích xuất ảnh mục tiêu
khỏi nền và tính toán vị trí của ảnh. Một số thuật toán xử lý ảnh
trong sách giáo khoa được thiết kế cho nhiệm vụ này. Vấn đề này
có thể được đơn giản hóa nếu hệ thống theo dõi có thể mong đợi
một số đặc điểm chung ở tất cả các mục tiêu mà nó sẽ theo dõi.
Vấn đề tiếp theo là điều khiển nền tảng theo dõi để theo dõi mục
tiêu. Đây là vấn đề thiết kế hệ thống điều khiển điển hình chứ
không phải là một thách thức, liên quan đến việc mô hình hóa
động lực học của hệ thống và thiết kế bộ điều khiển để điều khiển
nó. Tuy nhiên, điều này sẽ trở thành một thách thức nếu nền tảng
theo dõi mà hệ thống phải làm việc cùng không được thiết kế cho
thời gian thực.
Phần mềm chạy các hệ thống như vậy cũng được tùy chỉnh cho
các thành phần phần cứng tương ứng. Một ví dụ về phần mềm
như vậy là OpticTracker, phần mềm này điều khiển kính thiên văn
vi tính để theo dõi các vật thể chuyển động ở khoảng cách xa,
chẳng hạn như máy bay và vệ tinh. Một lựa chọn khác là phần
mềm SimiShape, cũng có thể được sử dụng kết hợp với các
điểm đánh dấu.
Do sử dụng camera một góc nhìn, các chuyển động được ghi lại
thường bị nhiễu. Các kỹ thuật học máy đã được đề xuất để tự
động tái tạo các chuyển động nhiễu như vậy thành các chuyển
động chất lượng cao hơn, bằng cách sử dụng các phương pháp
như học lười biếng [ 38 ] và mô hình Gaussian . [ 39 ] Phương pháp
như vậy tạo ra chuyển động đủ chính xác cho các ứng dụng
nghiêm túc như đánh giá công thái học. [ 40 ]
Hệ thống phi quang học[ biên tập ]Hệ thống quán tính[ biên tập ]
Công nghệ bắt chuyển động quán tính [ 41 ] dựa trên các cảm biến
quán tính thu nhỏ, mô hình cơ sinh học và thuật toán hợp nhất
cảm biến . [ 42 ] Dữ liệu chuyển động của các cảm biến quán tính
( hệ thống dẫn đường quán tính ) thường được truyền không dây
đến máy tính, nơi chuyển động được ghi lại hoặc xem. Hầu hết
các hệ thống quán tính sử dụng các đơn vị đo lường quán tính
(IMU) chứa sự kết hợp của con quay hồi chuyển, từ kế và gia tốc
kế để đo tốc độ quay. Các vòng quay này được chuyển thành bộ
khung trong phần mềm. Giống như các điểm đánh dấu quang
học, càng nhiều cảm biến IMU thì dữ liệu càng tự nhiên. Không
cần camera, bộ phát hoặc điểm đánh dấu bên ngoài cho các
chuyển động tương đối, mặc dù chúng được yêu cầu cung cấp vị
trí tuyệt đối của người dùng nếu muốn. Các hệ thống bắt chuyển
động quán tính bắt toàn bộ sáu bậc tự do chuyển động của cơ
thể con người theo thời gian thực và có thể cung cấp thông tin về
hướng hạn chế nếu chúng bao gồm cảm biến ổ trục từ, mặc dù
chúng có độ phân giải thấp hơn nhiều và dễ bị nhiễu điện từ. Lợi
ích của việc sử dụng hệ thống quán tính bao gồm: bắt giữ trong
nhiều môi trường khác nhau bao gồm không gian chật hẹp,
không giải quyết được, tính di động và khu vực bắt giữ lớn.
Nhược điểm bao gồm độ chính xác vị trí thấp hơn và độ trôi vị trí
có thể tích tụ theo thời gian. Các hệ thống này tương tự như bộ
điều khiển Wii nhưng nhạy hơn và có độ phân giải và tốc độ cập
nhật cao hơn. Chúng có thể đo chính xác hướng xuống đất trong
phạm vi một độ. Sự phổ biến của hệ thống quán tính đang tăng
lên trong số các nhà phát triển trò chơi, [ 10 ] chủ yếu là do thiết lập
nhanh chóng và dễ dàng dẫn đến một đường ống nhanh. Một loạt
các bộ đồ hiện có sẵn từ nhiều nhà sản xuất khác nhau và giá cơ
bản dao động từ 1000 đô la đến 80.000 đô la Mỹ.
Kỹ thuật liên quan[ biên tập ]Chụp chuyển động khuôn mặt[ biên tập ]
Bài viết chính: Chụp chuyển động khuôn mặt
Hầu hết các nhà cung cấp phần cứng chụp chuyển động truyền
thống đều cung cấp một số loại chụp khuôn mặt có độ phân giải
thấp sử dụng từ 32 đến 300 điểm đánh dấu với hệ thống đánh
dấu chủ động hoặc thụ động. Tất cả các giải pháp này đều bị giới
hạn bởi thời gian áp dụng các điểm đánh dấu, hiệu chỉnh vị trí và
xử lý dữ liệu. Cuối cùng, công nghệ cũng giới hạn độ phân giải và
mức chất lượng đầu ra thô của chúng.
Chụp chuyển động khuôn mặt độ trung thực cao, còn được gọi
là chụp hiệu suất , là thế hệ tiếp theo của độ trung thực và được
sử dụng để ghi lại các chuyển động phức tạp hơn trên khuôn mặt
con người nhằm nắm bắt các cấp độ cảm xúc cao hơn. Chụp
khuôn mặt hiện đang được sắp xếp theo một số nhóm riêng biệt,
bao gồm dữ liệu chụp chuyển động truyền thống, các giải pháp
dựa trên hình dạng pha trộn, chụp cấu trúc thực tế của khuôn mặt
diễn viên và các hệ thống độc quyền.
Hai kỹ thuật chính là các hệ thống cố định với một mảng camera
chụp biểu cảm khuôn mặt từ nhiều góc độ và sử dụng phần mềm
như bộ giải lưới stereo từ OpenCV để tạo lưới bề mặt 3D hoặc
sử dụng cả mảng ánh sáng để tính toán các pháp tuyến bề mặt
từ sự thay đổi độ sáng khi nguồn sáng, vị trí camera hoặc cả hai
thay đổi. Các kỹ thuật này có xu hướng chỉ bị giới hạn ở độ phân
giải tính năng bởi độ phân giải camera, kích thước vật thể rõ ràng
và số lượng camera. Nếu khuôn mặt của người dùng chiếm 50
phần trăm diện tích làm việc của camera và camera có độ phân
giải megapixel, thì có thể phát hiện chuyển động khuôn mặt dưới
milimét bằng cách so sánh các khung hình. Công trình gần đây
tập trung vào việc tăng tốc độ khung hình và thực hiện luồng
quang học để cho phép chuyển động được nhắm mục tiêu lại đến
các khuôn mặt khác do máy tính tạo ra, thay vì chỉ tạo Lưới 3D
của diễn viên và biểu cảm của họ.
Một giải pháp thay thế khác là sử dụng nền tảng chuyển động
6DOF (Degrees of freedom) với máy chạy bộ đa hướng tích hợp
có khả năng bắt chuyển động quang học độ phân giải cao để đạt
được hiệu ứng tương tự. Người bị bắt có thể đi bộ trong một khu
vực không giới hạn, vượt qua nhiều địa hình không bằng phẳng
khác nhau. Các ứng dụng bao gồm phục hồi chức năng y tế để
rèn luyện thăng bằng, nghiên cứu cơ sinh học và thực tế ảo. [ cần trích
dẫn ]