✨Liên kết hỏng
thumb|Một trang web liên kết hỏng thường sẽ báo lỗi như thế này Liên kết hỏng là hiện tượng các siêu liên kết bị mất khả năng trỏ đến các tập tin đích đến, trang web hoặc máy chủ sau một thời gian do tài nguyên đó đã bị chuyển sang địa chỉ truy cập mới hoặc trở nên không khả dụng vĩnh viễn (thường là do bị xóa). Liên kết (link) mà không còn trỏ đến đối tượng chỉ định còn được gọi là link hỏng, link chết. Thuật ngữ gốc bên tiếng Anh là link rot hoặc broken link.
Giới học thuật và nghiên cứu đã lựa chọn khảo sát tỷ lệ liên kết hỏng do tính chất quan trọng và tác động tiêu cực của hiện tượng này đối với việc chia sẻ và bảo toàn thông tin trên mạng Internet. Kết quả ước tính cho thấy có sự chênh lệch số liệu tỷ lệ đáng kể giữa các bài nghiên cứu. Nhiều chuyên gia trong lĩnh vực công nghệ thông tin đã lên tiếng cảnh báo rằng hiện tượng liên kết hỏng có thể gây mất những dữ liệu quan trọng, làm ảnh hưởng đến hệ thống luật pháp và nhu cầu học thuật.
Liên kết hỏng xảy ra ở nhiều nguyên nhân khác nhau, chẳng hạn như di dời, xóa bỏ tệp đích, lỗi máy chủ, hết hạn tên miền gây báo lỗi HTTP 404. Giải pháp ngăn chặn liên kết hỏng chủ yếu là tạo URL cố định, di dời nội dung sang nơi tồn tại lâu hơn, tạo liên kết ít bị hỏng, dùng dịch vụ lưu trữ liên kết sẵn có, hoặc sửa chữa liên kết hỏng.
Nghiên cứu
Vì tính chất quan trọng và sức ảnh hưởng của hiện tượng liên kết hỏng đối với việc tra cứu và lưu trữ thông tin, nhiều cuộc nghiên cứu đã tiến hành thu thập và truy tìm số liệu liên quan đến hiện tượng trong hệ thống mạng lưới toàn cầu World Wide Web, trong các tài liệu học thuật sử dụng URL để trích dẫn nguồn nội dung từ web, và trong thư viện số.
Một bài nghiên cứu năm 2002 cho biết rằng hiện tượng liên kết hỏng ở thư viện số xảy ra chậm hơn ở trên web, và nhận thấy cứ một năm thì có khoảng 3% đối tượng không còn truy cập được (tương đương với chu kỳ bán rã gần 23 năm). Tiếp đến, một bài nghiên cứu năm 2003 đã nhận thấy rằng, cứ 200 liên kết thì sẽ có 1 liên kết bị hỏng mỗi tuần, ứng với chu kỳ bán rã 138 tuần. Tỷ lệ này lại một lần nữa được xác nhận trong bài nghiên cứu năm 2016–2017 về liên kết ở Yahoo! Directory (vốn dĩ trang này đã ngưng cập nhật vào năm 2014 sau 21 năm vận hành và phát triển) và nhận thấy chu kỳ bán rã của các liên kết thư mục là 2 năm.
Một nghiên cứu năm 2004 đã chứng minh các tập hợp con của các liên kết trang web (chẳng hạn như các liên kết trỏ đến đến các loại tập tin cụ thể hoặc các liên kết được các tổ chức học thuật lưu trữ) có thể có chu kỳ bán rã khác nhau rõ rệt. Các URL liên quan đến xuất bản (báo chí, học thuật,...) dường như có tuổi thọ cao hơn URL bình thường. Nhằm củng cố, một nghiên cứu năm 2015 của Weblock đã phân tích hơn 180.000 liên kết đến từ các tài liệu tham khảo trong tập hợp toàn văn của 3 nhà xuất bản truy cập mở lớn và cho biết, chu kỳ bán rã rơi vào khoảng 14 năm. Đây ngầm chứng minh một nghiên cứu năm 2005 đó chính là phân nửa số URL đến từ các bài viết bên D-Lib Magazine vẫn còn hoạt động sau 10 năm.
Những bài khác thì cho rằng tỷ lệ xảy ra hiện tượng liên kết hỏng ở các tài liệu học thuật cao hơn, với mức chu kỳ bán rã được đề xuất thông thường rơi vào 4 năm hoặc hơn. Bài nghiên cứu năm 2013 bên BMC Bioinformatics phân tích gần 15.000 liên kết chỉ mục trích dẫn Web of Science của Thomson Reuters và nhận thấy tuổi thọ trung bình của các trang web đạt 9,3 năm và chỉ có 62% trang là được lưu trữ. Kế đến vào năm 2021, một nghiên cứu về các liên kết bên ngoài trên các bài báo New York Times được xuất bản từ năm 1996 đến năm 2019 cho thấy chu kỳ bán rã rơi vào khoảng 15 năm (nhưng lại khác biệt đáng kể, tùy thuộc vào chủ đề nội dung). Bài nghiên cứu còn cho biết thêm, 13% liên kết tuy vẫn còn hoạt động nhưng không còn cung cấp nội dung ban đầu nữa. Hiện tượng này được gọi là trôi dạt nội dung (content drift).
Quan trọng hơn, một bài báo cáo vào năm 2013 cho biết, có tới 49% là liên kết hỏng trên tổng số liên kết được dẫn trong các quyết định của Tòa án Tối cao Hoa Kỳ. Một nghiên cứu năm 2023 đã theo dõi các trang tổng quan về đại dịch COVID-19 tại Hoa Kỳ và nhận thấy rằng: 23% số URL trang tổng quát của tiểu bang đã bị thay đổi vào tháng 4 năm 2023, so với thời điểm tháng 2 năm 2021.
Nguyên nhân và hậu quả
Liên kết hỏng xảy ra ở nhiều nguyên nhân khác nhau: Đối tượng mà trang web trỏ đến bị xóa mất, máy chủ lưu trữ trang đích ngừng hoạt động, bị gỡ bỏ khỏi dịch vụ cung cấp lưu trữ hoặc bị chuyển sang một tên miền mới. Từ năm 1999, các chuyên gia đã lưu ý về vấn đề lưu trữ lượng lớn tài liệu trên ổ cứng rằng, "một lỗi ổ đĩa có thể giống như đi đốt thư viện ở Alexandria." Ngoài ra, hoạt động đăng ký tên miền có thể sẽ hết hạn hoặc được sang nhượng cho bên khác, cũng là nguyên nhân gây ra hiện tượng liên kết hỏng.
Giải pháp và nhận diện
Phương pháp cơ bản để tránh hiện tượng hỏng liên kết đó chính là tạo các URL cố định không thay đổi theo thời gian. Tim Berners-Lee và những người tiên phong phát triển web khác đã nhấn mạnh tầm quan trọng của việc lên kế hoạch ngăn chặn URL hỏng.
Bên cạnh đó, giải pháp có thể kể đến gồm có: liên kết đến các nguồn chính chứ không phải nguồn thứ cấp và ưu tiên các trang web ổn định; sử dụng liên kết cố định hoặc mã nhận diện thường trực như ARK, DOI, tham khảo Handle System, PURL, hoặc CAS. Người dùng Internet cần phải tránh liên kết đến các tài liệu không phải là trang web hoặc deep linking, WebCite, archive.today, Perma.cc, Amber, hoặc Arweave.
Một số chiến lược xử lý các liên kết được đề xuất như: sử dụng cơ chế chuyển hướng chẳng hạn như HTTP 301 để tự động đưa trình duyệt và trình thu thập thông tin tới nội dung được di chuyển sang nơi khác; sử dụng hệ thống quản lý nội dung trang web có thể tự động cập nhật liên kết khi nội dung trong cùng một trang web được di chuyển hoặc tự động thay thế liên kết bằng URL chuẩn và tích hợp tìm kiếm các tài nguyên vào trang HTTP 404.
Người ta có thể phát hiện các liên kết bị hỏng bằng thủ công hoặc tự động. Các phương pháp tự động có thể kể đến gồm có plug-in dành cho hệ thống quản lý nội dung cũng như các trình kiểm tra liên kết bị hỏng độc lập như Xenu's Link Sleuth. Tuy nhiên, trình kiểm tra tự động có thể không nhận diện ra được các liên kết trả về mã lỗi 404 mềm hoặc các liên kết tuy trả về phản hồi 200 OK nhưng lại trỏ đến nội dung đã bị thay đổi.
