Xem ngayHỗ trợ miễn phí bởi Dreamlib.vn

Khai thác dữ liệu hành vi tìm kiếm thông tin học thuật cho dịch vụ thư viện

Cho tới hiện nay, dữ liệu hành vi tìm kiếm thông tin học thuật của người dùng tin đã bị bỏ qua và coi nhẹ khi chúng ta muốn nâng cao chất lượng dịch vụ thư viện, bởi vậy chúng ta cần phải xem xét theo hướng này, như sự phát triển các dịch vụ chỉ dẫn và sự đo lường mới để đánh giá tài liệu học thuật hay nghiên cứu trong thư viện.

Ngồi trên mỏ vàng

“Google Wants Your Links, Not Your Content” (“Google muốn nối kết của bạn, không phải nội dung của bạn”) là nhan đề của một bài báo đăng tải gần đây trên blog của Hiệp hội Xuất bản Tài liệu Nghiên cứu (Society for Scholarly Publishing – SSP) đã lôi cuốn sự chú ý của chúng ta vượt ra khỏi việc một thư viện có nội dung tới việc sử dụng nội dung đó.(1) Người dùng tin tiến hành lựa chọn tài liệu phù hợp khi họ di chuyển giữa nhiều tài nguyên thông tin và dữ liệu di chuyển giá trị này – User ‘clickstreams’ có thể được thu thập và phân tích. Dữ liệu di chuyển của người dùng này (user clickstreams) sẽ chỉ ra sự lựa chọn thực tế của người dùng tin, và sau đó nó được sử dụng bởi các nhà cung cấp dịch vụ như Google (2) và Amazon (3) để giúp người dùng phát hiện những đầu mục quan tâm.

Nếu độc giả đọc tài liệu này có thể đọc những bài báo được chỉ dẫn dưới đây ……

Những dịch vụ chỉ dẫn giờ đây đã xuất hiện trong các ứng dụng thư viện. LibraryThing (4), BibTip (5) và bXTM (6) là những ví dụ như vậy. Những ứng dụng này ghi lại tài nguyên thông tin mà người dùng tin lựa chọn cùng trật tự mà người dùng truy cập chúng, để những chỉ dẫn có thể được hiển thị cho những người dùng tin khác. LibraryThing và BibTip ghi nhận lại sự truy cập tới một “mục lục” và những chỉ dẫn được cung cấp ở cấp độ nhan đề đầu mục, cụ thể là nhan đề sách. bX có tiềm năng ghi nhận lại sự truy cập tới toàn bộ sưu tập của thư viện, bao gồm cả tài nguyên lưu ở các máy chủ ở xa; những chỉ dẫn được cung cấp cụ thể hơn ở cấp độ bài báo (article level).

BibTip và bX, đều lần lượt được phát triển từ các dự án nghiên cứu tại Đại học Karlsruhe (Karlsruhe University), Đức, và Phòng thí nghiệm Quốc Gia Los Alamos (Los Alamos National Laboratory), cùng sử dụng sự phân tích thống kê hành vi tìm kiếm tài nguyên học thuật của người dùng tin để phát sinh các chỉ dẫn. Các chỉ dẫn được cung cấp dựa trên sự kết hợp truy xuất các đầu mục tài liệu trong một phiên làm việc của người dùng tin. BibTip sử dụng dữ liệu từ mục lục thư viện – OPAC trong khi bX tích hợp nhiều tệp tin xử lý nối kết từ nhiều các viện nghiên cứu và trường đại học từ khắp nơi trên thế giới.

BibTip và bX là những ví dụ tốt của việc khai thác trí tuệ tập thể từ những người dùng tin thư viện để phục vụ chính nhu cầu của thư viện. Các dịch vụ chỉ dẫn đã tiên phong trong việc trợ giúp người dùng tin tìm thấy thông tin phù hợp mà không đòi hỏi phải thực hiện những câu hỏi truy vấn thêm; những đầu mục tài liệu quan tâm tự tìm thấy người dùng tin của mình thay vì người dùng tin phải thực hiện tìm kiếm để tiếp cận chúng.

Sự đo lường cho đánh giá tài nguyên học thuật

Việc khai thác trí tuệ tập thể từ người dùng thư viện sẽ mở ra một sự cung cấp sự đo lường mới để đánh giá tài nguyên thông tin học thuật hay nghiên cứu. Mặc dù trong một thập kỷ qua phạm vi của thông tin nghiên cứu đã được mở rộng hơn nhiều, vượt ra khỏi môi trường tài liêu in truyền thống, nhưng sự đánh giá nghiên cứu vẫn phần lớn dựa vào dữ liệu trích dẫn và tác giả, và đồng thời chỉ xem xét nguồn gốc tới những tài liệu in.

Sự đánh giá tài liệu nghiên cứu đóng góp bởi chính người dùng sẽ cung cấp một lựa chọn thay thế trước phương pháp đánh giá dựa trên trích dẫn; chuyển sự tập trung từ tác giả tới người đọc. Sự đánh giá thay thế này cung cấp một phương tiện trung gian hơn trong việc phản ánh sự quan trọng của các bài báo đối với người dùng tin và đặc biệt hữu ích đối với các tạp chí, những tài liệu có số lượng sử dụng cao bởi các nhà nghiên cứu, sinh viên hoặc nhà thực nghiệm. Hơn nữa, nó có tiềm năng để cung cấp chỉ dẫn cho những tài liệu và dạng tài liệu mới mà hiện nay không thể cung cấp bởi chỉ số ảnh hưởng khoa học (Impact Factor)7 của một tạp chí. Sự đo lường dựa trên dữ liệu sử dụng vẫn không thể thay thế chỉ số ảnh hưởng khoa học (IF) của tạp chí đã tồn tại từ lâu, xong nó sẽ là một sự đo lường bổ sung quan trọng cho thư viện. Hiện có rất nhiều sáng kiến hướng tới quyết định một sự đo lường dựa trên mức độ sử dụng để đánh giá tài liệu học thuật hay nghiên cứu, bao gồm Dự án Chỉ số Sử dụng (Usage Factor) của Kingdom Serials Group – UKSG)8 và dự án MESUR9 (Project MESUR).

Chỉ số Sử dụng của UKSG

Vào năm 2006, UKSG xây dựng một dự án để nghiên cứu tiềm năng của dữ liệu sử dụng như là một cách để phát sinh dữ liệu đo lường đối với sự đánh giá tài liệu học thuật. Bước nghiên cứu đầu tiên đó là họ dựa trên một tập hợp dữ liệu sử dụng lớn tương thích khổ mẫu COUNTER10. Những phát hiện khả quan đã thấy được từ kết quả của các cuộc điều tra tiến hành với nhiều thủ thư và các nhà xuất bản vào năm 2006 – 2007; và từ sự thử nghiệm sau này cũng như sự xây dựng mô hình với dữ liệu sử dụng thực tế vào năm 2008. Nhiều bước nghiên cứu sau đã được xem xét tập trung vào phát hiện ra sự đo lường dựa trên dữ liệu tiềm năng nào để có thể thử nghiệm lâu dài trên quy mô lớn. Những bước nghiên cứu này bao gồm phân tích dữ liệu và mô hình hóa sự sử dụng dữ liệu từ nhiều các nhà cung cấp nội dung.

Dự án MESUR (Project MESUR)

Dự án MESUR (Project MESUR), đứng đầu bởi Johan BollenHerbert Van de Sompel từ Phòng thí Nghiệm Quốc gia Mỹ Los Alamos (Los Alamos National Laboratory, USA), và được hỗ trợ bởi Quỹ Andrew W. Mellon (Andrew W. Mellon foundation), đã có một báo cáo sớm năm nay về kết quả của những nghiên cứu của họ đối với sự đo lường dựa trên dữ liệu sử dụng11.

Nhóm dự án MESUR đã thu thập hơn một tỉ giao dịch từ các hệ thống xử lý nối kết OpenURL và từ các nhà xuất bản khoa học và nhà tích hợp nội dung quan trọng nhất. Những giao dịch này phản ánh hành vi của người dùng tin trên khắp các tài nguyên học thuật rộng lớn và đa dạng, đồng thời đại diện cho các tìm kiếm dữ liệu điện tử mà trong đó người dùng tin di chuyển từ một tạp chí này sang một tạp chí khác, bởi vậy tạo dựng lên các mối liên hệ giữa chúng.

Dự án MESUR đã điều tra nhiều cách thức đo lường dựa trên thông tin trích dẫn và sử dụng (gần 40 cách) mà mỗi cách thể hiện một góc độ nhất định về tác động có tính khoa học của tài liệu. Một số cách đo lường chính được phát triển cho những tác động khoa học khác nhau, cụ thể đó là tốc độ mà một sự đo lường có thể chỉ ra sự thay đổi các mối quan tâm nghiên cứu khoa học theo thời gian, và cũng cả mức độ phổ biến của một tạp chí so với uy tín hay sự ảnh hưởng của nó. Bởi vậy, một phương pháp đo lường thể hiện một sự kết hợp những tiêu chí này sẽ tạo lên một tác động khoa học (scientific impact) của tài liệu, và có thể được lựa chọn để bổ trợ lẫn nhau.

Bản đồ của khoa học

Ngoài việc đề xuất một cách đo lường dựa trên dữ liệu sử dụng đối với việc đánh giá tài nguyên thông tin học thuật, nhóm dự án MESUR đã sử dụng một khối lượng lớn dữ liệu sử dụng để tạo ra bức tranh đương thời của hoạt động nghiên cứu khoa học (Hình 1). Mỗi một dấu chấm trên bản đồ đại diện cho một tạp chí và những tạp chí đó được mã hóa màu để dễ dàng nhận ra mỗi chủ đề. Những đường kẻ nối kết lẫn nhau phản ánh khả năng một độc giả sẽ di chuyển từ một tạp chí này sang một tạp chí khác trên màn hình máy tính, mỗi lần lại nhấp chuột vào những bài báo được quan tâm.

Bản đồ này khác nhau nhiều với các bản đồ tương tự được xây dựng trên cơ sở thông tin trích dẫn thay vì dữ liệu sử dụng, và đồng thời nó điều chỉnh lại sự không được mô tả đúng mức về các môi khoa học xã hội và nhân văn thường thấy trong dữ liệu trích dẫn. Theo tiến sĩ Bollen, những bản đồ di chuyển này cung cấp một sự mô tả ngay lập tức về những gì người dùng tin đang thực hiện, và bởi vậy nó có thể trợ giúp trong việc biết được xu hướng nghiên cứu đang phát triển, đồng thời thông báo cho các tổ chức cấp tài chính biết về xu hướng đó, cũng như trợ giúp các nhà nghiên cứu tìm hiểu các mối quan hệ giữa các ngành học thuật.12 Hơn nữa những bản đồ khoa học như vậy có thể giúp các nhà nghiên cứu nhận ra những tạp chí quan trọng trong lĩnh vực quan tâm cụ thể của họ.

 

Các bước nghiên cứu tiếp theo

Những bước nghiên cứu đầu tiên trong việc khai mỏ dữ liệu hành vi để nâng cao chất lượng dịch vụ thư viện là những bước đi quan trọng và đồng thời đặt thư viện trên một lộ trình nhằm đánh giá giá trị ẩn sau dữ liệu mà họ nắm giữ. Các mô hình về hành vi tìm kiếm thông tin học thuật có thể giúp hiểu biết tốt hơn những nối kết giữa các đầu mục tài liệu tạo ra một thư viện, cho phép có sự chỉ dẫn tốt hơn trong việc sử dụng tài nguyên thông tin thư viện, và có thể giúp đánh giá giá trị của tài nguyên học thuật một cách khách quan hơn. Với một xã hội của chúng ta hiện ngày càng tập trung vào đo lường hàm lượng nghiên cứu (research outputs) và chất lượng nghiên cứu (research quality), thì chúng ta cần phải xem xét nghiêm túc tới các phương pháp đo lường mới dựa trên dữ liệu sử dụng. Trong tương lai, sự kết hợp dữ liệu di chuyển của người dùng tin với thông tin của các tệp tin người dùng (User Profiles) sẽ có một tiềm năng to lớn nhằm làm cho dữ liệu này trở lên có giá trị hơn.

Serials – 22 (2), 7/2009
Jenny Walker
Nhà tư vấn trong ngành công nghiệp thông tin
Information Industry Consultant

Tài liệu tham khảo

1. Anderson, K, Google wants your links, not your

content, 14 April 2009. Available at: http://scholarlykitchen.sspnet.org/2009/04/14/linksmatter-more-than-content-folks/ (Accessed 28 May 2009)

2. Google: http://www.google.com (Accessed 28 May 2009)

3. Amazon: http://www.amazon.com (Accessed 28 May 2009)

4. LibraryThing: http://www.librarything.com/ (Accessed 28 May 2009)

5. BibTip: http://www.bibtip.org/ (Accessed 28 May 2009)

6. bX Recommender Service: http://www.exlibrisgroup.com/category/bX Overview (Accessed 28 May 2009)

7. Thomson Scientific Journal Impact Factor http://thomsonreuters.com/business_units/

scientific/free/essays/impactfactor/ (Accessed 28 May 2009)

UKSG Usage Factors http://www.uksg.org/usagefactors

9. Project MESUR www.mesur.org (Accessed 28 May 2009)

10. COUNTER: http://www.projectcounter.org (Accessed 28 May 2009)

11. Bollen J, Van de Sompel H, Hagberg A, Chute R. 2009, A principal component of 39 scientific impact

measures. Available at: http://arxiv.org/abs/0902.2183 (Accessed 28 May 2009)

12. Bollen J, Van de Sompel H, Hagberg A, BettencourtL, Chute R, et al. 2009 Clickstream Data Yields

High-Resolution Maps of Science, PLoS ONE 4(3):e4803. doi:10.1371/journal.pone.0004803. Available at: http://www.plosone.org/article/info%3Adoi%2F10.

13 71%2Fjournal.pone.0004803 (Accessed 28 May 2009)

(Nguồn trích: http://www.ted.com.vn)