Wikidata:Property proposal/Danacode

From Wikidata
Jump to navigation Jump to search

Danacode

[edit]

Originally proposed at Wikidata:Property proposal/Authority control

DescriptionDanacode identifier of a written work
RepresentsDanacode (Q113022438)
Data typeExternal identifier
Domaininstance of (P31)version, edition or translation (Q3331189)
Example 11984 (Q113133917) → 32-11048 (or maybe the extended code: 003200110487)
Example 2Q113278990 → 31-4090 (or maybe the extended code: 003100040907)
Example 3Q113279156 → 40-51504 (or maybe the extended code: 004000515045)
Example 4Q113360746 → 644-1031 (or maybe the extended code: 064400010311)
Expected completenessalways incomplete (Q21873886)
Formatter URLhttps://simania.co.il/searchBooks.php?searchType=tabAll&query=$1
See alsoISBN-13 (P212), ISBN-10 (P957)
Distinct-values constraintyes

Motivation

[edit]
עברית: דאנאקוד הוא קוד מזהה מאוד נפוץ בישראל לזיהוי ספרים עבריים (אבל גם ספרים בשפות אחרות שמופצים בארץ). לחלק גדול מהספרים שיוצאים לאור בארץ אין מסת"ב והדאנאקוד הוא חלופתה המקומית. גם בחלק גדול מהספריות וחנויות הספרים בארץ, השימוש בדאנאקוד בברקודים ולצרכים ארגוניים הוא חשוב מאוד. במידה שוויקינתונים יהיה שימושי לצרכים ביבליוגראפיים ולזיהוי ספרים ישראליים, חשוב להוסיף את הדאנאקוד.


גורם מסבך אחד שיש בדאנאקוד (עם משווים עם מסת"ב) זה ייצוגו המרובה. במפורש, יש בעיקר שני ייצוגים לכל קוד. הייצוג המקוצר נמצא בשימוש נרחב במקומות שמיועדים לקריאה על ידי אנשים והארוך מיועד בדרך כלל למערכות מידע, כגון ברקודים וגם מסדי נתונים. ובכן, באתר של דאנאקוד אומרים (בתרגום חופשי מאנגלית) ש:

"במסדי נתונים, דאנאקוד מיוצג כטקסט, כ־12 תווים, המכילים את ספרת הביקורת. בכל זאת, אפשר לייצג אותו רק דרך 11 התווים הראשונים ואפשר לחשב את ספרת הביקורת לפי כשיהיה צורך. ייצוג חזותי שימושי מאוד זה הגרסה המקוצרת שבה שמים מקף אמצעי בין מספר המו"ל לבין מספר הפנימי של המו"ל, ובגרסה הזאת לא מכילים את האפסים המובילים בשני המספרים וגם לא מכילים את ספרת הביקורת. המאף האמצעי משמש לצרכים חזותיים בלבד ולא נחשב כחלק ממערכת המספרים של דאנאקוד. לכן, הדאנאקוד 080002610032 מקוצר חזותית ל־800-261003."

אתרי אינטרנט רבים שמכילים דאנאקוד מכילים את הגרסה המקוצרת הזאת. גם, לפעמים הספרייה הלאומית מכילה את הדאנאקוד ברשומות ה־MARC שלהם, ושם משתמשים בקוד המורחב בן 12 תווים. בגלל שאני לא מומחה גדול בויקינתונים, אני לא בטוח איך אנחנו מטפלים בייצוג המרובה שכזה בדרך כלל. לעכשיו, אני מציע שנכניס את ה קוד המורחב לתוך רשומותינו בוויקינתונים, אך אולי נרצה אופן אוטומטי להמיר בין הקוד המקוצר לקוד המלא שבן 12 תווים.

למי שמעוניין, קיים כאן גיליון (שנמצא באתר של מרכז הספר והספריות, ושמסופק על־ידי הספרייה הלאומית) שמחשב את הדאנאקוד המורחב מהדאנאקוד המקוצר.

חשוב לציין שה־formatter URL שנתתי לעיל הוא לצד שלישי, Simania (Q6680757) (ולא לDanalog (Q113688058) עצמו שלא הצלחתי למצוא בקלות דף ידידותי למשתמש שאפשר להשתמש בו כ־formatter URL). מערכת החיפוש של Simania (Q6680757) תומכת אך ורק בייצוג המורחב של הדאנאקוד. בין האופציות הסבירות האחרות נכלל https://merhav.nli.org.il/primo-explore/search?query=any,contains,$1&tab=blended&search_scope=NLI_Blend&vid=NLI&lang=iw_IL&offset=0 שהוא קישור לMerhav (Q108571985) מבית National Library of Israel (Q188915), וגם הוא תומך אך ורק בדאנאקוד המורחב (אבל זה יותר חיפוש חופשי ופחות כתובת URL ספציפי לחיפוש דאנאקוד).

מצד שני, קיימים גם https://www.am-oved.co.il/AllResults?bskeyword=$1 שיעבוד לספרים בהוצאת Am Oved (Q2840776) ו https://www.schocken.co.il/Book/Anything.aspx?code=$1 שעובד לספרים בהוצאת Schocken Books (Q1020343), אבל המערכות האלה משתמשות בדאנאקוד המקוצר ולא המורחב. עם זאת, עדיין לא ברור לי אם עדיף לאחסן את הייצוג המקוצר או המורחב במאפיין המוצע. אולי אפילו יהיה צורך בשני מאפיינים, אבל אני לא בטוח.

תודה רבה לכולם. לוכסן (talk) 17:48, 30 July 2022 (UTC)[reply]
English: Danacode is an identifier code which is extremely common in Israel for the purpose of identifying Hebrew-language books (thought notably also books in other languages which are distributed in Israel). Many of the books which are published in Israel have only a Danacode and do not have an ISBN at all. Additionally, in a large portion of the libraries and bookstores in Israel, Danacode is used for barcodes and important organizational purposes internally. To the degree that Wikidata is to be useful for the ability to identify books and track the bibliographic information of books published in Israel, it is very important to be able to track Danacode.

One complicating factor that Danacode has (compared to ISBN) is its multiple representations. Specifically, there are two to three major representations of the same code. Citing the Danacode website itself, they say:

"In Databases danacode is represented as text, 12 characters, including the check digit. Still it can be represented by 11 characters and the check digit can be calculated when needed. A very useful visual representation is a short version which puts a hyphen between Publisher and Publication numbers, ignores leading zeroes in both numbers and omits the check digit. The hyphen is used for visualization only and is not part of the danacode numbering system. Thus the danacode 080002610032 is reduced visually to 800-261003"

Many websites that contain a Danacode contain this short-version. Additionally, the National Library of Israel has Danacode listed often in their MARC records, and there it uses the 12 character full version with check digit. Not being an expert in Wikidata, I'm not entirely sure offhand how we generally handle this multiple representation nature. For now, I'm going to suggest we want the extended full code in Wikidata, though we may want some automated way to convert shortened codes to the full 12-digit code.

For those interested, here there is a spreadsheet on the website of the Israeli Center for Libraries (Q6959775) (which is said to be provided by National Library of Israel (Q188915)) which calculates the extended Danacode from the short, hyphenated form.

Note that the formatter URL that I gave is to a 3rd party service, Simania (Q6680757), whose search feature supports ISBN and Danacode for books in its catalog, but notably, it only supports the 12-digit extended Danacode format for searches. Other format URLs which can work include https://merhav.nli.org.il/primo-explore/search?query=any,contains,$1&tab=blended&search_scope=NLI_Blend&vid=NLI&lang=iw_IL&offset=0, which searches the index of the Merhav (Q108571985) by the National Library of Israel (Q188915), also with the extended Danacode, though this is more of a freeform search box than an exact lookup by Danacode.

On the other hand, https://www.am-oved.co.il/AllResults?bskeyword=$1 works for books published by Am Oved (Q2840776), and https://www.schocken.co.il/Book/Anything.aspx?code=$1 works for books published by Schocken Books (Q1020343), but both exclusively support the short-code. So, it seems to me that it isn't totally clear whether we should store the the long or the short form of the Danacode, or maybe we might even need two properties?

Thank you all. לוכסן (talk) 17:48, 30 July 2022 (UTC)[reply]

Discussion

[edit]
עברית: מתייג את אהבה כהן כי נראה לי שהספרייה הלאומית תתעניין בזה ומתייג את Geagea לעזרה בתיוג מי שצריך כדי לקדם את ההצעה הזאת. תודה רבה! לוכסן (talk) 17:58, 30 July 2022 (UTC)[reply]
Notified participants of WikiProject National Library of Israel לוכסן (talk) 19:13, 30 July 2022 (UTC)[reply]
עברית: לוכסן, כבר יש לנו את ULI ID (P10402) . האם הדאנקוד באמת נחוץ? Geagea (talk) 19:28, 30 July 2022 (UTC)[reply]
@Geagea: תודה על התשובה. למיטב הבנתי, כן. למשל, תראה את האתר של הוצאת נהר שמדבר על הספר Q113360746 ונרשם שם הדאנאקוד שלו, אך לא מזהה ה־ULI. זאת אומרת, יש המון מקומות בהם הדאנאקוד משמש כתעודת זהות עבור ספר (בדומה למסת"ב הבין־לאומי) ואז חשוב שנוכל לייצג את זה במערכת. ובדוגמה שנתתי, במערכת ה־ULI, אם מחפשים את שמו של ׳מותו של שאפתן׳, יש שתי תוצאות דומות (לי לא ברור מה ההבדל ביניהם), אך ברשומת ה־MARC של השני, הדאנאקוד נרשם שם, שאפשרי כי דאנאקוד נמצא בתקן פורמט MARC של ספריית קונגרס. לוכסן (talk) 06:11, 31 July 2022 (UTC)[reply]
אני רואה את דאנאקוד בMARK של הספרייה הלאומית. ראה ב-Q113360746 יש מזהה רשומה בספרייה הלאומית. אם אתה נכנס לרשומת המארק הדאנאקוד אכן מופיע. מכאן שאני יכול לשלוף מהרשומות של הספרייה הלאומית את הדאנאקוד עבור הפריטים שכבר יש להם NNL item ID (P3959). הבעייה היא קישור רשת. האם יש קישור רשת לדאנאקוד. איזשהו אתר שבקישור שלו מופיע הדאנאקוד? Geagea (talk) 13:44, 1 August 2022 (UTC)[reply]
@Geagea: לגבי אתרים שבכתובת ה־URL שלהם מופיע דאנאקוד, אני לא בטוח, אבל זה ברור שהאתרים האלה מבינים בדאנאקוד. למשל, באתר צומת הספרים, אם אני מכניס בתיבת החיפוש ״32-11048״, מופיע פופ-אפ קטן שמפנה לספר הראוי, ״1984״ (כתוב שם ״אלף תשע מאות שמונים וארבע״), אבל הדבר המוזר זה שאם אני מקיש אנטר, אני מגיע לדף תוצאות שאומר שאין תוצאות לחיפוש שלי. גם, אם אני מחפש שם את הדאנאקוד המורחב בעל 12 ספרות (כמוסבר לעיל), לא מופיע שום דבר. עם זאת, כתובת ה־URL עצמו של הספר 1984 באתר שלהם מכילה את הדאנאקוד המורחב (קישור ל־1984 בצומת הספרים). כמעט אותו הדבר קורה באתר bookme, בו משהו מופיע דרך הפופ-אפ אך לא אחרי לחיצת אנטר למרות שהדאנאקוד המקוצר מופיע ב־URL. חוץ מהבעיה המוזרה ההיא, לפחות לספרים ממו״לים ספציפיים, אפשר לחפש את הדאנאקוד שלהם באתר המו״ל (למשל, חיפוש ל־32-11048 באתר של עם עובד מחזיר את הפריט ל־1984). אולי אתה מומחה גדול ממני ותוכל לפענח את הפאזל הזה בצומת הספרים וב־bookme‏? :) לוכסן (talk) 14:55, 1 August 2022 (UTC)[reply]
מומחה או לאו, כל הנושא מצריך זמן לבדוק ולדייק את הכל, וזמן זה מצרך שאין לי אותו כרגע. צריך למלא את כל השדות וצריך קישור אחד טוב שבו אפשר להגיע לפריט. במקרה הזה צריך לחשוב מה לעשות. Geagea (talk) 15:01, 1 August 2022 (UTC)[reply]
גיאה, לבסוף הוספתי קישור שיכול להיות מתיאם (לאתר סימניה) יחד עם עוד כמה אפציות בתיאור לעיל. השאלה שעוד נותרת היא עם עדיף לאחסן את הייצוג המקוצר או המורחב במאפיין (הסברתי את זה בסוף התיאור לעיל וגם למטה בתשובתי לאהבה כהן). מה דעתך? תודה רבה! לוכסן (talk) 03:37, 11 June 2023 (UTC)[reply]
יש עניין לרשום את הדאנאקוד כי קיימים ספרים עם מספר זה שאינם ב-ULI (או שלא הגיעו לספרייה הלאומית או שהוחלט שהשינוי כל כך מינורי ששיני הדאנאקוד לא מהווה טריגר לחוק הפקדת ספרים). הקובץ באתר מרכז הספר והספריות אכן הוכן ע"י צוות רכש וקליטה בספרייה הלאומית. האם ניתן לקבוע שאתרי חנויות ספרים ומו"לים תמיד משתמשים בפורמט המקוצר של XX-XXXXX? אם כן, לא נראה לי בעיה לעשות קצת reverse engineering לאקסל ולהחזיר מהדאנאקוד המורחב את הקצר. --AhavaCohen (talk) 13:59, 2 August 2022 (UTC)[reply]
אהבה, תודה על תשובתך. סלחי לי על העיכוב הגדול כאן. חקרתי את זה קצת יותר ועדכנתי את התיאור לעיל. ואז, יש לי קישורים לSimania (Q6680757) ולMerhav (Q108571985) מהספרייה הלאומית שמצריכים את הדאנאקוד המורחב, אבל יש גם קישורים לAm Oved (Q2840776) ולSchocken Books (Q1020343) שמצריכים את המקוצר. אז, ממש לא ברור לי מה עדיף לאחסן במאפיין עצמו. מה דעתך? תודה רבה! לוכסן (talk) 03:33, 11 June 2023 (UTC)[reply]
  • I read the above through google translate. Seems like this is distinct from ULI ID. We don't actually need a URL formatter to make the property. So generally I support. BrokenSegue (talk) 04:16, 14 September 2022 (UTC)[reply]
    @BrokenSegue: Thank you for taking a look (and sorry for the delay). It is good to hear that a URL formatter isn't necessary. I did manage to find a few options in the end, which I added above. The remaining question is if we should store the short-form or the extended-form of the Danacode in this proposed property, as both forms are equivalent, and there are potential formatter URLs that work with each of the two formats (more description at the end of the motivation section above). What would you suggest? Thank you! לוכסן (talk) 03:42, 11 June 2023 (UTC)[reply]
    I would prefer the short form but I'll leave that decision up to someone with more domain expertise. It's been a long time since I read this but one thing I would clarify is whether this should be used on works or editions of works. ISBNs go on editions. BrokenSegue (talk) 03:52, 11 June 2023 (UTC)[reply]
    @BrokenSegue The identifier is for the manifestation (what I assume you're calling the edition) -- a different edition or publisher would, if rules were followed, require a new danacode. AhavaCohen (talk) 05:53, 11 June 2023 (UTC)[reply]
    The disadvantage of the short form is that one needs to have the book in hand or have the short form listed on the publisher's website to find the specific short form used (if any). The long form is the form in use in all Israeli academic libraries and in the Union List of Israel catalog and so can be added after the fact by anyone who searches those catalogs. That means we have two issues here: 1) Getting the code into Wikidata (easier with the long form) 2) Linking out from Wikidata to another location (easier form depends on where you want to go) AhavaCohen (talk) 05:58, 11 June 2023 (UTC)[reply]
  •  Support. I have read all again now. As a matter of fact it's works just like ISBN is working. I support the proposal per Dr. User:AhavaCohen. So few things:
  • a. Just like ISBN we need two Properties for the short-code and the long. Even though we have a way to transcode from the short to the long code we should have both just like ISBN.
( transcode: (explained her) also we have explanation how to calculate the check digit her (ספרת ביקורת) (Hebrew)).
  • b. The danacode id can be useful using this page (in English) (needed some adjustment).
  • c. I'ts been mentioned her that: "Danacode is recognized and registered as Standard Identifier Source Code at The Library of Congress". As the id appears in the National Library of Israel database I can create mix-n-match catalog. Geagea (talk) 14:54, 12 June 2023 (UTC)[reply]
@Geagea. Thank you for your response. I address each of your points separately:
  • a. Two separate properties sounds like an acceptable solution to me if it's what everyone thinks is most appropriate. I will note that the link you gave for calculating the check digit is correct for ISBN, but not for Danacode. Please see the Wikipedia article דאנאקוד#ספרת הביקורת (Hebrew), where I described the calculation of the check digit (based on the Excel sheet provided by the National Library of Israel (Q188915) for converting from the short to long forms of the Danacode).
  • b. I didn't know that we could make that page accept IDs other than ISBN. Yes, it would be great for us to add the Danacode there as well.
  • c. Making a Mix-n-match sounds great. Please see here on the Danacode item which links to the specific place in the LoC vocabulary.
לוכסן (talk) 16:00, 12 June 2023 (UTC)[reply]

@AhavaCohen, לוכסן, Geagea: I've created properties Danacode (short) (P12147) and Danacode (long) (P12148). Feel free to check that the format as a regular expression (P1793) is as precise as possible and also please add a suitable formatter URL (P1630) for Danacode (long) (P12148). Thanks! Vojtěch Dostál (talk) 14:43, 16 November 2023 (UTC)[reply]

@Vojtěch Dostál Thank you! AhavaCohen (talk) 15:33, 20 November 2023 (UTC)[reply]